什么是全文搜索全文搜索的方法
什么是全文搜索全文搜索的方法
全文檢索是指計(jì)算機(jī)索引程序通過掃描文章中的每一個(gè)詞,對每一個(gè)詞建立一個(gè)索引,指明該詞在文章中出現(xiàn)的次數(shù)和位置,以下是由學(xué)習(xí)啦小編整理關(guān)于什么是全文搜索的內(nèi)容,希望大家喜歡!
全文搜索的方法
主要分為按字檢索和按詞檢索兩種。按字檢索是指對于文章中的每一個(gè)字都建立索引,檢索時(shí)將詞分解為字的組合。對于各種不同的語言而言,字有不同的含義,比如英文中字與詞實(shí)際上是合一的,而中文中字與詞有很大分別。按詞檢索指對文章中的詞,即語義單位建立索引,檢索時(shí)按詞檢索,并且可以處理同義項(xiàng)等。英文等西方文字由于按照空白切分詞,因此實(shí)現(xiàn)上與按字處理類似,添加同義處理也很容易。中文等東方文字則需要切分字詞,以達(dá)到按詞索引的目的,關(guān)于這方面的問題,是當(dāng)前全文檢索技術(shù)尤其是中文全文檢索技術(shù)中的難點(diǎn)。
全文搜索的系統(tǒng)
全文檢索系統(tǒng)是按照全文檢索理論建立起來的用于提供全文檢索服務(wù)的軟件系統(tǒng)。一般來說,全文檢索需要具備建立索引和提供查詢的基本功能,此外現(xiàn)代的全文檢索系統(tǒng)還需要具有方便的用戶接口、面向WWW的開發(fā)接口、二次應(yīng)用開發(fā)接口等等。功能上,全文檢索系統(tǒng)核心具有建立索引、處理查詢返回結(jié)果集、增加索引、優(yōu)化索引結(jié)構(gòu)等等功能,外圍則由各種不同應(yīng)用具有的功能組成。結(jié)構(gòu)上,全文檢索系統(tǒng)核心具有索引引擎、查詢引擎、文本分析引擎、對外接口等等,加上各種外圍應(yīng)用系統(tǒng)等等共同構(gòu)成了全文檢索系統(tǒng)。
全文搜索系統(tǒng)的功能特點(diǎn)
強(qiáng)大的信息采集能力
全文檢索系統(tǒng)是以先進(jìn)的搜索技術(shù)為核心,并針對專業(yè)用戶所要求的搜索深度深、采集精度高和抓取速度快等進(jìn)行了專門的優(yōu)化,采用了分布式多線程并發(fā)指令執(zhí)行體系結(jié)構(gòu),95%信息分鐘級到達(dá)本地。能夠采集多種動(dòng)態(tài)和靜態(tài)網(wǎng)頁類型、多種文檔、數(shù)據(jù)庫類型,同時(shí)網(wǎng)頁實(shí)時(shí)增量采集技術(shù)實(shí)現(xiàn)分秒監(jiān)測網(wǎng)站信息變化動(dòng)態(tài),使網(wǎng)站隨時(shí)獲取最新的信息資源。
分秒級的實(shí)時(shí)檢索
全文檢索系統(tǒng)采用獨(dú)有的增量實(shí)時(shí)索引技術(shù)保證信息即時(shí)采集即時(shí)檢索,使用戶隨時(shí)檢索到行業(yè)/地區(qū)最新的信息。
快速的檢索響應(yīng)
全文檢索系統(tǒng)可實(shí)現(xiàn)亞秒級的檢索速度以及每秒上百次的并發(fā)檢索支持,保證全面快速的響應(yīng)用戶檢索需求。
全面的檢索功能
全文檢索系統(tǒng)可實(shí)現(xiàn)全文檢索,完全支持布爾邏輯檢索、支持n階漸進(jìn)檢索、支持同義詞檢索、支持自定義用戶詞典,模糊檢索,相關(guān)檢索等,并可以由系統(tǒng)管理員人工過濾不當(dāng)網(wǎng)頁,為用戶提供最為適當(dāng)?shù)臋z索結(jié)果。
精確的檢索結(jié)果
全文檢索系統(tǒng)采用智能中文切詞技術(shù),避免中文檢索的歧義與多義現(xiàn)象,同時(shí)采用相關(guān)性算法對網(wǎng)頁進(jìn)行排序,保證檢索相關(guān)性最高的頁面放在最前面。
豐富的檢索結(jié)果展示
全文檢索系統(tǒng)為用戶提供豐富的檢索結(jié)果展示,能夠根據(jù)每個(gè)網(wǎng)站的不同風(fēng)格和要求定制結(jié)果顯示模版。檢索結(jié)果包括智能動(dòng)態(tài)摘要、獨(dú)有的網(wǎng)頁快照,以及多種檢索結(jié)果排序方式等等。能夠極大的方便用戶對檢索結(jié)果的瀏覽查看,提高用戶對檢索效果的滿意度。
基于Web的系統(tǒng)管理平臺
全文檢索系統(tǒng)采用標(biāo)準(zhǔn)的B/S架構(gòu),系統(tǒng)管理員可以隨時(shí)隨地通過瀏覽器登陸Web管理界面對整個(gè)系統(tǒng)的各項(xiàng)功能進(jìn)行管理和系統(tǒng)維護(hù),操作簡單易用,無需專業(yè)培訓(xùn)即可迅速上手。
看過“全文搜索的方法”的人還看了: