什么是全文檢索全文檢索的簡介
全文檢索是一種將文件中所有文本與檢索項匹配的文字資料檢索方法。那么你對全文檢索了解多少呢?以下是由學習啦小編整理關(guān)于什么是全文檢索的內(nèi)容,希望大家喜歡!
全文檢索的簡介
基本介紹
全文檢索是將存儲于數(shù)據(jù)庫中整本書、整篇文章中的任意內(nèi)容信息查找出來的檢索。它可以根據(jù)需要獲得全文中有關(guān)章、節(jié)、段、句、詞等信息,也就是說類似于給整本書的每個字詞添加一個標簽,也可以進行各種統(tǒng)計和分析。例如,它可以很快的回答“《紅樓夢》一書中“林黛玉”一共出現(xiàn)多少次?”的問題。
與之相關(guān)的議題
語根處理 (stemming)
符素解析器 (token parser) 1-gram, 2-gram , n-gram
斷詞/分詞 word segmentation
倒排索引 inverted index
算法、搜尋策略之模型
布爾式 boolean
統(tǒng)計模型 Probabilistic model
向量空間模型 vector base model
隱性語義模型 Latent semantic model
系統(tǒng)檢索的介紹
評量之準則
判斷檢索效果的兩個指標:
查全率=被檢出相關(guān)信息量/相關(guān)信息總量(%)
查準率=被檢出相關(guān)信息量/被檢出信息總量(%)
開放源代碼之全文檢索系統(tǒng)
Apache Solr
BaseX
Clusterpoint Server(freeware licence for a single-server)
DataparkSearch
Ferret
Ht-//Dig
Hyper Estraier
KinoSearch
Lemur/Indri
Lucene
mnoGoSearch
Sphinx
Swish-e
Xapian
ElasticSearch
議題優(yōu)化的概念
和中文有關(guān)的議題
斷詞(分詞)
語法解析
古籍議題
多語言混合
優(yōu)化
剔除字(Stopwords)
詞性標注
權(quán)威檔(authority file)
知識體系,本體論(ontology)
超鏈接分析(page rank)技術(shù)
歷史及未來之趨勢
自由語句搜尋
基于自然語言的分詞
看過“全文檢索的簡介”的人還看了: