搜索引擎技術(shù)論文
搜索引擎是伴隨互聯(lián)網(wǎng)的發(fā)展而產(chǎn)生和發(fā)展的,互聯(lián)網(wǎng)已成為人們學(xué)習(xí)、工作和生活中不可缺少的平臺(tái),幾乎每個(gè)人上網(wǎng)都會(huì)使用搜索引擎。下面是學(xué)習(xí)啦小編整理的搜索引擎技術(shù)論文,希望你能從中得到感悟!
搜索引擎技術(shù)論文篇一
中文智能搜索引擎技術(shù)研究
引言
隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)信息量不斷增加。面對(duì)數(shù)量龐大,種類(lèi)多樣的信息,一般搜索引擎無(wú)法為用戶(hù)提供準(zhǔn)確的檢索結(jié)果,開(kāi)發(fā)新的搜索引擎勢(shì)在必行。智能搜索引擎不僅要提高信息檢索準(zhǔn)確性和全面性,還要滿(mǎn)足用戶(hù)個(gè)性等搜索信息需求。搜索引擎與智能代理相結(jié)合的智能化搜索引擎技術(shù)能夠比較好的實(shí)現(xiàn)這一目標(biāo)。
1 搜索引擎
1.1 搜索引擎基本原理
搜索引擎由信息搜集系統(tǒng)、文件處理系統(tǒng)、索引系統(tǒng)和檢索系統(tǒng)組成。
信息搜集系統(tǒng)通過(guò)網(wǎng)頁(yè)抓取程序(spider)在網(wǎng)絡(luò)中順著網(wǎng)頁(yè)的超鏈接抓取網(wǎng)頁(yè),搜集文檔的基本信息并下載至搜索引擎本地,然后將文檔和其基本信息分開(kāi),并保存到原始文檔數(shù)據(jù)庫(kù)和文檔信息數(shù)據(jù)庫(kù)中。
文件處理系統(tǒng)負(fù)責(zé)將需要索引的文件轉(zhuǎn)換成具有統(tǒng)一編碼格式的文本文件。信息搜集系統(tǒng)從網(wǎng)絡(luò)上下載文件,保存到本地供索引器索引。文件文本格式種類(lèi)繁多,如純文本文件、html格式文件、word文件、pdf文檔等,文本格式相同的文件,字符編碼方式也不盡相同。文件的異構(gòu)性要求文件處理系統(tǒng)將各種不同格式的類(lèi)文本文件轉(zhuǎn)換成純文本文件。
索引系統(tǒng)將程序收集到的文件進(jìn)行處理,建立索引庫(kù)和索引。相關(guān)處理還包括去除重復(fù)網(wǎng)頁(yè)、分詞(中文)、判斷網(wǎng)頁(yè)類(lèi)型、分析超鏈接,計(jì)算網(wǎng)頁(yè)的重要度、豐富度等。
檢索系統(tǒng)通過(guò)用戶(hù)輸入的關(guān)鍵詞從索引數(shù)據(jù)庫(kù)中找到與關(guān)鍵詞匹配的網(wǎng)頁(yè),并按照文檔得分的高低依次顯示在用戶(hù)瀏覽器中。
1.2 傳統(tǒng)搜索引擎的局限性
面對(duì)浩如煙海的網(wǎng)絡(luò)信息,用戶(hù)想要通過(guò)一般搜索引擎獲取準(zhǔn)確和全面的信息較困難。其局限性表現(xiàn)在:
(1)信息檢索方式單一。搜索引擎一般提供網(wǎng)站分類(lèi)查詢(xún)和關(guān)鍵詞全文檢索兩種方式,這兩種方法均容易造成信息丟失,不能全面檢索用戶(hù)需要的信息;不能對(duì)用戶(hù)輸入的關(guān)鍵詞進(jìn)行詞意分析和詞意擴(kuò)展。如今信息的多樣化要求搜索引擎不僅要檢索出文檔,還要檢索需要的圖片、視頻、音頻等。
(2)不能個(gè)性化制定。傳統(tǒng)搜索引擎提供相同的界面和檢索策略,不能提供用戶(hù)信息定制,不同用戶(hù)輸入相同的查詢(xún)條件返回的結(jié)果相同。不同領(lǐng)域的用戶(hù)對(duì)同一個(gè)關(guān)鍵詞的搜索返回的檢索結(jié)果應(yīng)該不一樣,智能搜索引擎能根據(jù)用戶(hù)專(zhuān)業(yè)背景和網(wǎng)頁(yè)瀏覽歷史檢索出用戶(hù)需求的信息。
(3)對(duì)信息的標(biāo)引深度不夠。搜索引擎檢索的結(jié)果往往只提供線(xiàn)形的網(wǎng)址和包括關(guān)鍵詞的網(wǎng)頁(yè)信息,或者返回過(guò)多的無(wú)用信息,特別是對(duì)特定文獻(xiàn)數(shù)據(jù)庫(kù)的檢索更顯得無(wú)能為力[1]。
(4)信息更新能力低。搜索引擎信息收集和查詢(xún)是兩個(gè)分離的過(guò)程,缺少有機(jī)結(jié)合。網(wǎng)絡(luò)信息資源呈分布式、動(dòng)態(tài)、快速增長(zhǎng),搜索引擎的集中化架構(gòu)不能跟上文檔的擴(kuò)張速度,也就不能有規(guī)律地及時(shí)更新數(shù)據(jù)庫(kù),用戶(hù)檢索到的結(jié)果可能不是最新信息。
2 智能搜索引擎
智能搜索引擎應(yīng)擺脫傳統(tǒng)搜索引擎的局限性,更加智能化,更具主動(dòng)性,提供多元化的檢索方式,為用戶(hù)提供個(gè)性化制定,檢索出滿(mǎn)足用戶(hù)個(gè)性需求。
2.1 智能搜索引擎主要特征
(1)智能性。智能化搜索引擎網(wǎng)絡(luò)蜘蛛通過(guò)自主啟發(fā)式學(xué)習(xí)選擇最有效的搜索策略和最佳時(shí)機(jī),在特定站點(diǎn)或者整個(gè)因特網(wǎng)搜集和整理信息。智能化搜索引擎可以將多個(gè)引擎的搜索結(jié)果進(jìn)行整合,作為一個(gè)整體存放到數(shù)據(jù)庫(kù)中。
(2)個(gè)性化。智能化搜索引擎提供個(gè)性化制定服務(wù),用戶(hù)注冊(cè)基本信息,如年齡、專(zhuān)業(yè)背景、工作方向等,通過(guò)分析用戶(hù)基本信息及平時(shí)瀏覽網(wǎng)頁(yè)的記錄制定出用戶(hù)興趣模塊,檢索出來(lái)的信息和用戶(hù)興趣相關(guān),不同興趣的用戶(hù)輸入同一個(gè)關(guān)鍵詞返回的結(jié)果可能不同。
(3)多元化。智能化搜索引擎有多元化的檢索方式,提供基于大眾的搜索分析,基于自然語(yǔ)言、關(guān)鍵詞、概念和上下文,通過(guò)相關(guān)反饋技術(shù)檢索可選擇查詢(xún)路徑。對(duì)關(guān)鍵詞進(jìn)行詞意擴(kuò)展和詞意派生,實(shí)現(xiàn)準(zhǔn)確的分詞,從而更加準(zhǔn)確地把握用戶(hù)的搜索需求。
(4)協(xié)作性。智能化搜索引擎能通過(guò)各種通信協(xié)議和其它智能代理進(jìn)行信息交流 ,并可以相互協(xié)調(diào)共同完成復(fù)雜任務(wù)[2]。
2.2 智能搜索引擎技術(shù)
要實(shí)現(xiàn)智能化搜索引擎,當(dāng)前要特別加強(qiáng)對(duì)漢語(yǔ)分詞技術(shù)、短語(yǔ)識(shí)別技術(shù)、同義詞處理技術(shù)、知識(shí)庫(kù)與推理機(jī)應(yīng)有技術(shù)和人機(jī)對(duì)話(huà)智能技術(shù)的研究。
智能化搜索引擎對(duì)語(yǔ)義的理解主要體現(xiàn)在以下兩個(gè)方面:一是對(duì)用戶(hù)輸入的關(guān)鍵詞的理解;二是對(duì)網(wǎng)頁(yè)信息內(nèi)容的理解。傳統(tǒng)搜索引擎對(duì)關(guān)鍵字的識(shí)別是較機(jī)械的匹配方式,容易造成信息不準(zhǔn)確和丟失。智能化搜索引擎可對(duì)用戶(hù)輸入的關(guān)鍵詞進(jìn)行語(yǔ)義理解,并返回用戶(hù)想要的信息。自然語(yǔ)言語(yǔ)義理解的技術(shù)主要有4種:①漢語(yǔ)分詞技術(shù)。中國(guó)文化博大精深,語(yǔ)句是由各種詞語(yǔ)按照一定的語(yǔ)序組成的。漢語(yǔ)對(duì)詞語(yǔ)的劃分相對(duì)英文來(lái)說(shuō)復(fù)雜得多,漢語(yǔ)詞語(yǔ)可以是由一個(gè)字或者多個(gè)字組成。漢語(yǔ)分詞技術(shù)主要有基于字典、詞庫(kù)匹配的分詞、基于詞頻度和基于知識(shí)理解的分詞,通過(guò)這些方法準(zhǔn)確把握用戶(hù)輸入關(guān)鍵詞的含義;②短語(yǔ)識(shí)別技術(shù)。短語(yǔ)是由詞語(yǔ)所構(gòu)成的,是句子中基本的識(shí)別單位,在漢語(yǔ)句法分析和語(yǔ)義分析中具有重大意義。用戶(hù)搜索有時(shí)需要對(duì)關(guān)鍵詞加一定的修飾詞,例如關(guān)鍵字為“搜索”,加入修飾詞可為“個(gè)性化的搜索”,前者就是詞語(yǔ),后者為短語(yǔ)。需要通過(guò)短語(yǔ)識(shí)別技術(shù)對(duì)關(guān)鍵詞進(jìn)行正確的分詞,從而準(zhǔn)確理解用戶(hù)的查詢(xún)需求;③同義詞處理技術(shù)。包括基于詞匯字面相似度算法、基于詞素的語(yǔ)義相似度算法以及基于《同義詞詞林》、《知網(wǎng)》等語(yǔ)義詞典的語(yǔ)義相似度算法。主要依靠人工方式構(gòu)造同義詞庫(kù)等輔助詞庫(kù),利用搜索引擎主動(dòng)聯(lián)想技術(shù)實(shí)現(xiàn)對(duì)同義詞的聯(lián)想,準(zhǔn)確把握用戶(hù)關(guān)鍵詞語(yǔ)義;④知識(shí)庫(kù)構(gòu)建技術(shù)。知識(shí)庫(kù)包含各種詞典,詞典按其功能不同可分成定義詞詞典、同名詞詞典、派生詞詞典等,詞典按詞的確定性又可分成系統(tǒng)詞典與用戶(hù)詞典。這些詞典構(gòu)成了一個(gè)龐大而復(fù)雜的知識(shí)庫(kù)。
人機(jī)接口智能化主要有以下技術(shù): ①人機(jī)交互界面技術(shù)。智能化搜索引擎界面具有智能化、多元化、個(gè)性化等特點(diǎn)。其技術(shù)主要包括搜索請(qǐng)求提交技術(shù)、搜索結(jié)果表現(xiàn)技術(shù)、搜索向?qū)Ъ夹g(shù)、搜索行為分析技術(shù)。其中,搜索行為分析技術(shù)是個(gè)性化搜索的關(guān)鍵技術(shù),它通過(guò)分析用戶(hù)的瀏覽記錄和搜索習(xí)慣來(lái)提高搜索效率;②關(guān)聯(lián)式綜合搜索。將圖片、新聞等各種有關(guān)聯(lián)的信息呈現(xiàn)在同一界面上,用戶(hù)搜索時(shí)只需查詢(xún)一次,即可在同一界面得到各種有關(guān)聯(lián)的查詢(xún)結(jié)果。
隨著云技術(shù)的出現(xiàn),智能搜索引擎將全球服務(wù)器當(dāng)作一個(gè)云系統(tǒng),從而極大提升從數(shù)據(jù)庫(kù)中提取信息速度。云技術(shù)的成熟能夠有效提升搜索引擎的算法速度,提高智能搜索引擎的運(yùn)行速度[3]。
3 結(jié)語(yǔ)
智能化搜索引擎技術(shù)的發(fā)展首先應(yīng)該解決目前搜索引擎的局限性,然后再添加智能搜索。智能搜索引擎應(yīng)該在以下幾個(gè)方面尋求發(fā)展:提供友好的查詢(xún)界面;多元化的檢索方式;強(qiáng)大的自然語(yǔ)言理解技術(shù);豐富的知識(shí)庫(kù);考慮按時(shí)間、地域順序輸出檢索結(jié)果,以便用戶(hù)選擇所需的最新信息;查詢(xún)結(jié)果文摘?jiǎng)討B(tài)生成;結(jié)果自動(dòng)綜合分析和評(píng)分[4]。
隨著搜索引擎技術(shù)的發(fā)展,智能化搜索引擎變得更多元化、親切、個(gè)性化,廣泛融入進(jìn)人們的生活,為用戶(hù)提供更準(zhǔn)確、符合需求的搜索信息。
點(diǎn)擊下頁(yè)還有更多>>>搜索引擎技術(shù)論文