搜索引擎關(guān)鍵技術(shù)論文
搜索引擎關(guān)鍵技術(shù)論文
隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,人們要在互聯(lián)網(wǎng)的海量信息中查找自己所需的信息,就要使用搜索引擎,搜索引擎已經(jīng)成為人們獲取信息的重要手段。下面是學(xué)習(xí)啦小編整理的搜索引擎關(guān)鍵技術(shù)論文,希望你能從中得到感悟!
搜索引擎關(guān)鍵技術(shù)論文篇一
淺談元搜索引擎的關(guān)鍵技術(shù)
摘 要:元搜索引擎可以很好解決傳統(tǒng)搜索引擎的覆蓋率不全的問(wèn)題,并且可以綜合多個(gè)傳統(tǒng)搜索引擎的優(yōu)勢(shì)。專門建立一個(gè)基于多個(gè)傳統(tǒng)的搜索引擎的結(jié)果集之上的搜索引擎,以提高搜索服務(wù)質(zhì)量,元搜索引擎通過(guò)整合多個(gè)成員搜索引擎的搜索結(jié)果來(lái)提供自己的搜索結(jié)果,在這個(gè)過(guò)程中就涉及到查詢轉(zhuǎn)換、成員搜索引擎調(diào)度、搜索結(jié)果排序合成等一系列關(guān)鍵技術(shù)。
關(guān)鍵詞:元搜索引擎;查詢轉(zhuǎn)換;引擎調(diào)度
中圖分類號(hào):TP393
元搜索引擎又稱集合型搜索引擎。它并沒(méi)有自己的索引數(shù)據(jù)庫(kù),也沒(méi)有抓取機(jī)器人,僅僅只是充當(dāng)中間代理的作用。元搜索引擎將多個(gè)單一的搜索引擎集成在一起,提供統(tǒng)一的檢索界面,將用戶的檢索請(qǐng)求分別提交給多個(gè)獨(dú)立的搜索引擎,同時(shí)檢索多個(gè)數(shù)據(jù)庫(kù);并根據(jù)多個(gè)獨(dú)立搜索引擎的檢索結(jié)果進(jìn)行二次加工,如對(duì)檢索結(jié)果去重、排序等;然后再輸出給用戶由于元搜索引擎整合了多個(gè)搜索引擎的搜索結(jié)果。元搜索引擎通常具有比傳統(tǒng)的搜索引擎更大的信息覆蓋面,可以有效的提高查全率。
元搜索引擎可以劃分為三個(gè)模塊部分:用戶請(qǐng)求端、后臺(tái)業(yè)務(wù)邏輯處理模塊、結(jié)果重新顯示模塊。用戶請(qǐng)求端負(fù)責(zé)與用戶的交互,接收用戶的請(qǐng)求,并把請(qǐng)求傳至后臺(tái)的服務(wù)模塊處理。用戶請(qǐng)求端還負(fù)責(zé)處理用戶的個(gè)性化配置,如配置成員搜索引擎的信任權(quán)重值等等用戶個(gè)性化配置。后臺(tái)業(yè)務(wù)邏輯處理模塊的主要功能是負(fù)責(zé)將用戶的請(qǐng)求轉(zhuǎn)化為成員搜索引擎所能理解的模式,并在接收成員搜索引擎所返回來(lái)的結(jié)果后,對(duì)搜索結(jié)果進(jìn)行解析、提取、排序合成等處理。結(jié)果顯示主要負(fù)責(zé)最終結(jié)果的顯示,同時(shí)提供一些額外的效果以提供更好的用戶體驗(yàn),如將用戶檢索關(guān)鍵字分詞后高亮顯示等等[1]。
元搜索引擎雖然可以方便用戶同時(shí)檢索多個(gè)搜索引擎,但是提高查全率的同時(shí),也引入了新的問(wèn)題:對(duì)于特定的用戶搜索,有的成員搜索引擎有較高的準(zhǔn)確率,而有的則具有極低的準(zhǔn)確率,即成員搜索引擎的有效性存在較大的差異。如果排序合成算法處理的不當(dāng),則容易淹沒(méi)滿足用戶檢索需求的搜索結(jié)果。另外元搜索引擎需要同時(shí)向多個(gè)成員搜索引擎發(fā)送請(qǐng)求并獲取檢索結(jié)果,然后再對(duì)搜索結(jié)果進(jìn)行整合,增加了時(shí)間損耗,也增加了用戶的檢索等待時(shí)間。所以如何解決好這兩個(gè)問(wèn)題,是構(gòu)建一個(gè)成功的元搜索引擎的關(guān)鍵。由于元搜索引擎的結(jié)果集成了多個(gè)成員搜索引擎的搜索結(jié)果,信息量通常比較大。用戶通常不會(huì)對(duì)所有的結(jié)果進(jìn)行遍歷,而是僅僅關(guān)注前幾條或者前幾頁(yè)的信息。如何將用戶需要的結(jié)果盡可能的排在前面就顯得尤為重要。元搜索引擎的排序合成正是完成對(duì)多個(gè)成員搜索引擎的搜索結(jié)果進(jìn)行整合的模塊,排序合成算法的優(yōu)劣將直接影響到元搜索引擎的效率。因此如何對(duì)成員搜索引擎的結(jié)果進(jìn)行有效的整合成為元搜索引擎的核心問(wèn)題。
1 元搜索引擎關(guān)鍵技術(shù)
元搜索引擎通過(guò)整合多個(gè)成員搜索引擎的搜索結(jié)果來(lái)提供自己的搜索結(jié)果,在這個(gè)過(guò)程中就涉及到查詢轉(zhuǎn)換、成員搜索引擎調(diào)度、搜索結(jié)果排序合成等一系列關(guān)鍵技術(shù)[25,26]。
1.1 查詢轉(zhuǎn)換
由于不同的成員搜索引擎對(duì)于查詢的格式要求往往是不一樣的,因此元搜索引擎系統(tǒng)在向成員搜索引擎發(fā)送檢索請(qǐng)求之前,先要將用戶輸入的檢索關(guān)鍵字轉(zhuǎn)換為各個(gè)成員搜索引擎所規(guī)定的格式。例如編碼的轉(zhuǎn)換、特殊字符的處理等。
除了提供最基本的查詢轉(zhuǎn)換之外,有的元搜索引擎為了提高查詢的準(zhǔn)確率,還提供了一些擴(kuò)展的操作符和查詢語(yǔ)法以擴(kuò)充用戶的查詢請(qǐng)求。這通常需要預(yù)先對(duì)用戶的檢索關(guān)鍵字進(jìn)行處理,然后根據(jù)預(yù)定義的操作符和查詢語(yǔ)法的格式,將用戶的檢索關(guān)鍵字轉(zhuǎn)換為新的檢索關(guān)鍵字。例如有的搜索引擎提供了“與”和“或”操作。為了提供更加專門化的檢索,有的搜索引擎還會(huì)對(duì)用戶的檢索關(guān)鍵字進(jìn)行分詞,然后根據(jù)每個(gè)分詞單元所屬的類別的信息,來(lái)確定所要調(diào)用的成員搜索引擎[1]。
1.2 成員搜索引擎調(diào)度
每個(gè)搜索引擎所擅長(zhǎng)的領(lǐng)域通常有所不同,例如百度擅長(zhǎng)中文搜索,谷歌和必應(yīng)擅長(zhǎng)英文搜索。而且每多調(diào)用一個(gè)成員搜索都會(huì)消耗一定的系統(tǒng)資源,同時(shí)也會(huì)增加查詢延遲,增加用戶的等待時(shí)間。因此需要選擇合適的成員搜索引擎來(lái)獲取滿足用戶檢索需求的搜索結(jié)果。
目前常用的成員搜索引擎調(diào)度有兩種:一種是由用戶自定義所要調(diào)用的成員搜索引擎。這種方式的優(yōu)點(diǎn)是給予了用戶較大限度的選擇權(quán),同時(shí)也免去了系統(tǒng)計(jì)算成員搜索引擎調(diào)度信息的損耗。但是每當(dāng)用戶檢索不同類別的關(guān)鍵字時(shí),往往需要重新指定成員搜索引擎。但是大部分互聯(lián)網(wǎng)用戶通常不知道自己所檢索的關(guān)鍵字應(yīng)該選擇那些成員搜索引擎,因此具有較差的用戶體驗(yàn)。另外一種是由系統(tǒng)決定選擇那些成員搜索引擎。這種方式的優(yōu)點(diǎn)是用戶檢索時(shí)不必預(yù)先指定成員搜索引擎,具有較好的用戶體驗(yàn)。但是系統(tǒng)往往需要大量的計(jì)算以確定每次用戶搜索所需要調(diào)度的成員搜索引擎。例如通過(guò)學(xué)習(xí)的策略來(lái)確定所要調(diào)度的成員搜索引擎,往往需要預(yù)先用大量的資料來(lái)訓(xùn)練算法。這往往需要消耗大量的系統(tǒng)資源[2,3]。
1.3 搜索結(jié)果排序合成
搜索結(jié)果排序合成,就是對(duì)元搜索引擎系統(tǒng)中集成的各個(gè)成員搜索引擎的搜索結(jié)果進(jìn)行合成、去重和重排序的過(guò)程,這也是現(xiàn)在大多數(shù)元搜索引擎系統(tǒng)的核心。搜索結(jié)果排序合成一般分為三個(gè)過(guò)程:去重、合成、重排序。合并,就是將元搜索引擎中各個(gè)成員搜索引擎的搜索結(jié)果進(jìn)行整合的過(guò)程,在這個(gè)過(guò)程中,往往還要記錄一些其他的信息,例如對(duì)于每個(gè)成員搜索引擎可能需要記錄抓取的搜索結(jié)果的總數(shù)、抓取到的搜索結(jié)果總數(shù)等信息,對(duì)于每條搜索結(jié)果可能需要記錄所在的成員搜索引擎、在原成員搜索引擎中的位置等信息。去重,就是將元搜索引擎系統(tǒng)中集成的各個(gè)成員搜索引擎中重復(fù)的搜索結(jié)果進(jìn)行去除的過(guò)程,在這個(gè)過(guò)程中往往也需要記錄一些其他的信息,例如每條搜索結(jié)果的“共識(shí)度”,即包含它的成員搜索引擎的個(gè)數(shù),不同的元搜索引擎系統(tǒng)可能會(huì)采用不同的去重算法,常見(jiàn)的去重方式有兩種,一種是僅僅根據(jù)搜索結(jié)果的URL信息來(lái)判斷是否是重復(fù)的,另一種除了根據(jù)URL信息判斷之外,還根據(jù)具體的內(nèi)容信息來(lái)判斷是否是重復(fù)的信息,例如對(duì)于原創(chuàng)和重載的文章,就認(rèn)為是重復(fù)的。重排序,就是對(duì)于去重后的搜索結(jié)果進(jìn)行重新排序的過(guò)程。重排序往往采用重新計(jì)算每條搜索結(jié)果的權(quán)重信息,然后再根據(jù)權(quán)重信息來(lái)重新排序。不同的元搜索引擎系統(tǒng)往往考慮不同的因素和采取不同的算法來(lái)進(jìn)行權(quán)重的計(jì)算。常見(jiàn)的影響權(quán)重的因素有成員搜索引擎的有效性、搜索結(jié)果在原成員搜索引擎中的位置、搜索結(jié)果的摘要信息和描述信息與用戶檢索關(guān)鍵字之間的匹配度、搜索結(jié)果在元搜索引擎系統(tǒng)集成的成員搜索引擎中的共識(shí)度等。常見(jiàn)的權(quán)重計(jì)算方式有兩種,一種是由用戶自定義相應(yīng)的權(quán)重信息,另一種是由元搜索引擎系統(tǒng)本身根據(jù)相關(guān)信息來(lái)計(jì)算每條搜索結(jié)果的權(quán)重,例如機(jī)器學(xué)習(xí)算法就是一種常被用來(lái)計(jì)算權(quán)重的算法,通過(guò)采用大量的數(shù)據(jù)來(lái)訓(xùn)練算法以確定相應(yīng)的參數(shù),然后采用訓(xùn)練后的算法來(lái)進(jìn)行權(quán)重信息的計(jì)算[4]。
參考文獻(xiàn):
[1]強(qiáng)弓,喻國(guó)寶,廖湖聲.一種元搜索引擎的查詢結(jié)果處理模型[J].華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2004,32:47-51,57.
[2]李村合,孟文杰.基于分類評(píng)價(jià)的元搜索引擎調(diào)度策略[J].計(jì)算機(jī)工程與設(shè)計(jì),2008,29(5):1065-1066,1119.
[3]張衛(wèi)豐,徐寶文,周曉宇.基于遺傳算法的搜索引擎調(diào)度[J].微電子學(xué)與計(jì)算機(jī),2001(4):34-38.
[4]楊春明,何天翔.元搜索引擎的結(jié)果去重及排序研究[J].軟件,2012,33(6):51-53.
作者單位:湖南鐵道職業(yè)技術(shù)學(xué)院,湖南株洲 412001
點(diǎn)擊下頁(yè)還有更多>>>搜索引擎關(guān)鍵技術(shù)論文