特黄特色三级在线观看免费,看黄色片子免费,色综合久,欧美在线视频看看,高潮胡言乱语对白刺激国产,伊人网成人,中文字幕亚洲一碰就硬老熟妇

學習啦>論文大全>技術論文>

搜索引擎技術論文(2)

時間: 家文952 分享

  搜索引擎技術論文篇二

  搜索引擎技術及研究

  引言

  隨著計算機網絡技術的飛速發(fā)展,人們要在互聯網的海量信息中查找自己所需的信息,就要使用搜索引擎,搜索引擎已經成為人們獲取信息的重要手段。搜索引擎從廣義的角度來講,是指互聯網上提供用戶檢索接口并且具有檢索功能的網站,它能幫助人們在互聯網中查找到所需要的信息;從狹義的角度來講,搜索引擎是指根據某種策略、運用特定的計算機程序從網絡上搜集要查找的信息,對信息進行組織和處理后,為用戶提供檢索服務,將用戶檢索的相關信息展現給用戶的系統。

  1 搜索引擎的發(fā)展歷程

  搜索引擎是伴隨互聯網的發(fā)展而產生和發(fā)展的,互聯網已成為人們學習、工作和生活中不可缺少的平臺,幾乎每個人上網都會使用搜索引擎。搜索引擎大致經歷了四代的發(fā)展。

  1.1 第一代搜索引擎

  1994年第一代真正基于互聯網的搜索引擎Lycos誕生,它以人工分類目錄為主,代表廠商是Yahoo,特點是人工分類存放網站的各種目錄,用戶通過多種方式尋找網站,現在也還有這種方式存在。

  1.2 第二代搜索引擎

  隨著網絡應用技術的發(fā)展,用戶開始希望對內容進行查找,出現了第二代搜索引擎,也就是利用關鍵字來查詢。最具代表性、最成功的是Google,它建立在網頁鏈接分析技術的基礎上,使用關鍵字對網頁搜索,能夠覆蓋互聯網的大量網頁內容,該技術可以分析網頁的重要性后,將重要的結果呈現給用戶。

  1.3 第三代搜索引擎

  隨著網絡信息的迅速膨脹,用戶希望能快速并且準確的查找到自己所要的信息,因此出現了第三代搜索引擎。相比前兩代,第三代搜索引擎更加注重個性化、專業(yè)化、智能化,使用自動聚類、分類等人工智能技術,采用區(qū)域智能識別及內容分析技術,利用人工介入,實現技術和人工的完美結合,增強了搜索引擎的查詢能力。第三代搜索引擎的代表是Google,它以寬廣的信息覆蓋率和優(yōu)秀的搜索性能為發(fā)展搜索引擎的技術開創(chuàng)了嶄新的局面。

  1.4 第四代搜索引擎

  隨著信息多元化的快速發(fā)展,通用搜索引擎在目前的硬件條件下要得到互聯網上比較全面的信息是不太可能的,這時,用戶就需要數據全面、更新及時、分類細致的面向主題搜索引擎,這種搜索引擎采用特征提取和文本智能化等策略,相比前三代搜索引擎更準確有效,被稱為第四代搜索引擎[1]。

  2 搜索引擎的分類

  搜索引擎按工作方式分為三類:目錄索引類搜索引擎、全文搜索引擎和元搜索引擎[2]。

  2.1 目錄索引類搜索引擎

  目錄索引類搜索引擎的數據庫是人工建立的,工作人員訪問過某個web網站后依據自定的一套評判準則對這個網站進行描述,并根據站點的性質和內容歸類到預先分好的類別,再將其存放在對應的目錄中,用戶既可以通過關鍵詞查詢,也可以按目錄逐層檢索。由于目錄索引類數據庫是人工評價某個網站的內容,所以相比基于Robot搜索引擎搜索到的結果,用戶通過目錄搜索的結果更具有參考價值。當前大部分搜索網站既提供基于Robot的搜索服務,又提供基于目錄的搜索服務,以盡可能為用戶提供全面的查詢結果。

  2.2 全文搜索引擎

  目前全文搜索引擎是主流的搜索引擎,人們經常說的搜索引擎一般都是指全文搜索引擎,典型的代表有Google、百度、搜狗等。這類搜索引擎利用網絡蜘蛛在網絡中搜索,再抓取原始網頁,存放于本地數據庫并對原始網頁進行加工,然后建立網頁內容索引。系統在檢索階段,索引后臺數據庫并尋找和用戶查詢條件相匹配的網頁,把這些網頁按照相應規(guī)則排序后將結果按順序返回給用戶。在搜索引擎的界面上,用戶輸入要查詢的關鍵字,就能夠找到互聯網中與之相關的網頁。

  2.3 元搜索引擎

  元搜索引擎是將用戶的搜索請求同時提交給多個獨立搜索引擎,然后集中處理搜索結果,按統一格式返回給用戶,故又被稱為搜索引擎之上的搜索引擎。該搜索引擎的特點是本身不保存網頁信息內容,如果有用戶輸入查詢請求,它把請求轉換成其它搜索引擎可以接受的命令格式,同時訪問多個搜索引擎查詢該關鍵詞,最后將搜索引擎返回的結果處理后提交給用戶。

  總之,目錄索引類搜索引擎的缺點是信息覆蓋量不大、更新慢,元搜索引擎要等待所有搜索引擎提交結果并進行處理,速度通常比較慢,因此全文搜索引擎是人們研究的重點。

  3 搜索引擎的工作原理

  搜索引擎通常由搜索器、索引器、檢索器和用戶接口四部分組成[3]。系統先由搜索器收集網頁內容,再通過索引器分析收集的內容并建立索引,然后由檢索器響應用戶的檢索請求,當用戶輸入查詢關鍵字后,搜索器用關鍵字與索引器進行匹配,作相關性排序后通過用戶接口給用戶返回結果。

  搜索引擎的工作流程可以簡單的描述為:網絡蜘蛛定期在互聯網上爬行,當發(fā)現新的頁面時,將其取出并存放到本地數據庫中,用戶可通過查詢本地數據庫得到結果。大致可概括為抓取網頁、加工整理、查詢服務三個階段。

  抓取網頁階段:每個獨立的搜索引擎都有自己的網絡蜘蛛,它每隔一定的時間自動啟動,從數據庫獲得URL列表,按照某種策略抓取列表指定的網站,并將抓到的網頁存入數據庫,然后把新的URL存入數據庫。理論上,從一定范圍網頁出發(fā),就可以搜集到絕大多數網頁。

  加工整理階段:搜索引擎抓到網頁后,再做大量的預處理工作,對網頁文檔建立倒排索引,將索引更新到索引數據庫,并提取網頁鏈接信息,存入鏈接數據庫,為網頁評級做準備。

  查詢服務階段:搜索引擎待用戶輸入關鍵詞,從索引數據庫找到匹配該關鍵詞的網頁,通過網頁評級對結果進行排序處理,最后將結果反饋給用戶。

  搜索引擎的實現過程包括四部分:從互聯網抓取網頁→建立索引數據庫→在數據庫中搜索→對搜索結果排序。

  搜索引擎的 網絡蜘蛛會定期訪問所有的網頁來更新網頁索引數據庫,去除死鏈接,并根據網頁鏈接關系和內容的變(下轉第116頁)(上接第88頁)化重新排序。最終網頁內容的變化情況將反映在用戶查詢結果中[4]。

  4 搜索引擎的 發(fā)展趨勢

  4.1 提高搜索引擎的智能化水平

  智能搜索引擎是利用人工智能技術對用戶的查詢意圖、興趣等推理,用獲得的知識對信息進行過濾搜集,把用戶感興趣的信息提交給用戶。通過智能算法進行人與 計算機的對話,利用機器翻譯技術強化自然 語言的處理能力,通過語義理解用戶自然語言的需求。智能代理技術能夠不斷適 應用戶興趣變化,并提供個性化的服務。

  4.2 提供優(yōu)化的檢索結果

  利用搜索引擎規(guī)則,搜索引擎優(yōu)化能夠提高網站在搜索引擎中的排名,針對檢索網頁的特點,按照搜索引擎的檢索原則調整網站的基本要素,使其在自然檢索結果中排名靠前,從而達到推廣網站的目的。

  4.3 多媒體搜索引擎

  隨著搜索引擎技術的發(fā)展,搜索引擎除檢索文本外,還要檢索多媒體數據,目前許多公司投入資金解決該技術的系統模型優(yōu)化、圖像聲音特征相關性研究、多媒體特征提取等問題,從而開發(fā)能夠查詢圖像、圖片、聲音等內容的搜索引擎,這項技術是未來搜索引擎發(fā)展的必然趨勢[5]。

  5 總結

  隨著計算機網絡搜索技術的飛速發(fā)展,人們對搜索引擎的要求也越來越高,未來的搜索引擎要求速度更快、精度更高,更能滿足用戶查詢信息的個性化需求,使得互聯網用戶能夠享受到更加高效的人性化的網絡搜索服務。

  
看了“搜索引擎技術論文”的人還看:

1.web開發(fā)技術論文

2.關于檢索的學術論文

3.傳感器技術論文范文

4.web技術論文

5.無線網絡技術論文

2751913