特黄特色三级在线观看免费,看黄色片子免费,色综合久,欧美在线视频看看,高潮胡言乱语对白刺激国产,伊人网成人,中文字幕亚洲一碰就硬老熟妇

學習啦>論文大全>技術論文>

網(wǎng)絡前沿技術論文

時間: 家文952 分享

  網(wǎng)絡時代,改變了人們的思想和行為,也使我們的生活變得更方便。下面是由學習啦小編整理的網(wǎng)絡前沿技術論文,謝謝你的閱讀。

  網(wǎng)絡前沿技術論文篇一

  搜索引擎的前沿技術

  摘要:

  人工智能中的機器學習技術在基于語料的文本信息處理中獲得了快速發(fā)展,同時基于統(tǒng)計和經驗的方法在超出傳統(tǒng)機器學習的范疇之外也發(fā)展出一些獨特的方法和技術,這些應用將會使下一代搜索引擎在技術上取得突破。

  搜索引擎并非只是一個網(wǎng)絡上的應用程序,它要用到信息檢索、人工智能、自然語言處理、分布式網(wǎng)絡并行計算技術、多媒體技術、數(shù)據(jù)庫技術、數(shù)據(jù)挖掘技術、數(shù)字圖書館等多領域的理論和技術,具有很強的綜合性和挑戰(zhàn)性。

  從技術發(fā)展角度講,隨著計算機的發(fā)展和互聯(lián)網(wǎng)的普及,對海量文本信息處理的需求越來越迫切,這使得人工智能中機器學習技術在基于語料的文本信息處理中獲得了快速發(fā)展。同時,基于統(tǒng)計和經驗的方法在超出傳統(tǒng)機器學習的范疇之外發(fā)展出一些獨特的方法和技術。但是,自然語言處理中仍然存在許多尚未解決的問題,甚至是影響到自然語言處理的基礎性的核心問題。檢索專家Bruce R.Schatz預測,在自然語言理解沒有取得突破性進展之前,基于概念語義空間的文本信息組織與檢索,將在本世紀前10年起主要的作用。

  語義索引

  如何處理海量文本信息,特別是隨著網(wǎng)絡的飛速發(fā)展,如何快速為海量文本信息建立分類目錄有效地組織網(wǎng)上海量信息,以及如何建立具有某種程度語義的索引機制就是當前乃至今后相當一段時間的研究熱點。

  美國Arizona大學的陳火斤鈞(Hsinchun Chen)教授首先提出基于概念的文本自動分類與語義檢索。概念語義空間實際上是基于概念空間的語義索引。這是為克服關鍵詞檢索過程中由于檢索詞的差異導致檢索結果差異而建立的支持相關概念的索引機制。該項技術成功地采用機器學習的方法實現(xiàn)了大量文本的自動分類、標注與檢索。他采用此項技術成功地承接并完成了美國涉及多個領域的文本信息處理項目。

  所謂概念語義空間,就是對文本集建立的能反映文本集中概念之間語義關系的一個索引。概念語義空間與文本檢索、搜索引擎、知識管理密切相關,它是基于目前自然語言處理技術的進展狀況而產生的。

  這里所說的概念在形式上的表現(xiàn)是詞,但并不是所有的詞都是概念。概念是從語料中抽取出來的用于表明一類文檔特征的標識詞,一類文檔可能有不同的概念來標識。上面所說的語義詞典包括同義詞、近義詞。

  采用語義詞典是建立語義索引的一種機制。語義詞典往往是手工建立的,但這樣建立的詞典不能針對要處理的語料提取語義關系,會降低檢索性能。例如,當我們提到“錢鐘書”時就會自然聯(lián)想到“圍城”,提到“非典”自然就想起了“SARS”,如果語義詞典沒有建立這種語義關系(事先手工編輯的語義詞典很難提取這類“聯(lián)想”的語義)。當我們用“非典”檢索時,就不能返回僅包含“SARS”的文本; 同樣僅用“錢鐘書”檢索,未必能檢索到錢鐘書所有著作的信息。解決這一問題的一個重要途徑是共現(xiàn)分析。通過統(tǒng)計同一類文本中兩個詞在同一篇文本中的共現(xiàn)率,可以發(fā)現(xiàn)類似的語義關聯(lián)。這種語義聯(lián)想的激活可以通過Hopfield網(wǎng)絡實現(xiàn),網(wǎng)絡的權值則由共現(xiàn)率確定。隨著技術的進展,還有許多其他自動形成語義詞典的方法不斷提出,其中很多都和機器學習有關。

  查準與查全的平衡

  評價文本檢索系統(tǒng)性能的一個關鍵概念是“相關性”(relevance)。它是用來判斷獲取的文檔集合對于用戶需求滿足的程度。相關性是一個主觀的概念。相關性的度量不僅僅依賴于用戶的查詢和所搜索的文檔的集合,還與用戶的個人需求、偏好、知識、語言等有關系。

  作者簡介:何清

  中國科學院計算技術研究所智能信息處理重點實驗室副研究員,中國人工智能學會副秘書長。

  通常將“查準率”和“查全率”這兩個指標共同用來衡量檢索系統(tǒng)的性能。查準率表明系統(tǒng)的精確性。查全率反映了系統(tǒng)的覆蓋性。這兩個量不是獨立的,其中一個指標的提高往往以另一個指標的降低為代價。

  查準率(Precision)是信息檢索的性能指標,定義為被檢索到的相關文檔數(shù)除以所有要檢索的文檔數(shù)。

  查全率(Recall)是信息檢索的另一個性能指標。定義為查找到的相關文檔數(shù)除以集合中全部相關文檔數(shù)的值。

  在實際應用中,有些用戶更加注重查準率,而另外一些用戶則更加注重查全率。也有專家引入一個綜合了查全率與查準率的指標來衡量系統(tǒng)的性能。查準率比較易于度量。對于所獲取的文檔集合,只要判斷每一篇文檔是否和給定查詢相關就可以了,其計算是比較直接的。而對于查全率的計算就相對困難一些,因為這意味著對于給定查詢,必須計算整個文檔集合中相關文檔的數(shù)目。當文檔集合過大時,這是不可行的。

  檢索返回結果過多,對于用戶來說冗余信息過多。解決這一問題的途徑之一是對檢索結果進行分類,目前主要是人工選擇有用信息,這樣的人工工作量太大,另外就是對檢索結果進行實時聚類,但這樣做處理速度跟不上,等待時間過長,用戶難以忍受。還有一種方式是事先分類并分類檢索,返回的結果也分類顯示,但對海量數(shù)據(jù)及時分類其粒度不可能太小。值得嘗試的辦法是基于事例的學習,就是對搜索到的好的結果作為樣本,讓機器再次搜索。

  機器學習技術與自然語言處理

  統(tǒng)計方法在語音識別方面的成功,促進了類似方法在自然語言處理其他方面的應用?,F(xiàn)在各種機器學習方法幾乎都應用到了自然語言處理的不同方面,包括詞法、句法分析、歧義消除和理解、會話過程和信息抽取以及機器翻譯。然而,傳統(tǒng)的人工智能中的機器學習對計算語言學的研究貢獻有限。這是因為基于機器學習和基于經驗的自然語言處理需要通過相互交流、相互促進才能發(fā)展。

  現(xiàn)在自然語言處理中大多數(shù)機器學習的研究都借助了語音識別中特定的統(tǒng)計技術,如隱馬爾科夫模型(Hidden Markov Models, HMMs)、概率上下文相關語法(Probabilistic Context Free Grammars, PCFGs)。其他各種學習算法包括決策樹、規(guī)則歸納、神經網(wǎng)絡、基于示例的方法、貝葉斯(Bayesian)網(wǎng)絡方法、歸納邏輯程序、基于理解的學習。

  遺傳算法也能用于自然語言處理,并且在特定的應用中有其優(yōu)勢。另外,一些特別的機器學習算法如主動學習、推進(Boosting)算法、修正學習、有知識背景的構造歸納學習、理論修正、經驗評價法、PAC (Probably Approximately Correct)學習等對處理自然語言問題是非常有用的。事實上已經有一些文獻提出了利用機器學習技術進行自然語言處理的特定方法。這表明目前的研究已經不局限于研究UCI(University of California,Irvine)數(shù)據(jù)庫中由標準數(shù)據(jù)集提供的特征向量的分類問題。計算語言研究組織和機構已經收集了很多有趣的涉及許多自然語言問題的文本數(shù)據(jù)集。其中有些問題通過選取合適的特征可以退化為標準的分類問題,但是其他一些問題需要采用或建立復雜的數(shù)據(jù)結構,如完備的句子或解析樹來解決。

  以上表明,機器學習能為自然語言處理提供一系列非傳統(tǒng)的學習方法的同時,還能提供一般的方法論的指導。反過來,自然語言處理為機器學習提出了各種有趣的和富有挑戰(zhàn)性的問題。這些問題常常具有一些特定的特征,如: 非常大的特征空間和極度稀疏的數(shù)據(jù)。另外,統(tǒng)計語言學對機器學習的一個不太明顯的潛在貢獻是引入了一些新的機器學習算法,如最大熵方法、指數(shù)模型方法。這些方法在傳統(tǒng)機器學習的文獻中沒有很好地論述。它們可能會像HMMs和PCFGs在分子生物學中的成功應用一樣有效地被用于其他機器學習問題。

  機器學習技術與自然語言處理任務有著密切的聯(lián)系,表中列出了他們之間的關聯(lián)關系。1999年Claire Cardie和Raymond J. Mooney編輯出版了機器學習雜志的一本專緝,該專輯收集了當時在自然語言處理領域機器學習技術的典型應用。其中還介紹了一些端到端的自然語言應用,如Golding & Roth 的感知上下文的拼讀修正系統(tǒng),以及完整的信息抽取系統(tǒng)。該專輯特別提到Soderland的概念抽取模式和Bikel的能夠準確識別姓名、日期、時間、數(shù)字的系統(tǒng)。

  目前,自然語言處理和信息檢索在技術上沒能很好地融合。在文本檢索過程中如果只使用關鍵詞匹配技術往往會遇到詞匯不匹配,這是因為存在表達差異。關鍵詞匹配檢索模式通?;谶@樣一種基本假設: 僅在一個文檔含有與查詢完全相同的詞匯時,它們才相關。這種相關性匹配實際上是基于表層的匹配(Surface-Based Matching)。然而,人類的自然語言中,隨著時間、地域、領域等因素的改變,同一概念可以用不同的語言表現(xiàn)形式來表達。因此即使對于同一概念的檢索,不同的用戶可能使用不同的關鍵詞來查詢,而基于表層的匹配不可能檢索到同一概念的多種語言表達形式。因此,詞匯不匹配將導致系統(tǒng)的查全率降低。從根本上說是目前機器對自然語言不能完全理解,缺乏對概念的語義表達支持。從目前技術狀況來看,盡管我們付出了大量努力,但是要達到使計算機對自然語言完全理解這一目標還差得很遠。對于解決上述問題在目前可能達到的目標是通過機器學習對原始語料中的概念之間的語義關聯(lián)進行挖掘,對這些語義關聯(lián)給出合理的表示,從而產生一些常識性的概念語義。

  概念語義空間技術能很好移植到中文自然語言處理方面。中科院王永成教授領導的課題組開發(fā)出了一個中文概念檢索系統(tǒng),該系統(tǒng)支持具有一定模式的自然語言查詢和基于概念的檢索,并具有概念表達擴充功能; 用戶可以添加系統(tǒng)原來不熟悉的概念,而且可以在用戶的幫助下排除差錯; 可以提供200字的精確摘要; 能進行新聞去重,并且改進了國際著名網(wǎng)站Google的排序算法; 系統(tǒng)的 Crawler(自動搜索軟件)對各大新聞網(wǎng)站自行跟蹤、更新,并且根據(jù)查詢動態(tài)調整。

  中科院計算所在國家自然科學基金資助下,采用概念語義空間的思想,實現(xiàn)了一個概念語義檢索系統(tǒng)GHunt。該系統(tǒng)采用網(wǎng)絡蜘蛛采集網(wǎng)頁,以概念語義空間組織網(wǎng)頁,對網(wǎng)頁建立語義索引,實現(xiàn)基于概念的智能互動語義查詢,以不同粒度摘要或全文方式展現(xiàn); 對專題事件展現(xiàn)其來龍去脈; 對多媒體信息實現(xiàn)基于內容的圖文聯(lián)合檢索。

  建立概念語義空間涉及多方面的文本信息處理技術,包括海量文本自動分類聚類技術、自動標注技術、語義索引、語義聯(lián)想檢索技術。在這一系統(tǒng)中集成了網(wǎng)頁采集多模式定向采集技術、基于粗糙集的文本分類技術、基于群體智能的螞蟻聚類法、基于直接模糊聚類的概念聚類、專題自組織等自有研究成果。聯(lián)索科技開發(fā)的IFACE專業(yè)搜索技術聚焦于適用和實用的更小搜索單位,利用基于內容的語義計算模型,發(fā)現(xiàn)精深的信息內容,識別信息并將信息整理好,拼裝出表格化信息庫,返回給用戶更加準確而簡化的內容,而不僅僅是得到包含關鍵字的網(wǎng)頁。

  搜索引擎其他新技術

  1. P2P方式的搜索引擎

  搜索引擎的實現(xiàn)可以采用集中式體系結構和分布式體系結構。當系統(tǒng)規(guī)模達到一定程度(如網(wǎng)頁數(shù)達到億級)時,必然要采用某種分布式方法以提高系統(tǒng)性能。P2P方式的搜索引擎就是基于此目的誕生的。搜索引擎的各個組成部分除了用戶接口之外都可以進行分布: 搜索器可以在多臺機器上相互合作、相互分工進行信息發(fā)現(xiàn),以提高信息發(fā)現(xiàn)和更新速度; 索引器可以將索引分布在不同的機器上,以減小索引對機器的要求; 檢索器可以在不同的機器上進行文檔的并行檢索,以提高檢索的速度和性能。

  P2P是peer-to-peer的縮寫。peer在英語里有“(地位、能力等)同等者”、“同事”和“伙伴”等意義。因此,P2P也就可以理解為“伙伴對伙伴”的意思,或稱為對等網(wǎng)。目前人們認為其在加強網(wǎng)絡上人的交流、文件交換、分布計算、協(xié)同、深度檢索等方面大有前途。

  P2P軟件能在互聯(lián)網(wǎng)中迅速地普及,其中起到主導作用的是一款P2P文件共享軟件Napster。Napster技術在1999年由當時在美國東北大學就讀的Shawn Fanning開發(fā)成功,并迅速在眾多MP3數(shù)字音樂愛好者中傳播開來。人們可以通過Napster在網(wǎng)絡上搜索自己需要的MP3音樂,并從任一臺聯(lián)網(wǎng)使用Napster的計算機中下載。P2P使得參與網(wǎng)絡的各個主機都能夠提供服務,同時也可以享受到來自所有其他主機所提供的服務。

  P2P網(wǎng)絡具有集中式服務網(wǎng)絡所缺乏的優(yōu)勢: 可擴展性強、容錯性好、成本低、充分利用分布資源。這些特點使得P2P架構在文件共享、分布式存儲、搜索引擎、分布式計算、傳感器網(wǎng)絡、協(xié)作軟件中有寬廣的應用前景。同時其所強調的“以人為本”的理念,將深刻地體現(xiàn)于下一代互聯(lián)網(wǎng)運營模式。

  2.跨粒度檢索

  信息呈現(xiàn)個性化、可視化、綜合化的特征,但現(xiàn)有信息檢索結果一般沒有粒度區(qū)別,只是若干檢索結果的羅列,沒有對檢索結果的分析綜合,沒有形成統(tǒng)一的綜合摘要提供給用戶。另外很少對用戶關心的領域信息進行處理。信息呈現(xiàn)方式單一,很少以可變粒度的可視化的圖形方式呈現(xiàn),特別是多篇摘要技術用于大量文檔的綜述。

  概念語義空間的可視化

  概念語義空間是在網(wǎng)絡信息急劇增長的條件下產生的,它為快速、有效地組織海量、動態(tài)變化、半結構化的網(wǎng)絡文本信息提供了機器學習手段。在自然語言理解沒有取得突破性進展之前,基于概念語義空間的文本信息組織與檢索,將在本世紀前10年起主要的作用。概念語義空間的可視化是近來發(fā)展的一個方向。采用概念語義空間技術將文本組織起來以后,如何向用戶個性化地展現(xiàn)檢索結果就成為一個關鍵問題?,F(xiàn)有的逐個瀏覽網(wǎng)頁的方式顯然不能滿足用戶個性化的需求,因此最近有關主題探測與專題組織方面的研究在美國成為研究熱點。這項研究將涉及自然語言處理的幾乎所有方面。自然語言處理的研究成果將促進該項研究的深入開展。

  鏈接:搜索引擎核心技術的演進

  ● 上個世紀70年代,著名的信息檢索專家Gerald Salton提出了向量空間模型(Vector Space Model),從此,文本檢索引入了倒排索引(Inverted index)以及向量空間模型。另外,他還創(chuàng)立了基于貝葉斯統(tǒng)計(Bayesian statistics)的布爾方法(Boolean retrieval method)和簡單概率獲取模型(Simple probabilistic retrieval models)。雖然已經經過了近30年的歷史,這些技術至今仍然構成當今信息檢索系統(tǒng)以及互聯(lián)網(wǎng)搜索引擎的理論基礎。

  ● 上個世紀80年代,在新的人工智能技術的發(fā)展同時,產生了一些模擬專業(yè)文獻搜集者和領域專家的專家系統(tǒng)。使用了對用戶建模以及自然語言處理等技術來輔助對于用戶和文檔的表示。并且產生了一些供研究用的原型系統(tǒng)。

  ● 上個世紀90年代初期,當研究者們認識到了創(chuàng)建領域知識庫的困難之后,試圖采用新的機器學習技術用于信息分析。這些技術包括神經網(wǎng)絡、遺傳算法、符號學習等。概念語義空間技術就是在這個年代提出的,但當時處于初步研究探索階段。

  ● 上個世紀90年代中期之后,隨著搜索引擎的普及以及網(wǎng)絡Spider(蜘蛛程序)超鏈分析等技術的發(fā)展,文本檢索系統(tǒng)已經成為更新的并且更強大的用于網(wǎng)絡內容的搜索工具。概念語義空間技術的研究取得突破,并在美國的數(shù)字圖書館領域得到應用。

  ● 在過去10來年,統(tǒng)計學習方法改變了手工建立語法和知識庫以及文本目錄索引的狀況,通過對大量已標注的和未標注的自然語料的訓練可以部分或全部自動地完成上述過程。

點擊下頁還有更多>>>網(wǎng)絡前沿技術論文

網(wǎng)絡前沿技術論文

網(wǎng)絡時代,改變了人們的思想和行為,也使我們的生活變得更方便。下面是由學習啦小編整理的網(wǎng)絡前沿技術論文,謝謝你的閱讀。 網(wǎng)絡前沿技術論文篇一 搜索引擎的前沿技術 摘要: 人工智能中的機器學習技術在基于語料的文本信息處理中獲得
推薦度:
點擊下載文檔文檔為doc格式

精選文章

  • 網(wǎng)絡交換技術論文
    網(wǎng)絡交換技術論文

    信息技術高速發(fā)展的今天,人們對計算機的要求越來越高,研究計算機網(wǎng)絡數(shù)據(jù)交換技術,能夠促進計算機網(wǎng)絡數(shù)據(jù)交換技術的發(fā)展,以滿足用戶對計算機

  • 網(wǎng)絡計劃技術論文
    網(wǎng)絡計劃技術論文

    網(wǎng)絡計劃技術在上世紀六十年代引入中國,成為項目進度管理中的重要手段之一,下面是由學習啦小編整理的網(wǎng)絡計劃技術論文,謝謝你的閱讀。 網(wǎng)絡計劃

  • 網(wǎng)絡集成技術論文
    網(wǎng)絡集成技術論文

    對計算機網(wǎng)絡系統(tǒng)集成技術方法的掌握可以為相關實踐提供有益指導,目前,這種方法在煤化工等領域已經得到了非常廣泛的應用。下面是由學習啦小編整

  • 網(wǎng)絡互聯(lián)技術論文
    網(wǎng)絡互聯(lián)技術論文

    網(wǎng)絡互聯(lián)技術是網(wǎng)絡的最有希望的方面的性能在顯著增加。下面是由學習啦小編整理的網(wǎng)絡互聯(lián)技術論文,謝謝你的閱讀。 網(wǎng)絡互聯(lián)技術論文篇一 計算機

2794627