淺談中文信息處理與現(xiàn)代漢語語法(2)
時間:
若木1由 分享
三、歧義現(xiàn)象
現(xiàn)代漢語短語結(jié)構(gòu)的歧義是進行漢語句法分析的一大障礙。“句處理”要解決的核心問題是排歧問題,計算機面對的歧義,不只是我們?nèi)怂芨杏X到的諸如下面這樣一些句子的歧義現(xiàn)象:
(1)他正在輸血。(他正給病人輸血。/他病了,正輸血。)
(2)看望的是病人。(你看望的那個人是病人。/看望你的那個人是病人。)
(3)我們急需進口產(chǎn)品。(我們急需進口的產(chǎn)品。/我們急需從國外進口產(chǎn)品。)
某些在人看來不存在歧義的句子計算機會認為有歧義.例如:
(4)a他被警察叫去罰了一百塊錢。
b他被警察叫去寫了一份檢查。例(4)a句和b句,在人的眼里結(jié)構(gòu)是不一樣的。a句“被警察”這個介詞結(jié)構(gòu)一直管到底。全句意思是“他被警察叫去,他被警察罰了一百塊錢”:而b句“被警察”這個介詞結(jié)構(gòu)只 管到“叫去”,管不著“寫了一份檢查”。可是,計算機分辨不清楚。要讓計算機分辨清楚,我們就得將“PP+VPI+VP2”(PP代表介詞結(jié)構(gòu),VP1和VP2分別代表緊挨著的不同的動詞性詞語)這種結(jié)構(gòu)中的PP對后面動詞性詞語管轄的范圍及其條件與規(guī)則進行充分、準確的描寫,并加以形式化,“交給”計算機。而這一類現(xiàn)象與規(guī)則我們過去根本就沒有考慮過,更不用說研究了。
其實以上所舉的例子都存在歧義問題,因此,也可以這么說,“句處理”要解決的核心問題是排歧問題。
中文信息“句處理”的研究工作,上個世紀80年代就開始了,最早進行“句處理”研究工作就是基于規(guī)則展開的,但上個世紀90年代初,基于規(guī)則的“句處理”研究工作遇到了重重困難與難關(guān),主要是語言學家所提供的語言規(guī)則遠遠不能滿足信息處理的需要。目前,為了解決好中文信息處理中的“句處理”難題,出現(xiàn)了一個競相研究、競相發(fā)展的局面。對于句處理,提出的各種策略和途徑,歸納起來。主要有基于規(guī)則和基于統(tǒng)計這兩種策略?;谝?guī)則的研究者,一般求諸專家的理性知識,由人來對語言知識進行抽象:基于統(tǒng)計者,一般求助于計算機對大規(guī)模語料庫真實文本的統(tǒng)計分析,由計算機來抽象出語言知識。各種策略和途徑,目前,我們還很難說哪一種是唯一正確的。各種策略和途徑,表面看不同,其實,最終都需要依賴可靠的漢語知識來驅(qū)動計算機正確處理自然語言(漢語)。因此,“無論是比較傳統(tǒng)的基于規(guī)則的處理策略,還是90年代以來方興未艾的基于統(tǒng)計的方法,在對語言知識的需求這一點上實際上都是共同的。所不同者,走規(guī)則路線的研究者一般求諸專家的理性知識,由人來對語言知識進行抽象(比如以帶有合一條件的規(guī)則形式給出)。而走統(tǒng)計路線的研究者一般求助于計算機對大規(guī)模的語料庫的統(tǒng)計分析,由計算機來抽象出語言知識(比如以一定的數(shù)據(jù)結(jié)構(gòu)記錄的統(tǒng)計結(jié)果等)。兩種路線孰優(yōu)孰劣,不能籠統(tǒng)判斷,只能跟具體的應用目標結(jié)合起來,由實踐結(jié)果來評價。”目前,越來越多的學者提倡把兩種方法結(jié)合起來使用。因此,相信在不久的將來,我們會攻克難關(guān),實現(xiàn)計算機對自然語言的處理與理解的目標,使中文信息處理技術(shù)處于世界領(lǐng)先地位。
參考文獻:
1.蘭賓漢、邢向東:現(xiàn)代漢語(下冊)[M].北京:中華書局,2007,48。
2.亢世勇:面向信息處理的現(xiàn)代漢語語法研究[M].上海:上海辭書出版社,2004,177。
3.陸儉明:現(xiàn)代漢語語法研究教程(第三版),[M].北京:北京大學出版社。2005年,51。
4.詹衛(wèi)東:面向中文信息處理的現(xiàn)代漢語短語結(jié)構(gòu)規(guī)則研究[M].北京:清華大學出版社,2000,2。