漢字字頻統(tǒng)計方法的改進的策略
時間:
若木1由 分享
一、漢字字頻統(tǒng)計的概念
在漢語漢字的語境下,漢字字頻常常簡稱為字頻,漢字字頻是漢字使用的一個重要屬性。馮志偉指出:“傳統(tǒng)的文字學認為,漢字具有形、音、義三個要素,但是,漢字作為記錄漢語的符號,它必須作為一種交際工具而存在,在交際過程中,有的漢字使用得多些,有的使用的少些,呈現出一定的統(tǒng)計規(guī)律性。因此,從使用的角度來看,漢字還具有第四個要素——字頻。”①顧名思義,字頻就是字的使用頻度。蘇培成在《現代漢字學綱要》(增訂本)給字頻下的定義是:“字頻就是漢字的使用頻度,是指在一定的歷史時期內經抽樣取得的文字資料里,每一個漢字的使用次數與抽樣資料總字數的比例。”②他所說的“字頻”,就是指漢字字頻。沙宗元在《文字學術語規(guī)范研究》中收了“字頻”這個詞條,他給出的定義是:“某個漢字在一定語料中使用(出現)的次數與樣本總字數(又叫樣本容量)之比。”③這個“字頻”也指漢字字頻。兩家的定義大體不錯,但表述不夠嚴密。第一,用來作為字頻統(tǒng)計的文字資料不一定是經抽樣取得的,如《史記》的字頻統(tǒng)計這類專書字頻統(tǒng)計是根據特定目的選取的,而非“經抽樣取得”的。“經抽樣取得”不能作為字頻統(tǒng)計的必要條件。第二,“總字數”的說法比較含混,應該改作“總字次”。第三,“樣本總字數”的“樣本”表意不明確。綜合學術界的研究,漢字字頻可以定義為:個體漢字字符在按特定原則選定的文本中出現的次數與選定文本總字次之比。
對使用中的漢字進行字頻統(tǒng)計,并按字頻的高低排列漢字的順序即可以得出漢字的頻序,依據頻序給漢字分級可以劃分出漢字的頻級,漢字的頻級是對使用中的漢字進行分級的主要依據,對漢字規(guī)范、漢字教學及漢字信息處理有重要意義。漢字字頻統(tǒng)計是漢字研究中的一項具有實用意義的重要工作。
二、漢字字頻統(tǒng)計的主要成果
以往的漢字字頻統(tǒng)計與研究取得了重要的研究成果,為漢字的研究與應用作出了重要的貢獻。字頻統(tǒng)計一般分綜合字頻統(tǒng)計及分類字頻統(tǒng)計兩類。其代表性成果主要有以下幾項:
現代漢字綜合字頻統(tǒng)計的主要成果有:1.《漢字頻度表》,此表于1976年12月由“七四八”工程查頻組完成。本次字頻統(tǒng)計使用的語料時間范圍為1973-1975年,語料內容包括科學技術、文學藝術、政治理論和新聞通訊四類,統(tǒng)計方式為手工操作。備選語料3億多字次,選用語料2160多萬字次,統(tǒng)計得出6376個字種。2.《漢字頻率表》,此表包含在北京語言學院語言教學研究所編的《現代漢語頻率辭典》中,1986年6月由北京語言學院出版社出版。本次字頻統(tǒng)計使用的語料時間范圍較多選用20世紀40年代至70年代的作品,語料內容包括報刊政論文章及專著、科普書刊材料、劇本和日??谡Z材料和各種體裁的文學作品四類,統(tǒng)計方式采用人工和計算機相結合。選用語料180萬字次,統(tǒng)計得出“不同漢字4574個”。(參考該書“前言”和編纂說明)3.《現代漢語字頻統(tǒng)計表》,此表由北京航空學院計算機科學與工程系和國家語言文字委員會漢字處研制,于1992年1月由語文出版社出版,出版署名單位是國家語言文字工作委員會和國家標準局。本次字頻統(tǒng)計使用的語料時間范圍為1977-1982年,語料內容包括自然科學和社會科學兩大類,統(tǒng)計方式完全采用計算機自動統(tǒng)計,選用語料13800萬字次,抽取出的統(tǒng)計樣本語料11873029字次,統(tǒng)計得出漢字7754個。(參考該書說明)4.《報紙、廣播電視、網絡用字總表》,本表收錄在“中國語言生活狀況報告”課題組編《中國語言生活狀況報告(2005)》中,《報告》于2006年9月由商務印書館出版。《中國語言生活狀況報告(2005)》是由國家語委首次向社會發(fā)布的年度語言生活報告,其中的《報紙、廣播電視、網絡用字總表》是2005年年度用字字頻統(tǒng)計表。該表語料時間范圍為2005年,語料介質包括報紙、廣播電視和網絡,統(tǒng)計手段采用計算機,共選擇892034個文本文件,包括732143010字次,統(tǒng)計得出字種數8128個。(該書把字種界定為“這里的字種,指字形不同的漢字。”④)
古代文獻使用漢字的綜合字頻統(tǒng)計成果主要有《古籍漢字字頻統(tǒng)計》,該書由北京書同文數字化技術有限公司編寫,2008年7月由商務印書館出版。本書統(tǒng)計的語料為電子版《四庫全書》和《四部叢刊》,統(tǒng)計方式完全采用計算機自動統(tǒng)計,使用語料8億字次,統(tǒng)計得出漢字30127個。(在該書收錄的“大規(guī)模古籍漢字用字統(tǒng)計報告”中“統(tǒng)計結果匯總與初步分析”一節(jié)中介紹該書統(tǒng)計出的總字數時說:“1.文淵閣《四庫全書》漢字總字數:29088字;2.《四部叢刊》漢字用字總字數:27606字;3.《四庫全書》與《四部叢刊》漢字用字合計:30127字。”⑤但是該書《古籍字頻統(tǒng)計表》的順序號的最后一號是30136,比30127多出9個數字。查《古籍字頻統(tǒng)計表》中含有部分空格和非漢字符號,如八卦卦符、古琴書中的指符等,甚至有新式標點和網址符@。因此,本書給出的總字數并不準確,只是個大致的數字。)
古代文獻專書使用漢字字頻統(tǒng)計的成果主要有《史記字頻研究》,李波著《史記字頻研究》,2006年3月由商務印書館出版。該書的字頻統(tǒng)計以漢代司馬遷所撰《史記》一書的全部文字為對象,選擇中華書局標點本130卷《史記》三家注本作底本,統(tǒng)計方式采用計算機手段。全書計572864字次,統(tǒng)計得出4932個字。
上述字頻統(tǒng)計的成果在漢字理論研究和現實應用等方面起了重要作用。理論研究方面,如周有光在字頻統(tǒng)計成果的基礎上發(fā)現了漢字效用遞減率⑥。王鳳陽在字頻統(tǒng)計成果的基礎上發(fā)現了漢字常用字筆畫遞減率⑦。社會應用方面,如1980年由國家標準總局發(fā)布,1981年5月1日實施的《信息交換用漢字編碼字符集·基本集》是在《漢字頻度表》的基礎上研制完成的。1988年1月26日由國家語言文字工作委員會、國家教育委員會聯合發(fā)布的《現代漢語常用字表》的研制參考了《漢字頻度表》(常用字部分4152字)、《社會科學、自然科學綜合漢字頻度表》(常用字部分3500字)和《漢字頻率表》(4574字)⑧。1988年3月25日由國家語言文字工作委員會、中華人民共和國新聞出版署聯合發(fā)布的《現代漢語通用字表》也參考了上述字頻統(tǒng)計成果。這些字頻統(tǒng)計的結果和在字頻統(tǒng)計成果基礎上研制的《字表》對漢字教學、漢字水平測試、漢字識別、漢字信息處理、漢字字典編纂、漢字規(guī)范等工作都起到了重要的參考作用。
在漢語漢字的語境下,漢字字頻常常簡稱為字頻,漢字字頻是漢字使用的一個重要屬性。馮志偉指出:“傳統(tǒng)的文字學認為,漢字具有形、音、義三個要素,但是,漢字作為記錄漢語的符號,它必須作為一種交際工具而存在,在交際過程中,有的漢字使用得多些,有的使用的少些,呈現出一定的統(tǒng)計規(guī)律性。因此,從使用的角度來看,漢字還具有第四個要素——字頻。”①顧名思義,字頻就是字的使用頻度。蘇培成在《現代漢字學綱要》(增訂本)給字頻下的定義是:“字頻就是漢字的使用頻度,是指在一定的歷史時期內經抽樣取得的文字資料里,每一個漢字的使用次數與抽樣資料總字數的比例。”②他所說的“字頻”,就是指漢字字頻。沙宗元在《文字學術語規(guī)范研究》中收了“字頻”這個詞條,他給出的定義是:“某個漢字在一定語料中使用(出現)的次數與樣本總字數(又叫樣本容量)之比。”③這個“字頻”也指漢字字頻。兩家的定義大體不錯,但表述不夠嚴密。第一,用來作為字頻統(tǒng)計的文字資料不一定是經抽樣取得的,如《史記》的字頻統(tǒng)計這類專書字頻統(tǒng)計是根據特定目的選取的,而非“經抽樣取得”的。“經抽樣取得”不能作為字頻統(tǒng)計的必要條件。第二,“總字數”的說法比較含混,應該改作“總字次”。第三,“樣本總字數”的“樣本”表意不明確。綜合學術界的研究,漢字字頻可以定義為:個體漢字字符在按特定原則選定的文本中出現的次數與選定文本總字次之比。
對使用中的漢字進行字頻統(tǒng)計,并按字頻的高低排列漢字的順序即可以得出漢字的頻序,依據頻序給漢字分級可以劃分出漢字的頻級,漢字的頻級是對使用中的漢字進行分級的主要依據,對漢字規(guī)范、漢字教學及漢字信息處理有重要意義。漢字字頻統(tǒng)計是漢字研究中的一項具有實用意義的重要工作。
二、漢字字頻統(tǒng)計的主要成果
以往的漢字字頻統(tǒng)計與研究取得了重要的研究成果,為漢字的研究與應用作出了重要的貢獻。字頻統(tǒng)計一般分綜合字頻統(tǒng)計及分類字頻統(tǒng)計兩類。其代表性成果主要有以下幾項:
現代漢字綜合字頻統(tǒng)計的主要成果有:1.《漢字頻度表》,此表于1976年12月由“七四八”工程查頻組完成。本次字頻統(tǒng)計使用的語料時間范圍為1973-1975年,語料內容包括科學技術、文學藝術、政治理論和新聞通訊四類,統(tǒng)計方式為手工操作。備選語料3億多字次,選用語料2160多萬字次,統(tǒng)計得出6376個字種。2.《漢字頻率表》,此表包含在北京語言學院語言教學研究所編的《現代漢語頻率辭典》中,1986年6月由北京語言學院出版社出版。本次字頻統(tǒng)計使用的語料時間范圍較多選用20世紀40年代至70年代的作品,語料內容包括報刊政論文章及專著、科普書刊材料、劇本和日??谡Z材料和各種體裁的文學作品四類,統(tǒng)計方式采用人工和計算機相結合。選用語料180萬字次,統(tǒng)計得出“不同漢字4574個”。(參考該書“前言”和編纂說明)3.《現代漢語字頻統(tǒng)計表》,此表由北京航空學院計算機科學與工程系和國家語言文字委員會漢字處研制,于1992年1月由語文出版社出版,出版署名單位是國家語言文字工作委員會和國家標準局。本次字頻統(tǒng)計使用的語料時間范圍為1977-1982年,語料內容包括自然科學和社會科學兩大類,統(tǒng)計方式完全采用計算機自動統(tǒng)計,選用語料13800萬字次,抽取出的統(tǒng)計樣本語料11873029字次,統(tǒng)計得出漢字7754個。(參考該書說明)4.《報紙、廣播電視、網絡用字總表》,本表收錄在“中國語言生活狀況報告”課題組編《中國語言生活狀況報告(2005)》中,《報告》于2006年9月由商務印書館出版。《中國語言生活狀況報告(2005)》是由國家語委首次向社會發(fā)布的年度語言生活報告,其中的《報紙、廣播電視、網絡用字總表》是2005年年度用字字頻統(tǒng)計表。該表語料時間范圍為2005年,語料介質包括報紙、廣播電視和網絡,統(tǒng)計手段采用計算機,共選擇892034個文本文件,包括732143010字次,統(tǒng)計得出字種數8128個。(該書把字種界定為“這里的字種,指字形不同的漢字。”④)
古代文獻使用漢字的綜合字頻統(tǒng)計成果主要有《古籍漢字字頻統(tǒng)計》,該書由北京書同文數字化技術有限公司編寫,2008年7月由商務印書館出版。本書統(tǒng)計的語料為電子版《四庫全書》和《四部叢刊》,統(tǒng)計方式完全采用計算機自動統(tǒng)計,使用語料8億字次,統(tǒng)計得出漢字30127個。(在該書收錄的“大規(guī)模古籍漢字用字統(tǒng)計報告”中“統(tǒng)計結果匯總與初步分析”一節(jié)中介紹該書統(tǒng)計出的總字數時說:“1.文淵閣《四庫全書》漢字總字數:29088字;2.《四部叢刊》漢字用字總字數:27606字;3.《四庫全書》與《四部叢刊》漢字用字合計:30127字。”⑤但是該書《古籍字頻統(tǒng)計表》的順序號的最后一號是30136,比30127多出9個數字。查《古籍字頻統(tǒng)計表》中含有部分空格和非漢字符號,如八卦卦符、古琴書中的指符等,甚至有新式標點和網址符@。因此,本書給出的總字數并不準確,只是個大致的數字。)
古代文獻專書使用漢字字頻統(tǒng)計的成果主要有《史記字頻研究》,李波著《史記字頻研究》,2006年3月由商務印書館出版。該書的字頻統(tǒng)計以漢代司馬遷所撰《史記》一書的全部文字為對象,選擇中華書局標點本130卷《史記》三家注本作底本,統(tǒng)計方式采用計算機手段。全書計572864字次,統(tǒng)計得出4932個字。
上述字頻統(tǒng)計的成果在漢字理論研究和現實應用等方面起了重要作用。理論研究方面,如周有光在字頻統(tǒng)計成果的基礎上發(fā)現了漢字效用遞減率⑥。王鳳陽在字頻統(tǒng)計成果的基礎上發(fā)現了漢字常用字筆畫遞減率⑦。社會應用方面,如1980年由國家標準總局發(fā)布,1981年5月1日實施的《信息交換用漢字編碼字符集·基本集》是在《漢字頻度表》的基礎上研制完成的。1988年1月26日由國家語言文字工作委員會、國家教育委員會聯合發(fā)布的《現代漢語常用字表》的研制參考了《漢字頻度表》(常用字部分4152字)、《社會科學、自然科學綜合漢字頻度表》(常用字部分3500字)和《漢字頻率表》(4574字)⑧。1988年3月25日由國家語言文字工作委員會、中華人民共和國新聞出版署聯合發(fā)布的《現代漢語通用字表》也參考了上述字頻統(tǒng)計成果。這些字頻統(tǒng)計的結果和在字頻統(tǒng)計成果基礎上研制的《字表》對漢字教學、漢字水平測試、漢字識別、漢字信息處理、漢字字典編纂、漢字規(guī)范等工作都起到了重要的參考作用。