試析基于關(guān)鍵詞集合的知識關(guān)聯(lián)網(wǎng)絡(luò)構(gòu)建
論文關(guān)鍵詞:知識關(guān)聯(lián) 知識地圖 關(guān)鍵詞集合 知識管理系統(tǒng)(KMS ) 論文摘要:建立符合邏輯的知識關(guān)聯(lián)體系是知識地圖理論的重要內(nèi)容之一本文對知識管理系統(tǒng)中知識關(guān)聯(lián)的有向性進行分析,敘述了單向知識關(guān)聯(lián)和雙向知識關(guān)聯(lián)的概念與特點;對關(guān)鍵詞集合進行定義,闡述了單關(guān)鍵詞集合、全關(guān)鍵詞集合和不定關(guān)鍵詞集合三種劃分策略,介紹了以關(guān)鍵詞集合為迭代單元構(gòu)建關(guān)聯(lián)網(wǎng)絡(luò)和針對單個知識點構(gòu)建關(guān)聯(lián)網(wǎng)絡(luò)的兩種算法,并指出了算法在實際應(yīng)用中需注意的問題. 當前,知識地圖的理論研究有很大進展,但在知識管理系統(tǒng)(KMS )領(lǐng)域的實際應(yīng)用成果卻比較有限.盡管有KMS產(chǎn)品應(yīng)用了知識地圖理念,但多數(shù)產(chǎn)品僅在頁面上顯示了知識庫的分類體系與鏈接,缺乏對知識間邏輯關(guān)系的進一步刻畫與展示。. 建立符合邏輯的知識關(guān)聯(lián)體系是知識地圖的重要理論之一知識分類體系是實施知識管理的基礎(chǔ)性工作,現(xiàn)實世界中的事物間聯(lián)系并不是僅用樹型分類體系就可以表述的一個事物有可能同時從屬于多個分類,不同類別的事物也有可能發(fā)生聯(lián)系,僅僅依賴分類很難準確、全面地表達知識間的邏輯關(guān)系.知識關(guān)聯(lián)則提供了更靈活、更廣義的知識關(guān)系表示方法,采用跨分類、跨區(qū)域的知識關(guān)聯(lián)可以較好地表達信息之間的邏輯聯(lián)系本文根據(jù)集合論與圖論的基本原理,對知識關(guān)聯(lián)的有向性和關(guān)鍵詞集合進行了探討,并闡述了根據(jù)關(guān)鍵詞集合在KMS中建立知識關(guān)聯(lián)網(wǎng)絡(luò)的原理與算法. 1知識關(guān)聯(lián)的有向性 1. 1單向知識關(guān)聯(lián) 現(xiàn)實世界中的各類事物存在著紛繁復(fù)雜的關(guān)系,這種關(guān)聯(lián)關(guān)系是有方向的.如圖1所示,水和分子關(guān)聯(lián)的語義可以描述為“水由分子組成”.相應(yīng)地,由分子到水關(guān)聯(lián)的語義可以描述為“分子構(gòu)成了水”.這兩種關(guān)聯(lián)關(guān)系是不同的,是兩個單方向的知識關(guān)聯(lián). 在知識關(guān)聯(lián)網(wǎng)絡(luò)中,我們可假設(shè)各知識點分別為k,、k2、k3、k4·…對于知識點k1,如果有知識點k2、k3、凡與其內(nèi)容有較高相關(guān)度,此時可通過KMS的功能將k2、k3、k;與k,關(guān)聯(lián),將關(guān)聯(lián)鏈接插人在k,的知識內(nèi)容之后.這個關(guān)聯(lián)征進行自動關(guān)聯(lián).采用單向知識關(guān)聯(lián)的KMS的特點是:如果知識點k,有到知識點k:的關(guān)聯(lián)鏈接,但知識點k:未必有到知識點k,的關(guān)聯(lián)鏈接,則系統(tǒng)須對每一個關(guān)聯(lián)關(guān)系的含義作出必要的表述. 根據(jù)常識,若知識點k,與k:有關(guān)系,則k2也與k,有關(guān)系.雙向知識關(guān)聯(lián)是在不考慮關(guān)聯(lián)語義的情況下發(fā)生的,例如知識點k,與知識點k2關(guān)聯(lián),則知識點k:也必然與知識點k,關(guān)聯(lián).設(shè)R,,RZ為定義在知識集合上的二元關(guān)系,則雙向知識關(guān)聯(lián)用符號可描述為:k, R, k2,kZRZk, . 在很多情況下,由于語義不同,R, RZ.當R:二R:時,則k:和k:的關(guān)聯(lián)關(guān)系是對稱的.采用雙向知識關(guān)聯(lián)的KMS的特點是:只要知識點k,有知識點k:的關(guān)聯(lián)鏈接,知識點k:也必然具有與知識點k,的關(guān)聯(lián)鏈接.系統(tǒng)在設(shè)置關(guān)聯(lián)鏈接時不考慮關(guān)聯(lián)的語義. 語義分析是計算機研究的難點,目前還沒有KMS能夠自動精確地識別知識的關(guān)聯(lián)語義.因此,在知識關(guān)聯(lián)系統(tǒng)中適宜采用忽略關(guān)聯(lián)語義的雙向關(guān)聯(lián)方式. 2基于關(guān)鍵詞集合的知識關(guān)聯(lián)網(wǎng)絡(luò)繪制算法 2.1算法原理 在目前的技術(shù)條件下,基于語義分析構(gòu)建知識關(guān)聯(lián)網(wǎng)絡(luò)較為困難.利用知識點關(guān)鍵詞集合建立關(guān)聯(lián)網(wǎng)絡(luò)的精確度不如語義關(guān)聯(lián)網(wǎng)絡(luò),但技術(shù)上現(xiàn)實可行,能夠較好地表達知識間的關(guān)系. 基于關(guān)鍵詞集合構(gòu)建關(guān)聯(lián)網(wǎng)絡(luò)所遵循的原理是:設(shè)n個知識點具有共同的關(guān)鍵詞集合S,則這n個知識點均是互相關(guān)聯(lián)的;將各知識點作為點,關(guān)聯(lián)關(guān)系作為有向邊,可以繪制基于關(guān)鍵詞集合S的有向完全圖G;將KMS中的關(guān)鍵詞按特定策略劃分為集合,并綜合各關(guān)鍵詞集合,根據(jù)算法畫出有向完全圖,可以得到該關(guān)鍵詞集合劃分策略下的完整知識關(guān)聯(lián)網(wǎng)絡(luò). 2.2健詞集合及其劃分策略 關(guān)鍵詞是用戶在編輯知識時為每個知識點設(shè)置的,一般用于知識檢索,本文則關(guān)注應(yīng)用關(guān)鍵詞集合構(gòu)建知識關(guān)聯(lián)網(wǎng)絡(luò)的思想與算法.關(guān)鍵詞集合指包含了1個或多個關(guān)鍵詞的集合.關(guān)鍵詞集合所包含的關(guān)鍵詞內(nèi)容與數(shù)量如何設(shè)置,取決于知識關(guān)聯(lián)所遵循的關(guān)鍵詞集合劃分策略.本文涉及的三種劃分策略分別是單關(guān)鍵詞集合策略、全關(guān)健詞集合策略和不定關(guān)鍵詞集合策略. 在單關(guān)鍵詞集合策略下,每個關(guān)鍵詞集合S只擁有一個關(guān)鍵詞w;,該集合S‘對應(yīng)知識點集合戊}k,,k2,-..,k,},這些知識點均含有關(guān)鍵詞,、.設(shè)知識點k,具有關(guān)鍵詞、,,,,,…,二r,基于此策略設(shè)置知識關(guān)聯(lián)時,k,會把與關(guān)鍵詞集合S,,SZ,...,5:匹配的知識點集合K,K‘中的全部知識點鏈接進來,并剔除其中的重復(fù)部分.如圖2所示,6個含有關(guān)鍵詞“學(xué)生”的知識點以單關(guān)鍵詞集合{學(xué)生}為制圖策略構(gòu)成了有向完全圖,也就是這6個知識點基于“學(xué)生”關(guān)鍵詞的知識關(guān)聯(lián)網(wǎng)絡(luò). 在全關(guān)鍵詞集合策略下,全關(guān)鍵詞集合s;包含了知識點k:所具有的所有關(guān)鍵詞,k:只把與全關(guān)鍵詞集合S;wl,叨2,…,,r匹配的知識點集合K;中的知識鏈接進來.使用該策略獲取的知識結(jié)果的相關(guān)度比使用單關(guān)鍵詞策略要高.
1.2雙向知識關(guān)聯(lián)
在不定關(guān)鍵詞集合策略下,需人工確定關(guān)鍵詞集合中所包含的關(guān)鍵詞,此方式無法實現(xiàn)全自動知識關(guān)聯(lián),不適合在大型知識庫系統(tǒng)中采用.
由全關(guān)鍵詞策略或不定關(guān)鍵詞策略獲得的結(jié)果集是單關(guān)鍵詞集合策略結(jié)果集的子集,獲得的知識關(guān)聯(lián)網(wǎng)絡(luò)圖是基于單關(guān)鍵詞集合策略獲得的知識網(wǎng)絡(luò)圖的子圖.在實際應(yīng)用中,宜采用全關(guān)鍵詞集合策略與單關(guān)鍵詞集合策略相結(jié)合的方式,在知識點關(guān)聯(lián)展示的時候分兩組按不同的優(yōu)先級展示.首先展示優(yōu)先級最高的按全關(guān)鍵詞集合策略得出的關(guān)聯(lián)知識點集合,該集合中的知識與當前知識點的相關(guān)度最高;其次才展示單關(guān)鍵詞集合策略得出的結(jié)果集.本文討論的算法均基于這兩種策略相結(jié)合的方式.
2. 3以關(guān)鍵詞集合為迭代單元的關(guān)聯(lián)網(wǎng)絡(luò)算法
計算知識關(guān)聯(lián)網(wǎng)絡(luò)可以用關(guān)鍵詞集合作為迭代單元循環(huán)進行或者僅針對單個知識點進行.這兩種方式在KMS中各有優(yōu)勢,分別適合不同的場景在為數(shù)量較多的知識點構(gòu)建關(guān)聯(lián)網(wǎng)絡(luò)時,首選以關(guān)鍵詞集合為迭代單元進行計算,算法描述如下.
1)設(shè)需要計算關(guān)聯(lián)網(wǎng)絡(luò)的知識范圍中有P個知識點k, , k2,…,kP,任意知識點氣均對應(yīng)一個點v;,把所有的點繪制在圖‘<V, E>中,v;與k}一一對應(yīng).
2)分揀出KMS中所有種類的關(guān)鍵詞w‑w2.wn,記錄KMS中所有關(guān)鍵詞集合的信息獲得關(guān)鍵詞集合S, ,52,.. Sn ... S9(包含所有的單關(guān)鍵詞集合與全關(guān)鍵詞集合),同時獲得與任意關(guān)鍵詞集合S.相匹配的知識點集合K;.
3)逐個掃描關(guān)鍵詞集合S, ,52, ,59,優(yōu)先掃描其中的全關(guān)鍵詞集合(這樣可以確保每條知識后的關(guān)聯(lián)信息優(yōu)先展示關(guān)鍵字相關(guān)度最高的鏈接),記錄當前關(guān)鍵詞集合S,所對應(yīng)的知識點集合Kl,記錄知識點集合K中所包含的每個知識點元素k;,在圖中與K對應(yīng)的點集合的所有元素間作有向完全子圖,在畫邊e};、eji時,在系統(tǒng)內(nèi)知識點k、后加人知識點匆的鏈接,在知識點k;后加人k‘的鏈接·如果邊已存在,則跳過,每畫一條邊,計數(shù)器c累加1.掃描完K9后,循環(huán)結(jié)束.
4)程序繪制的圖<V, E>就是P個知識點根據(jù)關(guān)鍵詞集合S‑S2,S。構(gòu)建的知識關(guān)聯(lián)網(wǎng)絡(luò)圖,。是知識關(guān)聯(lián)網(wǎng)絡(luò)所具有的知識關(guān)聯(lián)數(shù)量.該算法的復(fù)雜度是。(n2).
如圖3所示,在一個具有7個知識點的示例系統(tǒng)中,算法先根據(jù)單關(guān)鍵字集合S,{經(jīng)濟學(xué)}進行繪圖,其次根據(jù)單關(guān)鍵字集合管理學(xué)進行繪圖.“管理經(jīng)濟學(xué)”知識點因為同時具有管理學(xué)、經(jīng)濟學(xué)兩個關(guān)鍵詞,因此同時處于左、右兩個有向完全子圖中.圖3就是這7個知識點根據(jù)2個單關(guān)鍵字集合所繪制的知識關(guān)聯(lián)網(wǎng)絡(luò).
2. 4針對單個知識點的關(guān)聯(lián)網(wǎng)絡(luò)算法
對于任意一個知識點k;設(shè)該矢識點擁有個關(guān)鍵詞,首先掃描全關(guān)鍵詞集合Sr十,{w},w2,…,、:},再逐個掃描關(guān)鍵詞二:所對應(yīng)的關(guān)鍵詞集合S,在每一輪掃描中將當前集合所對應(yīng)的知識點集合凡,內(nèi)所有的知識點元素記錄在緩存中,掃描到任意知識點乓時,程序繪制兩條有向邊人知識點的關(guān)聯(lián),在知識點氣后加入的關(guān)聯(lián)如果邊ei、ei;已存在或i=J,則跳過,每畫一條邊,計數(shù)器。累加,直到有向完全圖繪制完成.
程序繪制的圖就是知識點的相關(guān)知識點關(guān)聯(lián)圖。是與該知識點相關(guān)的所有知識關(guān)聯(lián)數(shù)量.該算法的復(fù)雜度是口(礦).該算法循環(huán)應(yīng)用在所有知識點上同樣也可以得到算法2. 3繪制的整體知識地圖,但算法復(fù)雜度達到0(礦),因此在為多個知識點建立關(guān)聯(lián)或繪制地圖時宜采用2. 3節(jié)的算法.2. 4節(jié)的算法則適宜針對個別知識點繪制關(guān)聯(lián)網(wǎng)絡(luò)并建立知識鏈接時采用.
3實際應(yīng)用中需注意的問題
企業(yè)級KMS中知識點數(shù)量可能達到1萬以上,在應(yīng)用關(guān)鍵詞集合繪制知識關(guān)聯(lián)網(wǎng)絡(luò)時必須設(shè)置范圍與條件,一般只分層次、分區(qū)域按照相應(yīng)使用人員群體的權(quán)限選擇部分知識點進行關(guān)聯(lián)網(wǎng)絡(luò)繪制.其次,必須嚴格準確地設(shè)定關(guān)鍵詞,管理維護關(guān)鍵詞,建立系統(tǒng)關(guān)鍵詞管理維護機制,同時應(yīng)制定關(guān)鍵詞編輯規(guī)范并開發(fā)檢驗程序,限制每個知識點的關(guān)鍵詞字數(shù)、關(guān)鍵詞個數(shù),并提供系統(tǒng)級視圖監(jiān)控系統(tǒng)關(guān)鍵詞的使用與分布狀況.在 KMS中,應(yīng)采用關(guān)聯(lián)網(wǎng)絡(luò)、分類體系、搜索引擎共同協(xié)作的方式構(gòu)建完善的知識地圖,這樣有助于建立真正意義上的實用知識地圖,使知識查閱檢索更加方便、快捷、準確.