新聞傳播學(xué)專業(yè)論文:一種新聞事件演化建模方法研究
新聞傳播學(xué)專業(yè)論文:一種新聞事件演化建模方法研究
新聞,是指通過報紙、電臺、廣播、電視臺、互聯(lián)網(wǎng)等媒體途徑所傳播的信息的一種稱謂。新聞概念有廣義與狹義之分。就其廣義而言,除了發(fā)表于報刊、廣播、互聯(lián)網(wǎng)、電視上的評論與專文外的常用文本都屬于新聞之列,包括消息、通訊、特寫、速寫(有的將速寫納入特寫之列)等等,狹義的新聞則專指消息,消息是用概括的敘述方式,比較簡明扼要的文字,迅速及時地報道國內(nèi)外新近發(fā)生的、有價值的事實。以下是學(xué)習(xí)啦小編今天為大家精心準(zhǔn)備的新聞傳播學(xué)專業(yè)論文范文:一種新聞事件演化建模方法研究。內(nèi)容僅供參考,歡迎閱讀!
一種新聞事件演化建模方法研究全文如下:
摘 要: 事件演化關(guān)系模型是一個科學(xué)的新聞事件演化建模方法,它有利于準(zhǔn)確發(fā)掘新聞話題中各子事件之間存在的潛在關(guān)系。其具體方法是利用事件的內(nèi)容相似性、時間關(guān)系、命名實體以及關(guān)聯(lián)信息構(gòu)建新聞演化關(guān)系模型。本文通過具體的建模實驗,對該方法的可行性進(jìn)行了探析。
關(guān)鍵詞: 新聞事件;演化;建模方法
新聞報道中,一個新聞話題不僅僅是單一事件的報道,它還具有一個完整的時間演化結(jié)構(gòu)。而從新聞話題中掌握各個子事件的演化脈絡(luò)也并不是一件容易的事情。構(gòu)建事件演化關(guān)系模型,基于新聞事件的多層次特性,通過計算機(jī)技術(shù)發(fā)掘事件之間存在的演化關(guān)系,是本文對新聞事件演化建模的研究方向。
1 新聞事件演化
一個完整的新聞事件演化方式可以是由一個事件分裂成多個事件,也可能是多個事件相融合并合成一個事件,還可能是由單一的一個事件演變發(fā)展成另一個單一事件。確定新聞事件之間存在演化關(guān)系,應(yīng)滿足兩個條件:事件發(fā)生的時間具有先后關(guān)系;事件內(nèi)容之間相互關(guān)聯(lián),其中,事件發(fā)生的時間所構(gòu)成的先后關(guān)系,表示該事件的演化方向。
2 新聞事件收集
在對新聞事件演化進(jìn)行研究前,應(yīng)該收集新聞話題,并生成新聞事件集,事件集中統(tǒng)一新聞話題的報道應(yīng)為兩篇以上篇。本文主要對事件演化關(guān)系建模方法進(jìn)行研究,基于避免出現(xiàn)報道聚類誤差的原因,新聞話題的收集采取人工方式進(jìn)行,最終生成事件集。
事件內(nèi)容向量采用TF?IEF 模型創(chuàng)建,用T={,,…, }表示新聞話題的事件集合,用表示第i個事件中第j個特征的權(quán)重值,用{(,) |j =1,2,…,k}表示Ei的k個特征及其權(quán)重值,具體TF?IEF模型下,特征權(quán)重計算公式如下:
其中,表示特征在事件出現(xiàn)的頻次,表示出現(xiàn)特征的事件總數(shù),表示T中總事件數(shù)。
3 事件演化關(guān)系建模
就計算目標(biāo)來說,文本中的特征關(guān)聯(lián)度和互信息相似度較高,模糊匹配策略可以用于計算事件命名實體間的關(guān)聯(lián)度,當(dāng)相同的命名實體都在一個事件中有出現(xiàn),則稱之為一次關(guān)聯(lián)。因此,本文把在一個文本中共同出現(xiàn)兩個不同特征的概率進(jìn)行替換,替換對象是它們在一個完整事件集中共同出現(xiàn)的事件個數(shù),對特征在事件中的權(quán)重值進(jìn)行計算,具體公式為:
其中,表示特征在事件A中權(quán)重;表示事件A中特征與事件B中特征的關(guān)聯(lián)度;表示特征與共同出現(xiàn)的事件個數(shù);表示特征出 現(xiàn)的事件數(shù);表示特征單獨出現(xiàn)的事件數(shù)。
4 新聞事件演化建模實例分析
4.1 實驗資料
實驗資料是利用網(wǎng)絡(luò)從中國新聞網(wǎng)中采集的2009年2月22日至4月22日關(guān)于山西2009年“2?22屯蘭礦難”的相關(guān)報道,共計682篇。本研究對這一新聞話題所涉及的各個事件進(jìn)行匯總,共158篇報道,構(gòu)成8個事件,見表1。
以表1中的事件發(fā)生的時間為基礎(chǔ),由相關(guān)專家小組,分析并構(gòu)建出具體的事件演化關(guān)系,同時對演化關(guān)系的正確性和完整性進(jìn)行驗證。
4.2 實驗結(jié)果分析
本文中演化關(guān)系模型的主要對象是新聞事件的相似性、新聞事件命名實體特征關(guān)聯(lián)度(CS*FA),參與比較的關(guān)系模型有:CS模型、CS*DF模型以及事件內(nèi)容相似性模型。計算演化關(guān)系模型中不同閾值λ下的召回率、準(zhǔn)確率,事件演化關(guān)系模型的系統(tǒng)性能隨著實體特征關(guān)聯(lián)度、新聞報道接近度的增加而增加,CS*FA關(guān)系模型表現(xiàn)最為明顯,具體如圖1所示。
本文提出的事件關(guān)系建模方法中,在進(jìn)行自動的演化關(guān)系探測時,當(dāng)λ為0.04時,分別有正確演化關(guān)系線10條,錯誤演化關(guān)系線3條,丟失的演化關(guān)系線6條,如圖2所示。
5 結(jié)論
現(xiàn)代社會中,網(wǎng)絡(luò)上的新聞事件報道數(shù)量巨大,為了能夠及時、準(zhǔn)確地了解新聞事件的來由與發(fā)展歷程,本文基于事件的內(nèi)容相似性、時間關(guān)系、命名實體以及關(guān)聯(lián)信息構(gòu)建新聞演化關(guān)系模型。本文所研究的事件演化關(guān)系建模方法,可以將同一新聞話題中各事件之間的潛在演化發(fā)展脈絡(luò)良好呈現(xiàn)出來。
相關(guān)文章: