《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 通信與網(wǎng)絡(luò) > 設(shè)計(jì)應(yīng)用 > 種子事件與新穎事件演化關(guān)系的話題檢測與追蹤
種子事件與新穎事件演化關(guān)系的話題檢測與追蹤
來源:微型機(jī)與應(yīng)用2013年第6期
胡耀斌1,林培光1,聶培堯1,耿長欣1,文 卉2
(1.山東財(cái)經(jīng)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山東 濟(jì)南250014; 2.山東財(cái)經(jīng)大學(xué) 財(cái)政稅務(wù)學(xué)院,
摘要: 在話題檢測和追蹤過程中,話題漂移的產(chǎn)生往往降低話題檢測和追蹤的準(zhǔn)確率。為了克服這個問題,通過分析新聞報道中種子事件與后續(xù)的新穎事件之間的演化關(guān)系,強(qiáng)調(diào)命名實(shí)體詞的貢獻(xiàn)度,并及時調(diào)整話題的重心向量,建立了一種動態(tài)的話題檢測和追蹤模型。實(shí)驗(yàn)證明,該模型有效地降低了話題漂移現(xiàn)象在話題檢測與話題追蹤中的影響。
關(guān)鍵詞: 種子事件 新穎事件 話題漂移
Abstract:
Key words :

摘  要: 在話題檢測和追蹤過程中,話題漂移的產(chǎn)生往往降低話題檢測和追蹤的準(zhǔn)確率。為了克服這個問題,通過分析新聞報道中種子事件與后續(xù)的新穎事件之間的演化關(guān)系,強(qiáng)調(diào)命名實(shí)體詞的貢獻(xiàn)度,并及時調(diào)整話題的重心向量,建立了一種動態(tài)的話題檢測和追蹤模型。實(shí)驗(yàn)證明,該模型有效地降低了話題漂移現(xiàn)象在話題檢測與話題追蹤中的影響。
關(guān)鍵詞: 種子事件;新穎事件;話題漂移

    隨著信息技術(shù)的不斷發(fā)展,互聯(lián)網(wǎng)已經(jīng)成為人們獲得信息的主要來源之一,然而面對互聯(lián)網(wǎng)的海量信息,用戶要集中關(guān)注某個感興趣的主題時,往往感到無所適從。在這種情況下,話題檢測與追蹤TDT(Topic Detection and Tracking)應(yīng)運(yùn)而生。TDT概念由美國國防高級研究計(jì)劃委員會DARPA(Defense Advanced Research Project Agency)在1996年提出,近些年關(guān)于TDT的研究得到迅速發(fā)展,目前已經(jīng)發(fā)展到第五代TDT技術(shù)評價階段[1]。
    TDT對話題的定義為:一個話題由一個種子事件或活動以及與其直接相關(guān)的事件或活動組成。話題檢測的主要任務(wù)是檢測識別出系統(tǒng)未知的話題。話題追蹤被定義為用一個或幾個報道定義一個話題,在一個報道流中順序檢測出對該話題的所有相關(guān)報道[2]。
    在話題檢測和追蹤領(lǐng)域存在一種現(xiàn)象,話題會隨著時間的變化轉(zhuǎn)移重心,例如當(dāng)某自然災(zāi)害發(fā)生時,新聞報道的內(nèi)容主要是該自然災(zāi)害造成的傷亡和損失,隨著事件的發(fā)生,新聞報道的重心則轉(zhuǎn)移到了災(zāi)后的救助和災(zāi)后重建,這種話題的動態(tài)演變稱為話題漂移。本文旨在提出一種能夠解決話題漂移的話題檢測與追蹤模型,使得TDT系統(tǒng)在追蹤話題漂移的報道時,能夠準(zhǔn)確地將其劃分到所屬的話題中。
1 國內(nèi)外研究現(xiàn)狀
    國外對TDT的研究起步較早,最初的研究參與者不僅包括卡耐基梅隆大學(xué)、馬薩諸塞大學(xué)、賓州大學(xué)等一流的大學(xué),還包括IBM、GE、Dragon Systems等實(shí)力雄厚的公司。馬薩諸塞大學(xué)采用Rocchio算法,利用特征詞的不同權(quán)重組合實(shí)現(xiàn)自適應(yīng)的話題追蹤算法,證明了采用“NUC”權(quán)重計(jì)算方法可取得最優(yōu)性能[3]。卡耐基梅隆大學(xué)的研究者提出了一種基于決策樹的組合系統(tǒng)BORG TRACK,該系統(tǒng)在話題追蹤領(lǐng)域表現(xiàn)優(yōu)異[4]。IBM公司在話題檢測和追蹤系統(tǒng)中采用了兩次聚類的策略,使得系統(tǒng)在準(zhǔn)確率方面得到很大的提高[5]。另外還有多種不同方法在這項(xiàng)研究中被嘗試使用,如Single-Pass方法、貝葉斯算法、K-最近鄰居方法等,其中比較成功的有K-最近鄰居方法以及多種方法的組合。
    話題檢測和追蹤已經(jīng)成為國內(nèi)信息處理領(lǐng)域的熱點(diǎn)問題,雖然國內(nèi)對TDT的研究相對國外起步較晚,但經(jīng)過多年的發(fā)展也取得了一些突出的研究成果。賈自艷[6]把命名實(shí)體融入到TDT系統(tǒng)中,并將時間信息考慮到文本相似性計(jì)算的閾值中,有效地提升了TDT系統(tǒng)跟蹤話題的性能。趙華[7]在TDT系統(tǒng)中考慮時間信息的重要性,提出了一種基于時間信息的動態(tài)閾值模型,證明了時間信息應(yīng)該在話題檢測系統(tǒng)中得到充分利用。
2 相關(guān)技術(shù)
2.1 報道模型

    文本表示模型共有3種:布爾模型、概率模型及向量空間模型,其中向量空間模型應(yīng)用最為廣泛。本文采用向量空間模型作為文本表示模型。眾所周知,新聞報道包含4個要素:時間、地點(diǎn)、人物和事件。其中時間、地點(diǎn)、人物和組織機(jī)構(gòu)名等4種命名實(shí)體詞對新聞報道內(nèi)容的貢獻(xiàn)度大于其他特征詞。為區(qū)分命名實(shí)體詞和其他特征詞對文章的貢獻(xiàn)度,在構(gòu)造新聞報道向量空間模型時,提取上述4種命名實(shí)體詞作為命名實(shí)體向量,提取除命名實(shí)體詞外的其他特征詞作為內(nèi)容向量。
 
    每當(dāng)有新的報道被劃分到話題模型中后,都需要重新計(jì)算話題模型的權(quán)重,以完成話題模型的更新,目的是讓更新后的話題模型能夠體現(xiàn)出新加入報道對該模型的影響。
2.3 新聞報道中特征詞權(quán)重的計(jì)算
    經(jīng)過一些文本預(yù)處理(去噪分詞)后,新聞文本被表示為一系列的詞,而詞與詞之間對文本的貢獻(xiàn)是不同的,如何計(jì)算這些詞的權(quán)重顯得很重要。顯而易見的是,出現(xiàn)次數(shù)越多的特征詞對文本的貢獻(xiàn)越高,表現(xiàn)形式越突出的特征詞對文本的貢獻(xiàn)越高,例如各級標(biāo)題中的特征詞或加粗后的特征詞要比那些普通的特征詞具有更高的貢獻(xiàn)。
    本文在計(jì)算特征詞權(quán)重時,將特征詞分成兩部分。第一部分是命名實(shí)體特征詞和特殊內(nèi)容特征詞,命名實(shí)體特征詞指表示時間、人物、地點(diǎn)、組織機(jī)構(gòu)名的詞;特殊內(nèi)容特征詞指那些加粗或出現(xiàn)在各級標(biāo)題中的內(nèi)容特征詞。第二部分為除第一部分外,無明顯表現(xiàn)特征的普通內(nèi)容特征詞。

2.4 特征選擇
    由于新聞文本中含有豐富的詞匯量,而能夠表示話題核心的詞匯卻只占一小部分,如果不對特征詞加以選擇,那么空間向量的維數(shù)會變得非常高,加大了相似度計(jì)算的復(fù)雜度,系統(tǒng)的性能也會隨之下降,這就要求對特征項(xiàng)加以選擇。本文采用隱含語義分析LSA(Latent Semantic Analysis)技術(shù)對文本向量實(shí)施降維,經(jīng)過驗(yàn)證LSA是目前最好的降維方法之一。
    隱含語義分析的核心思想是將特征項(xiàng)和文本映射到一個二維的向量空間(矩陣Ai×j)中,假設(shè)這個矩陣的秩為r,其中每行代表一個特征詞的權(quán)重,每列代表一個文本。然后對矩陣進(jìn)行奇異值分解,即:A=UBVT,其中U和V均為正交矩陣,B=diag(β1,β2,…,βr),然后在這r個特征值中取前k個。
2.5 相似性計(jì)算
    根據(jù)新聞報道R與話題T的相似性計(jì)算結(jié)果判斷報道是新話題或是已存在話題。本文將相似度的計(jì)算分成兩部分,即新聞報道的命名實(shí)體向量與話題的命名實(shí)體向量二者之間的相似度(Simn)、新聞報道的內(nèi)容空間向量與話題的內(nèi)容空間向量二者之間的相似度(Simc)。
    
3 話題檢測與追蹤算法
    根據(jù)TDT對話題的定義,可知話題是由種子事件引起的,新聞報道的內(nèi)容則是圍繞種子事件進(jìn)行描述的。隨著事態(tài)的發(fā)展,種子事件可能會產(chǎn)生新的狀態(tài)或情況,新聞報道的內(nèi)容重心也產(chǎn)生了漂移,這種新的事態(tài)情況稱為新穎事件,這個過程即為種子事件到新穎事件的演化。新穎事件仍然屬于原始話題。在實(shí)際生活中,話題發(fā)生演變過程中,即新聞報道中產(chǎn)生新穎事件時,常常會有對種子事件或前一個新穎事件的回顧性描述,而且新穎事件一定是發(fā)生在種子事件之后。
    根據(jù)上述內(nèi)容可以得出一個結(jié)論,即新穎事件的報道中常常會有對種子事件或前一個新穎事件的回顧性描述,而事件描述的主要內(nèi)容是時間、地點(diǎn)、人物等命名實(shí)體,這就意味著新聞報道的命名實(shí)體向量與所屬話題的命名實(shí)體向量具有高相似性。設(shè)定閾值為λ1,若不屬同一話題二者的命名實(shí)體向量的相似性則低于閾值λ1,然后比較新聞報道的內(nèi)容向量與模型的內(nèi)容向量相似度,若該相似度大于閾值λ2,則仍然認(rèn)為新聞報道屬于該話題。
    該算法將報道按時間先后進(jìn)行排序,依次處理報道流中的報道。具體算法實(shí)現(xiàn)如下:
Input:R={R1,R2,…,Rn}   Output:T={T1,T2,…,Tm}
//其中Ri為新聞報道,Tj為話題
Begin
    T1={R1};num(T1)=1;k=1;
    While(i<n){
        if(Simn(Ri,Tj)> λ1||Simc(Ri,Tj)>λ2)  {
            Tj=Tj+{Ri};//將報道i劃分到話題j中
            num(Ti)++;
            update(Tj);//更新話題模型,重新計(jì)算
話題模型中特征詞的權(quán)重
        }
        else {
            k++;
            Tk={Ri}; //創(chuàng)建的新話題
            create(Tk)    //創(chuàng)建新話題模型
        }
    }
    return{T1,T2,…Tm}
End

其中,A表示系統(tǒng)追蹤到的相關(guān)新聞報道數(shù);B表示系統(tǒng)追蹤到的不相關(guān)新聞報道數(shù);C表示系統(tǒng)未追蹤到的相關(guān)新聞報道數(shù);D表示系統(tǒng)未追蹤到的不相關(guān)新聞報道數(shù)。
    通過對前20個樣本的學(xué)習(xí),得到參數(shù)的最優(yōu)值分別為:wλ=0.07,λ1=0.39,λ2=0.44,利用所得參數(shù)對剩余報道進(jìn)行話題追蹤,最終得到準(zhǔn)確率為95.24%,召回率為93.02%,F(xiàn)1-measure為94%。從評價指標(biāo)中可以看出本文提出的基于種子事件和新穎事件時序關(guān)系的話題檢測和話題追蹤模型實(shí)現(xiàn)了較好的效果,有效地解決了話題漂移帶來的問題。
    本文首先介紹了TDT系統(tǒng)的相關(guān)技術(shù),包括向量空間模型、特征詞權(quán)重計(jì)算、相似度計(jì)算等,為體現(xiàn)本系統(tǒng)所陳述的算法思想,并對這些相關(guān)技術(shù)在一定程度上進(jìn)行了改進(jìn)。另外,本文提出了種子事件和后續(xù)的新穎事件之間的時序關(guān)系,并在此基礎(chǔ)上提出了新的話題探測和追蹤模型。通過實(shí)驗(yàn)證明,該模型能夠有效地解決話題漂移帶來的問題,保證了TDT系統(tǒng)的有效性。
參考文獻(xiàn)
[1] ALLAN J.Topic detection and tracking-event based information organization[M].Boston:Kluwer Academic Publisher,2002:1241-1253.
[2] CIERI C,STRASSEL S,GRAFF D.Corpora for topic detection and tracking[A].In:ALLAN J.Topic detection and tracking-event based information organization[M].Boston:Kluwer Academic Publisher,2002:33-66.
[3] ROECHIO J.Relevance feedback in information retrieval[A]. In:SALTON G.The smart retrieval system:experiments in  automatic document processing[M].New Jersey:Prentice Hall,1971:313-323.
[4] MITCHEN T M.機(jī)器學(xué)習(xí)[M].曾華軍,張銀奎,譯.北京:機(jī)械工業(yè)出版社,2003.
[5] ALLAN.Topic detection and tracking-Event-based Information Organization[M].Dordrecht:Kluwer Academic Publishers,2002.
[6] 賈自艷,何清,張海俊,等.一種基于動態(tài)進(jìn)化模型的事件探測和追蹤算法[J].計(jì)算機(jī)研究與發(fā)展,2004,41(7):1273-1280.
[7] 趙華,趙鐵軍,趙霞.時間信息在話題檢測中的應(yīng)用研究
     [J].計(jì)算機(jī)科學(xué),2008,35(1):221-223.

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。
主站蜘蛛池模板: 中文字幕精品亚洲无线码二区| 国产小视频在线观看免费| 国产福利在线小视频| 亚洲精品在线不卡| www亚洲欲色成人久久精品| 美女被免网站在线视频| 少妇粉嫩小泬喷水视频| 又大又粗又爽a级毛片免费看| 99精品在线看| 猛男狂搡美女免费| 天天躁日日躁狠狠躁综合| 免费无码又爽又刺激毛片| 一级毛片aa高清免费观看| 精品国产无限资源免费观看| 成人免费视频网站www| 亚洲白嫩在线观看| 高清不卡毛片免费观看| 日本护士取精视频xxxxx全部 | 亚洲va韩国va欧美va| 色爱av综合网站| 成年女人毛片免费播放视频m| 亚洲精品成人网站在线播放| 91精品国产免费久久久久久青草| 快穿之青梅竹马女配| 亚洲国产一区视频| 美女视频黄频a免费| 国产精品日本一区二区在线播放| 久久99精品久久久久久噜噜| 毛片手机在线观看| 国产精品资源在线| 久久亚洲国产视频| 渣男和渣女做不干净事情视频| 国内自产少妇自拍区免费| 久久精品国产亚洲夜色AV网站 | 日韩高清中文字幕| 国产在线一区二区| www.fuqer.com| 波多野结衣在线观看3人| 国产精品美女久久久久| 久久99精品久久| 欧美激情在线一区二区三区|