《電子技術應用》
您所在的位置:首頁 > 人工智能 > 設計應用 > 面向新聞的長文本事件抽取方法
面向新聞的長文本事件抽取方法
網絡安全與數據治理
武劍濤,李俊達,李佰文,淮曉永
華北計算機系統工程研究所
摘要: 事件抽取技術旨在從非結構化文本中識別并結構化描述事件信息,是構建知識圖譜與實現輿情分析的核心基礎。針對新聞長文本中多事件共存、復雜敘事結構的特點以及現有模型輸入長度受限等挑戰,提出一種層級化新聞長文本事件抽取框架。該框架通過語義邊界分割算法優化段落劃分,降低事件要素的跨段落割裂;結合機器閱讀理解技術實現局部事件要素提??;并設計事件合并算法完成跨分塊事件的語義融合。實際應用表明,該框架能夠適應新聞文本的結構特性,在多事件場景中可穩定提取關鍵信息,為輿情監控、知識圖譜構建等任務提供可落地的技術解決方案。
中圖分類號:TP391.13文獻標識碼:ADOI:10.19358/j.issn.2097-1788.2025.05.004
引用格式:武劍濤,李俊達,李佰文,等. 面向新聞的長文本事件抽取方法[J].網絡安全與數據治理,2025,44(5):21-28.
A method for event extraction from lengthy news texts
Wu Jiantao,Li Junda,Li Baiwen,Huai Xiaoyong
National Computer System Engineering Research Institute of China
Abstract: Event extraction technology, which aims to identify and structurally represent event information from unstructured text, serves as the foundational infrastructure for constructing knowledge graphs and enabling public opinion analysis. To address the challenges of multi-event coexistence, complex narrative structures in lengthy news texts, and input length constraints of existing models, this paper proposes a hierarchical event extraction framework specifically designed for news narratives. The framework features three key innovations: (1) a semantic boundary segmentation algorithm that optimizes paragraph segmentation to minimize cross-paragraph fragmentation of event elements; (2) integration of machine reading comprehension (MRC) technology for localized event element extraction; (3) a cross-chunk event fusion algorithm is designed to achieve semantic integration of distributed event components. Experimental evaluations demonstrate that the proposed framework effectively adapts to the structural characteristics of news texts, can consistently extract critical information in multi-event scenarios, and deliver practically viable technical solutions for public opinion monitoring and knowledge graph construction.
Key words : event extraction; machine reading comprehension; semantic chunking

引言

事件抽取是自然語言處理中的一項關鍵技術,其核心目標是從非結構化文本中識別并提取出特定事件的信息,包括事件類型、參與者、時間、地點等關鍵要素,并以結構化形式呈現出來。通過新聞事件抽取技術,能夠從海量新聞文本中實時提取出關鍵事件信息,為知識圖譜的構建提供高質量的數據支持。同時,基于對這些信息的實時分析,可以快速識別出正在發酵的熱點事件,評估其輿論熱度及發展趨勢,從而為輿情監控和決策支持提供精準、及時的參考依據。

文本事件抽取的研究經歷了從規則方法到機器學習,再到深度學習的演進。早期研究主要依賴人工規則和傳統機器學習方法,例如,Liao等[1]基于條件隨機場事件檢測方法,解決了從文本中識別事件觸發詞的問題,為事件抽取任務奠定了基礎。Ji等[2]提出了基于支持向量機的論元角色標注方法,通過分類模型識別事件參與者及其角色,提升了事件結構的完整性。隨著深度學習的興起,Chen等[3]提出了基于動態多池化卷積神經網絡的事件抽取方法,解決了傳統方法難以捕捉文本中長距離依賴關系的問題。近年來,預訓練語言模型(如BERT[4]、GPT[5])的引入進一步推動了該領域的發展,Li等[6]提出的多階圖卷積網絡方法通過建模事件內部關系,為解決多事件共存場景下的信息抽取難題提供了新思路,但其端到端處理模式仍受限于新聞文本的跨段落特性。與此同時,機器閱讀理解(Machine Reading Comprehension, MRC)技術也被引入事件抽取任務,Du等[7]提出的基于MRC框架的方法將事件抽取轉化為問答問題,通過預訓練語言模型生成答案,有效提升了泛化能力和長文本處理效果。

然而,新聞文本的特殊性對現有方法提出了獨特挑戰。王人玉等[8]的研究表明,新聞報道中多個獨立事件常以倒金字塔結構分布在相鄰段落,導致事件要素的跨段落分散;Li等[9]進一步指出,新聞段落間的敘事非連續性事件要素定位誤差和敘事跳躍性使得端到端模型難以有效捕捉局部語義焦點。這些結構性特征與BERT等預訓練模型的長度限制共同作用,導致傳統篇章級方法[10]在處理多事件新聞時丟失關鍵事件要素。以DuEEFin[11]數據集中的《安琪酵母股份有限公司關于股東通過大宗交易減持股份的公告》(下文簡稱為公告)為例,該文本通過“重要提示”“減持情況”和“其他事項”三個獨立章節分別承載減持主體“湖北日升”的持股信息(5657 41%)、減持操作(5 417 651股)及合規聲明,形成典型的多段落協同敘事結構。這種跨段落分布特征與文本中大量非事件信息交織,易使篇章級抽取模型產生兩種典型錯誤:一是全局語義理解導致的冗余信息干擾,二是事件稀疏性引發的要素漏檢。

針對上述問題,基于文本結構的分段處理方法展現出更強的適應性:通過語義分塊將長文本解構為局部信息單元,既可規避跨段落要素的干擾,又能通過分段抽取-合并策略解決多事件并行處理難題。該方法與新聞文本的多事件分布特性和復雜敘事結構形成映射關系,在保持事件要素完整性的同時,有效提升了實際業務場景中的信息抽取準確率。

基于以上研究,本文提出一種層級化事件抽取框架(Hierarchical Event Extraction Framework, HEEF),本框架核心包含:(1) 采用語義分割的長文本分塊技術,通過上下文感知的段落劃分避免事件要素割裂;(2)構建基于機器閱讀理解(MRC)的聯合抽取模型,通過定制問答對實現事件類型與論元角色的精準解析;(3)設計跨分塊事件融合策略,通過時空語義約束實現事件聚合。該框架通過“分塊-抽取-融合”的遞進式處理,有效應對新聞文本中多事件共存、跨段落分布與語義跳躍性等挑戰,為長文本事件抽取提供系統性解決方案。


本文詳細內容請下載:

http://m.xxav2194.com/resource/share/2000006543


作者信息:

武劍濤,李俊達,李佰文,淮曉永

(華北計算機系統工程研究所,北京100083)


Magazine.Subscription.jpg

此內容為AET網站原創,未經授權禁止轉載。
主站蜘蛛池模板: bt√天堂资源在线官网| 亚洲国产理论片在线播放| 黑白配hd视频| 天天爱天天做天天爽| 久久精品国产一区二区三区肥胖 | 国产一在线精品一区在线观看| 2020因为爱你带字幕免费观看全集| 成人免费黄网站| 乱之荡艳岳目录| 波多野结衣上班族| 另类小说亚洲色图| 黄在线观看在线播放720p| 国产黄网在线观看| 一本一道av无码中文字幕| 日韩一区二紧身裤| 亚洲国产高清美女在线观看| 精品一区二区三区在线观看l| 国产亚洲精品仙踪林在线播放| 2018中文字幕第一页| 失禁h啪肉尿出来高h男男视频| 久久99国产一区二区三区| 欧美一级片在线| 亚洲精品熟女国产| 精品国产一区二区二三区在线观看| 国产又黄又硬又粗| 1313mm禁片视频| 天天做天天摸天天爽天天爱| 中文字幕影片免费在线观看| 日韩在线第一区| 亚洲免费视频在线观看| 深夜的贵妇无删减版在线播放| 午夜不卡久久精品无码免费| 野花日本免费观看高清电影8| 国产精品va无码二区| 91香蕉在线观看免费高清| 妞干网免费视频在线观看| 中文字幕无码日韩专区免费| 日韩亚洲欧美在线观看| 亚洲人成电影网站色| 欧美精品18videosex性欧美| 免费A级毛片无码无遮挡|