《電子技術應用》
您所在的位置:首頁 > 人工智能 > 設計應用 > 基于RoBERTa和多層次特征的中文事件抽取方法
基于RoBERTa和多層次特征的中文事件抽取方法
電子技術應用 11期
樂楊,胡軍國,李耀
(浙江農林大學 數學與計算機科學學院,浙江 杭州 311300)
摘要: 針對中文事件抽取中語義表征不充分、特征提取不全面等問題,提出一種基于RoBERTa和多層次特征的中文事件抽取方法。通過RoBERTa預訓練模型構建字向量,并基于詞性標注和觸發詞語義信息融入進行字向量擴展;其次使用雙向長短時記憶網絡和卷積神經網絡抽取全局特征和局部特征,并通過自注意力機制捕捉不同特征之間的關聯,加強對重要特征的利用;最后通過條件隨機場實現BIO序列標注,完成事件抽取。在DuEE1.0數據集上,觸發詞抽取和事件論元抽取的F1值達到86.9%和68.0%,優于現有常用事件抽取模型,驗證了該方法的有效性。
中圖分類號:TP391
文獻標志碼:A
DOI: 10.16157/j.issn.0258-7998.234136
引用格式: 樂楊,胡軍國,李耀. 基于RoBERTa和多層次特征的中文事件抽取方法[J]. 電子技術應用,2023,49(11):49-54.
Chinese event extraction method based on RoBERTa and multi-level feature
Le Yang,Hu Junguo,Li Yao
(College of Mathematics and Computer Science, Zhejiang Agriculture &Forestry University, Hangzhou 311300, China)
Abstract: To address the issues of insufficient semantic representation and incomplete feature extraction in Chinese event extraction, a method based on RoBERTa and multi-level features is proposed. Firstly, by using the pre-trained RoBERTa model, word embeddings are constructed and extended based on syntactic and semantic information of trigger words. Specifically, part-of-speech tags and trigger word embeddings are integrated into the word embeddings. Secondly, global and local features are extracted using a bi-directional long short-term memory network and convolutional neural network, respectively. The self-attention mechanism is employed to capture the relationships among different features, emphasizing the utilization of important features. Finally, a conditional random field is used to achieve BIO sequence labeling, completing the event extraction process. On the DuEE1.0 dataset, the F1 scores of trigger word extraction and event argument extraction reach 86.9% and 68.0%, respectively, which are superior to existing common event extraction models, validating the effectiveness of this method.
Key words : event extraction;RoBERTa pretrained model;multi-level feature;self-attention mechanism;sequence labeling

【引言】

事件抽取作為一種信息抽取技術,旨在從文本中識別和提取出事件的關鍵要素[1],以自動化處理大規模的非結構化文本數據,在知識圖譜[2]、信息檢索[3]、自動問答[4]、情報收集[5]等領域均有著廣泛的應用。

近年來,隨著深度學習的發展,深度學習在事件抽取任務中取得了廣泛的應用且取得了優異的效果。基于深度學習的事件抽取方法,先將文本中的詞轉換成向量,再將向量作為模型的輸入進行特征抽取和分類。目前使用最廣泛的詞向量工具是Word2Vec,但通過Word2Vec得到的詞向量是靜態的,只針對單獨的詞,無法解決中文詞語在不同環境下擁有不同語義信息的問題[6]。

同時大部分的神經網絡模型著重于抽取向量中部分特征信息,無法覆蓋所有的特征信息。如卷積神經網絡(Convolutional Neural Networks,CNN)通過卷積操作提取向量中的局部特征,但由于卷積核大小和步幅的限制,可能導致一些全局上下文相關的特征被局部特征所掩蓋或丟失[7];雙向長短時記憶網絡(Bidirectional Long Short-Term Memory,BiLSTM)可以處理長序列數據,提取全局特征,但無法直接捕捉文本中的詞與詞之間的關系[8]。

針對上述提到的中文語義復雜和特征信息抽取不全面,提出一種基于RoBERTa預訓練模型[9]和多層次特征的中文事件抽取方法。本文的主要貢獻在于:

(1)采用RoBERTa預訓練模型訓練的詞向量,拼接詞性特征向量,獲取含有豐富語音的向量表示。并在論元抽取中基于Layer Normalization將觸發詞語義信息融入句子中,拼接字與觸發詞的距離向量,增強句子與觸發詞的關聯。

(2)利用CNN和BiLSTM抽取詞級特征和句子級特征,并采用注意力機制將特征聚焦于與事件更相關的特征上,滿足事件抽取的特征要求。

(3)將事件抽取視為序列標注任務,通過CRF和BIO序列標注對句子中的每個字進行標注,得到多個觸發詞或事件論元,解決多事件抽取問題。


文章詳細內容下載請點擊:基于RoBERTa和多層次特征的中文事件抽取方法AET-電子技術應用-最豐富的電子設計資源平臺 (chinaaet.com)



【作者信息】

樂楊,胡軍國,李耀

(浙江農林大學 數學與計算機科學學院,浙江 杭州 311300)


此內容為AET網站原創,未經授權禁止轉載。
主站蜘蛛池模板: 日本一道高清一区二区三区| 玩弄丰满少妇视频| 国产精品福利自产拍在线观看 | 野花香社区在线视频观看播放| 国内精品久久久久影院蜜芽| 中文字幕在线免费视频| 欧美zoozzooz在线观看| 人妻少妇精品中文字幕av蜜桃| 色婷婷在线视频观看| 国产真实伦实例| 99RE久久精品国产| 性一交一乱一伧老太| 久久精品一区二区三区中文字幕 | 伊人中文字幕在线观看| 色综合综合色综合色综合| 国产精品亚洲二区在线播放| jizzjizz中国护士第一次| 无码丰满熟妇浪潮一区二区AV| 亚洲av日韩av无码污污网站| 波多野吉衣AV无码| 出轨的女人2电影| 色综合小说久久综合图片| 国产手机精品一区二区| 88久久精品无码一区二区毛片| 婷婷色在线播放| 丰满亚洲大尺度无码无码专线| 曰本视频网络www色| 亚洲处破女AV日韩精品| 激情内射亚州一区二区三区爱妻 | 蜜芽国产尤物AV尤物在线看| 国产真实乱子伦精品视| 91麻豆高清国产在线播放| 好吊妞视频一区二区| 中文字幕无码精品三级在线电影 | 免费观看国产精品| 触手怪入侵男生下面bl的漫画| 国产精品9999久久久久| 97se色综合一区二区二区| 女人洗澡一级毛片一级毛片| 中文字幕亚洲综合久久综合| 日本视频免费高清一本18|