《電子技術應用》
您所在的位置:首頁 > 人工智能 > 設計應用 > 基于多頭卷積殘差連接的文本數據實體識別
基于多頭卷積殘差連接的文本數據實體識別
網絡安全與數據治理
劉微,李波,楊思瑤
沈陽理工大學信息科學與工程學院
摘要: 為構建工作報告中的文本數據關系型數據庫,針對非結構化文本數據中有效信息實體提取問題以及傳統網絡在提取信息時特征丟失問題,設計了一種基于深度學習的實體識別模型RoBERTa-MCR-BiGRU-CRF,首先利用預訓練模型RoBERTa作為編碼器,將訓練后的詞向量輸入到多頭卷積殘差網絡層MCR擴充語義信息,接著輸入到門控循環BiGRU層進一步提取上下文特征,最后經過條件隨機場CRF層解碼進行標簽判別。經過實驗,模型在工作報告數據集上F1值達到96.64%,優于其他對比模型;并且在數據名稱實體類別上,F1值分別比BERT-BiLSTM-CRF和RoBERTa-BiGRU-CRF提高了3.18%、2.87%,結果表明該模型能較好地提取非結構化文本中的有效信息。
中圖分類號:TP391.1文獻標識碼:ADOI:10.19358/j.issn.2097-1788.2024.12.008
引用格式:劉微,李波,楊思瑤. 基于多頭卷積殘差連接的文本數據實體識別[J].網絡安全與數據治理,2024,43(12):54-59.
Text data entity recognition based on muti-head convolution residual connections
Liu Wei, Li Bo, Yang Siyao
School of Information Science and Engineering, Shenyang University of Technology
Abstract: To construct a relational database for text data in work reports, and address the problem of extracting useful information entities from unstructured text and feature loss in traditional networks during information extraction, a deep learning-based entity recognition model, which is named RoBERTa-MCR-BiGRU-CRF is proposed. The model firstly uses the pre-trained model Robustly Optimized BERT Pretraining Approach (RoBERTa) as an encoder, feeding the trained word embeddings into the Multi-head Convolutional Residual network (MCR) layer to enrich semantic information. Next, the embeddings are input into a gated recurrent Bidirectional Gated Recurrent Unit (BiGRU) layer to further capture contextual features. Finally, a Conditional Random Field (CRF) layer is used for decoding and label prediction. Experimental results show that the model achieves an F1 score of 96.64% on the work report dataset, outperforming other comparative models. Additionally, for named entity categories in the data, the F1 score is 3.18% and 2.87% higher than BERT-BiLSTM-CRF and RoBERTa-BiGRU-CRF, respectively. The results demonstrate the model′s effectiveness in extracting useful information from unstructured text.
Key words : deep learning; named entity recognition; neural networks; data mining

引言

實體識別在信息抽取方面有著重要作用,現階段數據提取主要是利用深度學習技術,運用到命名實體識別(Named Entity Recognition,NER)中提取名詞和一些相關概念。命名實體識別可以提取有效數據,去除無關信息,方便建立數據庫,對數據進行后續處理與追蹤從而提升其安全性,可以應用于構建知識圖譜問答系統和數據追溯系統等領域。實體識別本質上是解決一個序列標注問題,對文本和數字序列進行標簽分類。

隨著深度學習技術的發展,實體識別取得了顯著進展,傳統的基于規則和詞典的方法逐漸被基于統計學習和神經網絡的方法所取代,自2018年以來,基于BERT的預訓練神經網絡模型(如BERT-BiLSTM-CRF)在多個公開數據集上達到了同年的最好性能。本文提出一種新的融合外部知識資源的方法來提高NER模型的性能。本模型在自制的數據集上進行實驗,驗證了所提方法在非結構文本數據方面識別的性能,證明模型在NER任務中的有效性。


本文詳細內容請下載:

http://m.xxav2194.com/resource/share/2000006267


作者信息:

劉微,李波,楊思瑤

(沈陽理工大學信息科學與工程學院,遼寧沈陽110158)


Magazine.Subscription.jpg

此內容為AET網站原創,未經授權禁止轉載。
主站蜘蛛池模板: 亚洲风情亚aⅴ在线发布| 国产精品午夜无码体验区| 久久精品国产亚洲7777| 男女性高爱潮免费网站| 国产成人久久精品亚洲小说| eeuss影院www在线观看免费| 日本高清免费中文字幕不卡| 亚洲狠狠婷婷综合久久蜜芽| 色之综合天天综合色天天棕色 | 亚洲日产综合欧美一区二区| 美女一级毛片视频| 国产成人精品怡红院在线观看| 99精产国品一二三产| 拧花蒂尿用力按凸起喷水尿| 亚洲一区日韩二区欧美三区| 狠狠人妻久久久久久综合蜜桃| 囯产精品一品二区三区| 欧美bbbbbxxxxx| 在线中文字幕不卡| 一级毛片一级毛片一级毛片| 日韩三级电影免费| 亚洲成av人片在线观看无码不卡| 精品免费国产一区二区三区| 国产免费全部免费观看| 在线看的你懂的| 大屁股熟女一区二区三区| 中文字幕在线免费视频| 最近2019年中文字幕国语大全| 亚洲第一网站男人都懂| 精品人妻无码一区二区色欲产成人| 国产免费变态视频网址网站| 天天影院成人免费观看| 国语精品视频在线观看不卡| 一本色道久久综合亚洲精品高清| 日本久久久久亚洲中字幕| 亚洲an日韩专区在线| 欧美激情一区二区三区| 免费人成视频在线观看网站| 老师小sao货水好多真紧h视频| 国产在线精品一区二区| 美女网站色在线观看|