《電子技術應用》
您所在的位置:首頁 > 人工智能 > 設計應用 > 基于TextCNN-Bert融合模型的不良信息識別技術
基于TextCNN-Bert融合模型的不良信息識別技術
網絡安全與數據治理 6期
裴卓雄,楊敏,楊婧
(1.國家計算機網絡應急技術處理協調中心,北京100032; 2.國家計算機網絡應急技術處理協調中心山西分中心,山西太原044400)
摘要: 敏感領域的不良信息具有極強的迷惑性和欺騙性,腐蝕人們的思想,影響人們的價值觀和判斷能力,危害社會安全,研究敏感領域不良信息的識別技術具有深遠意義。通用的識別技術忽略了背景知識和隱喻問題,直接應用于敏感領域不良信息識別效果較差。提出一種基于TextCNNBert的融合模型,通過敏感領域主題識別和情感隱喻識別,實現對敏感領域不良信息的文本識別。實驗結果表明,該模型在準確率、F1評分等指標方面取得了良好的結果,相較于現有模型有顯著提高。
中圖分類號:TP399
文獻標識碼:A
DOI:10.19358/j.issn.2097-1788.2023.08.012
引用格式:裴卓雄,楊敏,楊婧.基于TextCNN-Bert融合模型的不良信息識別技術[J].網絡安全與數據治理,2023,42(8):72-76.
Bad information identification technology based on TextCNNBert fusion model
Pei Zhuoxiong1,Yang Min2,Yang Jing 2
(1.National Computer Network Emergency Response Technical Team/Coordination Center of China (CNCERT/CC), Beijing 100032,China; 2.National Computer Network Emergency Response Technical Team/Coordination Center of China(Shanxi),Taiyuan 044400,China)
Abstract: The bad information in sensitive areas is extremely confusing and deceptive, corrodes people′s thinking, affects people′s values and judgment, and endangers social security. Research on the identification technology of bad information in sensitive areas has farreaching significance. The general recognition technology ignores background knowledge and metaphor problems, and the effect of direct application to sensitive areas is poor in the recognition of bad information. This paper proposes a fusion model based on TextCNNBert, which realizes the text recognition of bad information in sensitive areas through topic recognition and emotional metaphor recognition. The experimental results show that the proposed model achieves good results in terms of accuracy, F1 score and other indicators, which are significantly improved compared with the existing models.
Key words : sensitive areas;TextCNN; Bert; fusion mode

0    引言

隨著互聯網行業蓬勃發展,網絡上不良信息的泛濫引發了諸多社會問題,特別是歷史、時政新聞等敏感領域的不良信息,通過編排、篡改、杜撰、偽造的方式,具有極強的迷惑性和欺騙性,腐蝕人們的思想,影響人們的價值觀和判斷能力,危害社會安全[1]。文本作為主要傳播方式,研究敏感領域不良信息的識別技術具有深遠意義。

自然語言處理技術( Natural Language Processing, NLP)能夠對文本進行深入分析和理解,從而實現文本的分類和識別。Kim[2]提出一種用于文本分類的卷積神經網絡模型TextCNN,可以在一定程度上避免梯度消失的問題,而且在處理短文本和固定長度文本時表現良好。Lai[3]提出了文本分類模型RCNN,同時結合了卷積神經網絡和循環神經網絡的優點。Wang[4]比較不同循環神經網絡模型在文本分類任務中的性能,表明了LSTM模型在文本分類的優勢。Devlin[5]提出了BERT模型,該模型是一種基于Transformer網絡的預訓練模型,可用于自然語言處理任務,如文本分類、語言推斷等。Chen[6]提出了一種基于雙向情感表情符號嵌入和基于注意力的LSTM的Twitter情感分析方法,該方法使用雙向LSTM來學習句子中的上下文信息,使用注意力機制來加強對重要信息的關注,使用情感表情符號來增強情感分類的精度。李志杰[7]提出一種基于 LSTM 和 TextCNN 的聯合模型,捕捉文本中的上下文關系和局部特征,提高短文本分類的準確性。Sanagavarapu[8]提出BiLSTM和人工神經網絡ANN組成的混合模型,通過上下位詞的概念獲取新聞的語義并映射到ANN模型上,提升對新聞文章分類的準確性。Rehman[9]提出了一種基于CNNLSTM的混合模型,用于提高電影評論情感分析的準確性。該模型利用CNN提取局部特征,LSTM則用于學習序列信息,從而結合了兩種模型的優點。

敏感領域屬于專業領域,不良信息的識別技術研究十分有限,通用的識別技術可以直接應用于識別,但存在以下問題:一是領域特定語言和術語問題。敏感領域具有豐富的領域特定語言和術語,這些語言和術語可能對于通用模型不易理解,從而導致文本識別準確率下降。二是背景知識問題。敏感領域涉及敏感事件、人物和背景等方面的知識,這些知識對于模型來說可能是未知的,需要進行特殊的處理才能進行識別和理解。三是文本復雜性的問題。敏感領域文本非常復雜,包含大量的隱喻、比喻和引申意義,這些都需要模型具備識別和理解的能力。

因此,本文將敏感領域不良信息的識別問題轉化為敏感領域主題識別任務和情感隱喻識別任務,提出一種基于TextCNNBert融合模型,既利用TextCNN對關鍵詞和局部特征更加敏感的優勢,準確識別敏感領域的特定語言和術語;又能利用Bert的預訓練能力和自注意力機制,提升對隱喻、比喻和引申意的識別。實驗結果表明,本模型在準確率、召回率、精確率等方面識別效果良好。



本文詳細內容請下載:http://m.xxav2194.com/resource/share/2000005470




作者信息:

裴卓雄1,楊敏2,楊婧2

(1.國家計算機網絡應急技術處理協調中心,北京100032;2.國家計算機網絡應急技術處理協調中心山西分中心,山西太原044400)


微信圖片_20210517164139.jpg

此內容為AET網站原創,未經授權禁止轉載。
主站蜘蛛池模板: 337p色噜噜| 国产91精品久久久久久久| 两性色午夜视频免费网| 欧美人与zozoxxxx视频| 免费观看日本污污ww网站一区| 黄色福利在线观看| 国精品在亚洲_欧美| 中文字幕亚洲乱码熟女一区二区| 精品久久久久久国产| 国产精品久久久久久久久电影网 | 久久综合伊人77777| 波多野结衣痴汉| 啊灬啊别停灬用力啊呻吟| 黑人巨茎大战俄罗斯美女| 国产美女口爆吞精普通话| 一本大道香蕉在线观看| 日本孕妇大胆孕交| 亚洲人成777在线播放| 狠狠爱无码一区二区三区| 国产欧美综合一区二区三区| qvod激情小说| 最新无码a∨在线观看| 午夜a级理论片在线播放| 黄色片一级毛片| 国产色无码精品视频国产| 一本大道久久a久久综合| 日本簧片在线观看| 亚洲一级黄色大片| 激情按摩系列片AAAA| 另类视频色综合| 韩国三级bd高清中文字幕合集| 国产精品亚洲一区二区三区| aaa特级毛片| 幻女free性zozozoxxxxx| 久久久久国色av免费观看| 最近免费中文字幕大全高清10| 再深点灬舒服灬太大了老板| 风流老熟女一区二区三区| 国产白袜脚足j棉袜在线观看| 一边摸一边爽一边叫床免费视频| 欧美成人精品高清在线观看|