《電子技術應用》
您所在的位置:首頁 > 其他 > 設計應用 > 改進的TF-IDF算法在文本分類中的研究
改進的TF-IDF算法在文本分類中的研究
信息技術與網絡安全
張 偉1,2,石 倩1,何 霄1,王 晨1,李禾香1,李驥然1
(1.中國石油工程技術研究院有限公司 北京石油機械有限公司,北京102206; 2.中國人民大學 信息學院,北京100872)
摘要: 企業數字化建設過程中,對大量日常經營活動文本的數字化處理通常是多任務的,需要對文本數據同時完成信息抽取和文本分類任。在此應用場景下,為了實現更加精準的分類效果,提出一種改進的TF-IDF算法,將文本信息抽取結果也作為文本重要類別區分特征。通過引入信息增益方法得到改進的權重計算公式,進而得到改進的文本特征向量空間表示,再構建文本分類模型。實驗以石油行業中文文本為例,選取測試文本2 006條進行文本分類對比實驗,實驗結果表明改進的TF-IDF算法精確率P達到99.3%,召回率R達到98.7%,相比于傳統TF-IDF算法文本分類效果得到顯著提高。
中圖分類號: TP391
文獻標識碼: A
DOI: 10.19358/j.issn.2096-5133.2021.07.012
引用格式: 張偉,石倩,何霄,等. 改進的TF-IDF算法在文本分類中的研究[J].信息技術與網絡安全,2021,40(7):72-76,83.
Research on improved TF-IDF algorithm in text classification
Zhang Wei1,2,Shi Qian1,He Xiao1,Wang Chen1,Li Hexiang1,Li Jiran1
(1.Beijing Petroleum Machinery Co.,Ltd.,China Petroleum Engineering Technology Research Institute, Beijing 102206,China; 2.School of Information,Renmin University of China,Beijing 100872,China)
Abstract: In the process of digital construction of enterprises, the digital processing of a large number of daily business activity texts of enterprises is usually multi-task, and it is necessary to complete information extraction tasks and text classification tasks for text data at the same time. In this application scenario, in order to achieve a more accurate text classification effect, this paper proposes an improved TF-IDF algorithm, which uses the text information extraction result as the distinguishing feature of important text categories, and introduces the information gain method to obtain an improved weight calculation formula. Then an improved text feature vector space representation is obtained, and then a text classification model is constructed. The experiment takes the Chinese text of the petroleum industry as an example, and selects 2 006 test texts for text classification comparison experiments. The experimental results show that the improved TF-IDF algorithm has an accuracy rate P of 99.99% and a recall rate R of 99.87%. The algorithm text classification effect has been significantly improved.
Key words : text classification;VSM;TF-IDF;petroleum;support vector machine

0 引言

TF-IDF算法結構簡單,類別區分力強,且容易實現,被廣泛應用于信息檢索、文本挖掘、文本分類、信息抽取等領域中。但是,該算法僅考慮詞頻方面的因素,沒有考慮詞語出現的位置、詞性、樣本分布等信息,存在一定局限性。對此很多研究者都提出過改進算法,王小林在傳統TF-IDF算法基礎上,提出利用段落標注技術,對處于不同位置的詞語給予不同的位置權重,并對分詞結果中詞頻較高的同詞性詞語進行相似度計算,合并相似度較高的詞語,改進傳統算法中忽視特征詞位置因素和語義對相似度的問題[1]。覃世安針對傳統TF-IDF算法在分類文本類的數量分布不均時提取特征值效果差的問題,提出使用特征值在類間出現的概率比代替特征值在類間出現次數的改進TF-IDF算法[2]。葉雪梅認為傳統的特征詞權重TF-IDF算法未考慮到網絡新詞,針對特征項中的新詞對分類結果的影響給予不同權重值,提出基于網絡新詞改進文本分類TF-IDF算法[3]。這些改進算法都有效提高了模型性能,優化分類結果,取得了不錯的實驗效果。但以往改進算法研究主要集中在通過完善算法本身的缺陷以實現詞條在文本中更加準確的權重賦值,忽略了其他類別區分特征因子。



本文詳細內容請下載:http://m.xxav2194.com/resource/share/2000003681




作者信息:

張  偉1,2,石  倩1,何  霄1,王  晨1,李禾香1,李驥然1

(1.中國石油工程技術研究院有限公司 北京石油機械有限公司,北京102206;

2.中國人民大學 信息學院,北京100872)


此內容為AET網站原創,未經授權禁止轉載。
主站蜘蛛池模板: 狠狠色狠狠色综合网| 国产二级一片内射视频播放| 国产激情视频在线观看首页| 国产内射爽爽大片视频社区在线| 喷血推荐长腿连衣裙美女刚进房间| 免费a级毛片在线播放| 亚洲一区二区三区在线播放| 回复术士的重来人生第一季樱花动漫| 国产老妇一性一交一乱| 国产精品揄拍100视频| 国产亚洲欧美日韩俺去了| 免费又黄又爽1000禁片| 亚洲av日韩av不卡在线观看| 久久久99精品成人片| 99久久综合狠狠综合久久aⅴ| 麻豆国产精品有码在线观看| 538在线精品| 老子影院伦不卡欧美| 欧美成人看片黄a免费看| 无码一区二区三区中文字幕| 国产美女91视频| 四虎影视在线影院在线观看| 亚洲国产精品无码久久久秋霞2| 久久久久久夜精品精品免费啦| 久久免费福利视频| 久久无码人妻一区二区三区午夜| 亚洲av无码专区国产乱码不卡| 亚洲av午夜成人片| 久久精品中文闷骚内射| 久久爰www免费人成| 久久电影网午夜鲁丝片免费| 久久久久国产一区二区| 中文字幕第一页国产| 一级做a爱片特黄在线观看 | 国产白白白在线永久播放| 国内大量揄拍人妻精品視頻| 国产韩国精品一区二区三区久久| 国产精品毛片一区二区三区| 国产无套粉嫩白浆| 国产无套护士丝袜在线观看| 四库影院永久在线精品|