《電子技術應用》
您所在的位置:首頁 > 其他 > 設計應用 > 一種結合TF-IDF和Simhash的科技項目文本相似性度量方法
一種結合TF-IDF和Simhash的科技項目文本相似性度量方法
電子技術應用
孫北寧1,2,呂維新3,曾俊4,肖衡4
(1.云南電網有限責任公司 科數部,云南 昆明 650011;2.西南林業大學 大數據與智能工程學院,云南 昆明 650224; 3.云南電網有限責任公司 昆明供電局,云南 昆明 650011;4.云南云電同方科技有限公司,云南 昆明 650214)
摘要: 為了提高科技項目文本相似性度量的準確性和性能,將TF-IDF和Simhash相結合,提出了一種新的科技項目文本相似性度量方法。首先,該方法對科技項目文本進行預處理得到詞項集合,再使用TF-IDF計算詞項集合中每個詞項的權重值,并選取具有較高權重值的重要詞項;其次,使用Simhash把重要詞項映射為固定長度的二進制串,并求和得到文本的Simhash簽名;最后,使用漢明距離計算兩個Simhash簽名間的相似性。實驗結果表明,所提方法在查準率、召回率和F度量值方面優于傳統的Simhash算法和TF-IDF方法。
中圖分類號:TP311
文獻標志碼:A
DOI: 10.16157/j.issn.0258-7998.223379
中文引用格式: 孫北寧,呂維新,曾俊,等. 一種結合TF-IDF和Simhash的科技項目文本相似性度量方法[J]. 電子技術應用,2023,49(6):89-93.
英文引用格式: Sun Beining,Lv Weixin,Zeng Jun,et al. An approach for text similarity measurement of science and technology projects combing TF-IDF and Simhash[J]. Application of Electronic Technique,2023,49(6):89-93.
An approach for text similarity measurement of science and technology projects combing TF-IDF and Simhash
Sun Beining1,2,Lv Weixin3,Zeng Jun4,Xiao Heng4
(1.Department of Science Technology and Data, Yunnan Power Grid Co., Ltd., Kunming 650011, China; 2.School of Big Data and Intelligent Engineering, Southwest Forestry University, Kunming 650224, China; 3.Kunming Power Supply Bureau, Yunnan Power Grid Co., Ltd., Kunming 650011, China; 4.Yunnan Yundian Tongfang Technology Co., Ltd., Kunming 650214, China)
Abstract: To enhance the accuracy and performance of text similarity measurement of science and technology projects, this paper proposes a new approach for measuring text similarity of science and technology projects by combining TF-IDF and Simhash. Firstly, this method uses natural language processing technology to preprocess science and technology project texts to get a term set, then uses the TF-IDF method to calculate the TF-IDF value of each term in the term set, and selects the important term with higher TF-IDF value. Secondly, this method uses the Simhash algorithm to get the Simhash signature of the text through mapping the selected important terms into fixed binary strings. Finally, Hamming distance is used to calculate the similarity between two Simhash signatures. Experimental results show that compared to the traditional Simhash and TF-IDF, the proposed method can promote the evaluation metrics of precision, recall and F-measure.
Key words : science and technology project text;text similarity;TF-IDF;Simhash

0 引言

隨著國家對科技事業經費的大量投入,少數科研單位或個人為了獲取更多的科研經費,出現了重復申報的現象。文本相似性度量被認為是檢測文本重復的最好方法之一,可以用來自動檢測科技項目文本的相似性和重復性。

TF-IDF是一種經典的文本相似性度量方法,將文本視為詞項的集合,并通過詞頻信息將文本表示為一個向量,以此計算文本的相似性。但是,該方法并沒有降低文本模型的維度。對于科技項目文本,由于詞項數目巨大,因此,基于詞頻向量模型的文本表示是高維、稀疏的,這將導致低效的計算性能。

Simhash是一種局部敏感哈希方法,將高維數據降維到具有固定長度的二進制串(Simhash簽名),再通過對二進制串進行相似性計算來比較文本的相似度。這種方法在高維數據空間具有優異的計算性能。但是,該方法未考慮科技項目文本中詞項的重要性,存在準確率不高的問題。



本文詳細內容請下載:http://m.xxav2194.com/resource/share/2000005355




作者信息:

孫北寧1,2,呂維新3,曾俊4,肖衡4

(1.云南電網有限責任公司 科數部,云南 昆明 650011;2.西南林業大學 大數據與智能工程學院,云南 昆明 650224;
3.云南電網有限責任公司 昆明供電局,云南 昆明 650011;4.云南云電同方科技有限公司,云南 昆明 650214)


此內容為AET網站原創,未經授權禁止轉載。
主站蜘蛛池模板: 久热中文字幕无码视频| 强奷乱码中文字幕| 亚洲视频欧洲视频| 青草青草伊人精品视频| 大片毛片女女女女女女女| 久久久久亚洲精品无码系列| 欧美性生交活XXXXXDDDD| 午夜精品久久久久久99热| 龙珠全彩里番acg同人本子| 女人扒开腿让男人桶| 久久人妻夜夜做天天爽| 欧美性视频18~19| 俄罗斯大荫蒂女人毛茸茸| 色婷婷综合久久久| 国产漂亮白嫩的美女| 99久久精品美女高潮喷水| 成人免费无毒在线观看网站| 久久成人国产精品免费软件| 欧美日韩你懂的| 国产手机在线精品| AAA日本高清在线播放免费观看| 无人高清影视在线观看视频| 亚洲av无码片区一区二区三区| 潦草影视2021手机| 午夜福利一区二区三区高清视频| 高清videosgratis欧洲69| 国产精品自产拍高潮在线观看| 一区二区在线视频免费观看| 日本人指教视频| 亚洲av中文无码乱人伦在线观看| 污污污污污污www网站免费| 午夜伦4480yy私人影院| 调教办公室在线观看| 国产欧美在线观看一区二区| 91精品国产网曝事件门| 女人十八黄毛片| 中文字幕一区二区日产乱码| 日本理论片午午伦夜理片2021| 亚洲av色无码乱码在线观看 | 好吊妞这里有精品| 中文字幕第9页萱萱影音先锋|