《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 嵌入式技術(shù) > 設(shè)計(jì)應(yīng)用 > 一種面向科技項(xiàng)目文本的相似度度量方法
一種面向科技項(xiàng)目文本的相似度度量方法
2020年電子技術(shù)應(yīng)用第5期
趙曉平1,馬 文1,劉雪萍2,陳 達(dá)2
1. 云南電網(wǎng)有限責(zé)任公司 信息中心,云南 昆明 650011;2. 云南云電同方科技有限公司,云南 昆明 650220
摘要: 現(xiàn)有的文本相似度度量方法主要采用TF-IDF方法,把文本建模為詞頻向量,但未考慮文本的結(jié)構(gòu)特征。現(xiàn)將文本的結(jié)構(gòu)特征和TF-IDF方法進(jìn)行融合,提出了一種面向科技項(xiàng)目文本的相似度度量方法。該方法首先對(duì)文本進(jìn)行預(yù)處理,其次根據(jù)文本的結(jié)構(gòu)特征提取模塊文本,然后使用TF-IDF方法提取每個(gè)模塊文本的TOP-N關(guān)鍵詞, 作為模塊文本的特征向量表示,最后使用余弦聚類計(jì)算文本的相似度。實(shí)驗(yàn)結(jié)果表明,在電力行業(yè)的科技項(xiàng)目文檔數(shù)據(jù)集上,所提方法優(yōu)于TF-IDF方法。
中圖分類號(hào): TP311
文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.191420
中文引用格式: 趙曉平,馬文,劉雪萍,等. 一種面向科技項(xiàng)目文本的相似度度量方法[J].電子技術(shù)應(yīng)用,2020,46(5):31-34,39.
英文引用格式: Zhao Xiaoping,Ma Wen,Liu Xueping,et al. A similarity measurement method for science and technology project text[J]. Application of Electronic Technique,2020,46(5):31-34,39.
A similarity measurement method for science and technology project text
Zhao Xiaoping1,Ma Wen1,Liu Xueping2,Chen Da2
1.Information Center,Yunnan Power Grid Co.,Ltd.,Kunming 650011,China; 2.Yunnan Yundian Tongfang Technology Co.,Ltd.,Kunming 650220,China
Abstract: Existing text similarity measurements often use the TF-IDF method to model texts as term frequency vectors without considering the structural features of texts. This paper combines the structural features of texts with the TF-IDF method and proposes a text similarity measurement for science and technology project texts. This approach firstly pre-processes a text and extracts module texts according to its structural features. After applying the TF-IDF method to these extracted module texts, this method extracts the top keywords of each module text, obtains its feature vector representation, and finally uses cosine formula to calculate the similarity of two texts. By comparing with the TF-IDF method, experimental results show that the proposed method can promote the evaluation metrics of F-measure.
Key words : text similarity;TF-IDF;text clustering;natural language process

0 引言

    文本相似度度量是指將文本看成一組詞的集合體,分析每個(gè)詞在文本中出現(xiàn)的次數(shù)以及在整個(gè)文本集合中出現(xiàn)次數(shù),進(jìn)而利用這些詞頻信息將文本建模為一個(gè)向量,并利用向量間的余弦距離等計(jì)算文本之間的相似度[1-2]

    文本相似度度量被廣泛應(yīng)用于許多領(lǐng)域,例如:信息檢索領(lǐng)域[3-4]、文本分類[5-8]、文本摘要的自動(dòng)生成[9-10]、文本的查重檢測(cè)[11-12]。本文關(guān)注的是在電力行業(yè)的科技項(xiàng)目查重中應(yīng)用文本相似度度量。

    現(xiàn)有的TF-IDF[13-15]方法主要將文本建模為詞頻向量,再使用余弦相似度來(lái)計(jì)算兩個(gè)文本間的相似度。但是對(duì)于多數(shù)文本而言,這種采用詞頻向量模型的方法需要將文本表示為詞項(xiàng)數(shù)目與文本數(shù)目大致相當(dāng)?shù)木仃嚕仃囍械男辛邢蛄慷加兄浅8叩木S度并且是極度稀疏的,從而最終導(dǎo)致非常低效的計(jì)算[1,16]。此外,這種方法也忽略了文本的的結(jié)構(gòu)特征。

    針對(duì)上述問(wèn)題,本文提出一種既考慮了文本的結(jié)構(gòu)特征,又能有效降低文本表示模型維度的文本相似度度量方法。給定兩個(gè)文本,通過(guò)文本所提方法能夠高效、準(zhǔn)確地計(jì)算出兩者間的相似度,為電力行業(yè)科技項(xiàng)目的查重提供有效支撐。



論文詳細(xì)內(nèi)容請(qǐng)下載http://m.xxav2194.com/resource/share/2000002786




作者信息:

趙曉平1,馬  文1,劉雪萍2,陳  達(dá)2

(1. 云南電網(wǎng)有限責(zé)任公司 信息中心,云南 昆明 650011;2. 云南云電同方科技有限公司,云南 昆明 650220)

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。
主站蜘蛛池模板: 色综合蜜桃视频在线观看| bt自拍另类综合欧美| 国产黑丝袜在线| 日韩国产在线观看| 啊~又多了一根手指| taoju.tv| 日韩a无v码在线播放| 亚洲激情第二页| 黑人巨大精品欧美一区二区免费 | 国产欧美日韩亚洲| fuqer2018| 无遮挡a级毛片免费看| 亚洲国产av无码专区亚洲av| 豪妇荡乳1一5白玉兰| 婷婷色在线观看| 久久精品国1国二国三| 欧美黑人巨大videos精品| 国产成人www| 91精品视频网| 强开小婷嫩苞又嫩又紧视频韩国| 久久老子午夜精品无码怎么打| 精品国产乱码久久久久久1区2区 | 久久国产亚洲高清观看| 欧美成人鲁丝片在线观看| 免费在线观看污视频网站| 蜜桃成熟时3之蜜桃仙子电影| 国产精品99久久免费| 99久久综合狠狠综合久久| 巨年少根与艳妇全文阅| 久久久久人妻一区精品色欧美| 真正全免费视频a毛片| 国产精品久久久久久久久久久不卡| 久久AV无码精品人妻出轨| 欧美一级做一级爱a做片性| 亚洲综合久久1区2区3区| 美女扒开胸露出奶乳免费视频| 国产大片b站免费观看直播| 永久在线观看www免费视频| 无翼乌口工全彩无遮挡里 | 亚洲最大的黄色网| 色费女人18毛片a级毛片视频|