《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 通信與網(wǎng)絡(luò) > 設(shè)計(jì)應(yīng)用 > 網(wǎng)頁(yè)去重的改進(jìn)算法
網(wǎng)頁(yè)去重的改進(jìn)算法
來源:微型機(jī)與應(yīng)用2011年第12期
王 靜1, 劉觀寧2,張鈺輝1
(1. 西安電子科技大學(xué) 計(jì)算機(jī)學(xué)院, 陜西 西安 710071; 2. 安徽省技術(shù)創(chuàng)新服務(wù)中心,
摘要: 針對(duì)網(wǎng)頁(yè)內(nèi)容相似重復(fù)的特點(diǎn),提出了一種改進(jìn)算法對(duì)網(wǎng)頁(yè)進(jìn)行去重處理。該方法能夠有效地對(duì)網(wǎng)頁(yè)進(jìn)行去重,并能對(duì)網(wǎng)頁(yè)信息進(jìn)行冗余識(shí)別處理。實(shí)驗(yàn)結(jié)果表明,與原有網(wǎng)頁(yè)去重算法相比,該算法的執(zhí)行效果提高了14.3%,對(duì)網(wǎng)頁(yè)去重有了很明顯的改善。
Abstract:
Key words :

摘  要: 針對(duì)網(wǎng)頁(yè)內(nèi)容相似重復(fù)的特點(diǎn),提出了一種改進(jìn)算法對(duì)網(wǎng)頁(yè)進(jìn)行去重處理。該方法能夠有效地對(duì)網(wǎng)頁(yè)進(jìn)行去重,并能對(duì)網(wǎng)頁(yè)信息進(jìn)行冗余識(shí)別處理。實(shí)驗(yàn)結(jié)果表明,與原有網(wǎng)頁(yè)去重算法相比,該算法的執(zhí)行效果提高了14.3%,對(duì)網(wǎng)頁(yè)去重有了很明顯的改善。
關(guān)鍵詞: 網(wǎng)頁(yè)去重; 特征提取; 特征表示

    隨著互聯(lián)網(wǎng)的高速發(fā)展,Web已經(jīng)成為最大的信息來源。但是如何獲取這些Web信息為我所用則是大家面臨的共同問題。網(wǎng)頁(yè)去重是Web網(wǎng)頁(yè)信息處理的重要環(huán)節(jié),只有在對(duì)網(wǎng)頁(yè)的去重基礎(chǔ)上才可以準(zhǔn)確處理網(wǎng)頁(yè)中的信息。本文介紹網(wǎng)頁(yè)的去重算法。
    提取出來的網(wǎng)頁(yè),有些內(nèi)容可能很相似,對(duì)于這些內(nèi)容相似的網(wǎng)頁(yè)沒必要保存。針對(duì)系統(tǒng)中的人才招聘網(wǎng)頁(yè)更是必要:一個(gè)公司的招聘信息很可能會(huì)在數(shù)十家招聘網(wǎng)站以及自己公司主頁(yè)同時(shí)發(fā)布,所以有必要對(duì)這些網(wǎng)頁(yè)去重。

 對(duì)于網(wǎng)頁(yè),ti就表示特征詞條,wi(d)就是文本d中ti的權(quán)值。用這個(gè)特征矢量來表示網(wǎng)頁(yè)文本。在網(wǎng)頁(yè)表示中,對(duì)任一特征而言有兩個(gè)因素影響特征的權(quán)值。一是詞在HTML文檔中出現(xiàn)的詞頻,另一個(gè)是該詞在該文檔中出現(xiàn)的位置。詞頻指的是某一詞條在文檔中出現(xiàn)的頻率, 頻率越高(當(dāng)然不包括那些停用詞)則說明該詞越重要,越能代表該網(wǎng)頁(yè)的內(nèi)容。對(duì)于網(wǎng)頁(yè)的主題包含在<title>和</title>之間的詞組比在<body>和</body>之間的詞組更具有代表性。因此本文提出了一種把該詞出現(xiàn)的頻率以及該詞出現(xiàn)的位置相結(jié)合的權(quán)重計(jì)算方法,能夠更有效地表示網(wǎng)頁(yè)。公式如下:



 (3) 聯(lián)合特征提取方法
 雖然X2統(tǒng)計(jì)量法是目前常用的特征提取方法之一,但該方法仍存在一些缺點(diǎn),如它提高了在指定類中
  
    在網(wǎng)絡(luò)訓(xùn)練過程開始時(shí),定義獲勝節(jié)點(diǎn)的鄰域節(jié)點(diǎn)是為了能使二維輸出平面上相鄰輸出節(jié)點(diǎn)對(duì)相近的輸入模式類做出特別反應(yīng)。假設(shè)本次獲勝節(jié)點(diǎn)為Nj,它在t時(shí)刻的鄰域節(jié)點(diǎn)用NEj表示,NEj(t)是包含以Nj中心而距離不超過某一半徑的所有節(jié)點(diǎn)。隨著訓(xùn)練過程的進(jìn)行,NEj(t)的半徑逐漸減小,最后只包含獲勝節(jié)點(diǎn)Nj本身,也就是說在訓(xùn)練的起始階段不僅對(duì)獲勝節(jié)點(diǎn)做權(quán)值調(diào)整,而且也對(duì)其較大范圍內(nèi)的幾何鄰節(jié)點(diǎn)做相應(yīng)的調(diào)整,隨著訓(xùn)練過程的繼續(xù)進(jìn)行,與輸出節(jié)點(diǎn)相連的權(quán)向量也越來越接近其代表的模式類。這時(shí),在對(duì)獲勝節(jié)點(diǎn)的權(quán)值進(jìn)行比較細(xì)微的調(diào)整時(shí),只對(duì)其幾何鄰節(jié)點(diǎn)比較近的節(jié)點(diǎn)進(jìn)行相應(yīng)的調(diào)整,直到最后只對(duì)獲勝節(jié)點(diǎn)本身做細(xì)微的調(diào)整。在訓(xùn)練過程結(jié)束后,幾何上相近的輸出節(jié)點(diǎn)所連接的權(quán)向量既有聯(lián)系又有區(qū)別,這樣,保證了對(duì)某一類輸入模式獲勝節(jié)點(diǎn)能夠做出最大“響應(yīng)”,而相鄰節(jié)點(diǎn)做出“較大”響應(yīng)。幾何上相鄰節(jié)點(diǎn)代表特征上相近的模式類別。
 自組織特征映射學(xué)習(xí)過程包括描述最佳匹配神經(jīng)元的選擇和描述權(quán)矢量的自適應(yīng)變化過程兩部分。SOM輸出層通常由兩維m×m的網(wǎng)格節(jié)點(diǎn)組成,從輸入向量到網(wǎng)絡(luò)輸出層的每個(gè)節(jié)點(diǎn)j的權(quán)值向量定義為w,w和xi的維數(shù)是相同的,設(shè)為d,影射節(jié)點(diǎn)的數(shù)量從數(shù)十個(gè)到數(shù)千個(gè)決定SOM正確性和概化能力。

4 實(shí)驗(yàn)結(jié)果
 采用以上介紹的算法,對(duì)一批數(shù)量在50~100之間的網(wǎng)頁(yè)集合進(jìn)行去重處理,集合中包含了一與此內(nèi)容完全相同或部分相同的網(wǎng)頁(yè),將實(shí)驗(yàn)結(jié)果與人工判別的結(jié)果進(jìn)了比較,發(fā)現(xiàn)重復(fù)網(wǎng)頁(yè)的正確率達(dá)到95%以上,出現(xiàn)錯(cuò)誤的判斷的是由于網(wǎng)頁(yè)轉(zhuǎn)載時(shí)出現(xiàn)錯(cuò)碼等現(xiàn)象,有的是兩個(gè)重復(fù)網(wǎng)頁(yè)的段落排列差異太大。測(cè)試結(jié)果如圖1所示。


    本文將SOM的思想和方法引入中文Web文檔的聚類問題.探索向用戶提供高質(zhì)量的網(wǎng)頁(yè)信息具有很強(qiáng)的理論意義和實(shí)際價(jià)值。但是,這種方法的不足之處是當(dāng)網(wǎng)絡(luò)的連接過多、節(jié)點(diǎn)數(shù)目龐大時(shí)其計(jì)算量大,需要較長(zhǎng)的學(xué)習(xí)時(shí)間。所以對(duì)于上述問題,筆者正在研究通過網(wǎng)絡(luò)剪枝技術(shù),在不增加聚類錯(cuò)誤的前提下,剪去多余的連接和節(jié)點(diǎn),降低特征向量空間的維數(shù)從而減少計(jì)算工作量。
參考文獻(xiàn)
[1] LINSKER R. An application of the principle of maximum  information preservation to linear systems[Z]. Adv. Neural Inform. Process Systems, 1989,1.
[2] JUTTEN C, HERAULT J. Blind separation of sources,Part1:An adaptive algorithm based on neuromimetic architecture [J]. Signal Processing, 1991,24:10.
[3] COMMON P. Independent component analysis,a new concept[J]. Signal Processing, 1994,36:287-314.
[4] TONAZZINI A, BEDINI L, KURUOGLU E E. Blind separation of auto-correlated images from noisy images using  mrf models,. in 4th Int. Symp. on ICA and Blind Source Separation, Nara, Japan, 2003.
[5] SHULMAN D, HERVE J Y. Regularization of discontinuous  flow fields. in Proc. Workshop on Visual Motion, 1989:81-86.
[6] BOUMAN C, SAUER K. A generalised gaussian image model for edge-preserving MAP estimation,. IEEE Trans. Image Processing, vol. 2, pp. 296-310,1993.2704.
 

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。
主站蜘蛛池模板: 八区精品色欲人妻综合网| 国产精品自产拍在线观看| 国产v在线播放| 97热久久免费频精品99| 欧美zoozzooz性欧美| 又大又粗又爽a级毛片免费看 | 中文在线免费不卡视频| 欧美一级美片在线观看免费| 免费看特级淫片日本| 韩国演艺圈悲惨133bd| 国产精品综合视频| www.中文字幕在线观看| 日本丰满岳乱妇在线观看| 免费看欧美一级特黄α大片| 国产精品色拉拉免费看| 无码超乳爆乳中文字幕久久| 亚洲成a人片在线观看中文!!!| 麻豆国产精品va在线观看不卡 | 亚洲精品动漫人成3d在线| 羞羞视频在线观看入口| 国产日韩精品一区二区在线观看 | 粗大的内捧猛烈进出小视频| 国产又大又粗又硬又长免费| 2018天天操天天干| 天天摸天天干天天操| 中文字幕无码不卡免费视频| 日韩色视频一区二区三区亚洲| 午夜精品久久久内射近拍高清| 99久久精品费精品国产| 最新国产小视频在线播放| 亚洲色四在线视频观看| 98精品国产综合久久| 恋老小说我和老市长| 九九热精品国产| 欧美日韩亚洲国产综合| 国产区精品一区二区不卡中文| 91不卡在线精品国产| 日日碰狠狠添天天爽不卡| 亚洲av永久综合在线观看尤物 | 很污的视频网站| 亚洲人成电影在线观看青青|