《電子技術應用》
您所在的位置:首頁 > 通信與網(wǎng)絡 > 設計應用 > 一種自適應網(wǎng)頁結(jié)構化信息提取方法
一種自適應網(wǎng)頁結(jié)構化信息提取方法
2020年電子技術應用第12期
淮曉永,韓曉東,高若辰,高煥新
華北計算機系統(tǒng)工程研究所,北京100083
摘要: 面向互聯(lián)網(wǎng)信息采集挖掘應用,針對傳統(tǒng)的網(wǎng)站信息整頁采集方式存在采集信息混雜、無法直接使用,而人工結(jié)構化采集方式成本高、工作效率低的問題,研究提出了一種自適應網(wǎng)頁結(jié)構化信息提取方法,實現(xiàn)了網(wǎng)頁分類算法、基于子樹的標題項、內(nèi)容項的結(jié)構化信息提取算法。基于典型網(wǎng)站網(wǎng)頁分類標注數(shù)據(jù)集進行分類模型的學習建模,可以自適應不同網(wǎng)站的差異,對網(wǎng)頁進行分類,按照網(wǎng)頁分類分別提取出網(wǎng)頁中的列表項結(jié)構化信息、內(nèi)容項結(jié)構化信息。該技術對提高網(wǎng)站信息結(jié)構化采集處理的自動化水平及處理效率具有重要作用。
中圖分類號: TN919.5;TP391.1
文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.200160
中文引用格式: 淮曉永,韓曉東,高若辰,等. 一種自適應網(wǎng)頁結(jié)構化信息提取方法[J].電子技術應用,2020,46(12):97-102.
英文引用格式: Huai Xiaoyong,Han Xiaodong,Gao Ruochen,et al. An adaptive method for extracting structured information from web pages[J]. Application of Electronic Technique,2020,46(12):97-102.
An adaptive method for extracting structured information from web pages
Huai Xiaoyong,Han Xiaodong,Gao Ruochen,Gao Huanxin
National Computer System Engineering Research Institute of China,Beijing 100083,China
Abstract: In order to meet the needs of Internet information collection and mining, aiming at the problems of traditional web site information collection methods, such as mixed collection information, unable to be used directly, and the high cost and low efficiency of manual structured collection method, this paper proposes an adaptive method for extracting structured information from web pages. We implement web page classification algorithm, subtree based title item and content item structured information extraction algorithm. Based on the classification annotated dataset of typical website pages, the classification model can adapt to the differences of various web sites, classify the web pages, and extract the list structured information and content structured information in the web pages according to the web page classification. This technology plays an important role in improving the automation level and processing efficiency of website structured information collection and processing.
Key words : information extraction;structured information;classification model;adaptive

0 引言

    在互聯(lián)網(wǎng)大數(shù)據(jù)時代,互聯(lián)網(wǎng)信息呈現(xiàn)爆炸式增長,其中蘊藏著很多有價值的重要信息需要處理與利用。通過智能化的大數(shù)據(jù)信息挖掘處理,可以從中分析把握技術發(fā)展的方向態(tài)勢,迅速發(fā)現(xiàn)高價值的科技信息。

    從關注的Internet網(wǎng)站源自動采集收集新發(fā)布的信息,并提取出其中的結(jié)構化信息,是建立互聯(lián)網(wǎng)大數(shù)據(jù)系統(tǒng)的基礎。通過網(wǎng)絡爬蟲系統(tǒng)可以從各類網(wǎng)站爬取大量的網(wǎng)頁數(shù)據(jù),但傳統(tǒng)的網(wǎng)站信息整頁采集方式信息混雜,無法直接進行大數(shù)據(jù)挖掘處理,而人工從網(wǎng)頁中提取結(jié)構化的文本信息又存在成本高、工作效率低的問題。如何通過自動化的網(wǎng)頁數(shù)據(jù)結(jié)構化信息采集技術實現(xiàn)自動從網(wǎng)頁中提取結(jié)構化的信息,是進行互聯(lián)網(wǎng)大數(shù)據(jù)挖掘處理的關鍵預處理技術。

    本文研究針對傳統(tǒng)的網(wǎng)站信息整頁采集方式存在采集信息混雜、無法直接使用,而人工結(jié)構化采集方式成本高、工作效率低的問題,研究實現(xiàn)了一種基于DOM樹的網(wǎng)頁結(jié)構化信息提取方法(DOM based Web-page Structured Information Extraction,DWSIE),實現(xiàn)了一個網(wǎng)頁結(jié)構化信息提取服務工具包,該工具包極大地提高了網(wǎng)站結(jié)構化信息采集處理的自動化水平和處理效率。




本文詳細內(nèi)容請下載:http://m.xxav2194.com/resource/share/2000003263




作者信息:

淮曉永,韓曉東,高若辰,高煥新

(華北計算機系統(tǒng)工程研究所,北京100083)

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權禁止轉(zhuǎn)載。
主站蜘蛛池模板: 天天影院成人免费观看| 久久久久亚洲av成人网人人软件| 紧缚调教波多野结衣在线观看| 国产精品亚洲综合五月天| 中文www新版资源在线| 机机对机机30分钟无遮挡的软件免费大全 | 97色偷偷色噜噜狠狠爱网站97| 无翼乌全彩之大雄医生 | 黄色小视频app下载| 国产麻豆精品原创| 一级毛片a免费播放王色| 日韩免费高清视频网站| 亚洲日韩区在线电影| 第一次h圆房细致前戏| 国产三级精品在线观看| 亚洲性图第一页| 在线免费观看毛片网站| 一级一级女人真片| 日本免费一区尤物| 亚洲va久久久噜噜噜久久天堂| 波多野结衣潜入搜查官| 动漫av在线播放| 蜜柚直播在线第一页| 国产激情视频在线| 91久久偷偷做嫩草影院免| 女女互揉吃奶揉到高潮视频| 中文字幕欧美视频| 日韩欧美亚洲精品| 亚洲国产综合专区在线电影| 狠狠色狠狠色合久久伊人| 又大又硬又爽免费视频| 青草热在线精品视频99app| 国产福利一区二区| 91亚洲欧美国产制服动漫| 奇米影视7777狠狠狠狠色| 中文字幕人妻无码一夲道| 日韩中文精品亚洲第三区| 亚洲国产中文在线二区三区免| 激情内射亚州一区二区三区爱妻 | 亲子乱子xxxxxx| 精品国产麻豆免费网站|