《電子技術應用》
您所在的位置:首頁 > 通信與網絡 > 設計應用 > 基于DTS的Web日志分析系統
基于DTS的Web日志分析系統
焦文彬 及俊川 叢培民
北京中國科學院計算機網絡信息中心(100864)
摘要: 通過在Web日志分析系統中引入Microsoft SQL Server的DTS技術,解決了日志系統運行效率與數據結構化存儲之間的瓶頸問題。文中介紹了一種實際系統的架構設計方案,并給出了實現方法及應用效果。
Abstract:
Key words :

摘  要: 通過在Web日志分析系統中引入Microsoft SQL Server的DTS技術,解決了日志系統運行效率與數據結構化存儲之間的瓶頸問題。文中介紹了一種實際系統的架構設計方案,并給出了實現方法及應用效果。
關鍵詞:  Web日志  離散  數據轉換服務  數據挖掘  Java

  隨著Web站點規模的增大,所涉及的應用服務種類越來越多。因此需要有效地對各站點的訪問情況和服務性能進行監控和分析,包括訪問量的統計、流量的監控、資源利用的監測以及服務性能的評估等,從而為決策者和網站建設者提供管理和決策依據。站點的監控和統計分析已成為站點建設的一項重要內容。Web服務器的訪問日志文件記錄了客戶端每次請求的細節,如請求資源、請求時間、客戶IP、服務器IP、發送字節數和接收字節數等,因此,對Web站點訪問日志進行分析,已成為評估網站運行質量的一種常用方法。
  大型Web站點的日志文件的重要特征是數據量巨大,每日幾百兆甚至上千兆,并且隨著時間推移不斷增加。因此很多站點對日志文件進行按日分割(即每天產生1個文件),而這樣就帶來日志文件的離散性。傳統日志分析系統過多關注日志分析的效率問題,而忽略了對離散文件進行連續分析的研究及對每次分析結果的結構化保存問題。隨著數據挖掘技術逐漸由理論到實踐以及人們對海量數據的利用越來越關注,進行持續分析以及對分析結果進行結構化存儲甚至比效率顯得更加重要。近來的系統雖然重視了這方面的研究,在分析過程中引入了數據庫系統,但由于大數據量導入數據庫耗費了大量時間,因此系統并不實用。
  現代關系數據庫很重視原始數據的導入,一般都提供數據導入工具,如SQL-SERVER的數據轉換服務(Data Transformation Services,DTS),ORACLE的SQL?鄢LOADER等。本文就是通過在日志分析系統中嵌入SQL-SERVER的DTS,從而使系統既有較高的執行效率,又很好地解決了離散文件的連續性分析與存儲問題。
1  DTS介紹
  將不同數據源中的數據加以整合是進行數據分析和數據挖掘的前提和基礎。DTS是一組圖形化工具和可編程對象,可以將來自不同數據源的數據析取、轉換、合并到 DTS所支持的單個或多個數據載體中,以便做進一步的處理。Microsoft從SQL-SERVER 7.0開始提供該項服務,到了SQL-SERVER 2000 DTS得到了重大的發展,成為SQL-SERVER主要功能之一。
  要利用SQL-SERVER的這一強大功能,首先要建立DTS包。DTS包是數據轉換服務的可執行單元,每個包都包含1個或多個順序或并行執行的程序步驟。當包執行時,首先連接到正確的數據源,然后復制數據和數據庫對象,最后完成數據轉換工作。用戶可以對包進行編輯、密碼保護、調度以及按版本檢索等操作。SQL-SERVER提供了多種方式創建DTS包,如DTS導入/導出向導、DTS設計器等可視化工具。
  創建好DTS包后,便可在客戶端通過DTS執行實用工具(如dtsrun)進行調用,這樣就可將特定格式的數據從不同的數據源導入目的數據庫中。本文所討論的日志分析系統便是建立在這種方案之上的。由于DTS是系統提供的一種多線程數據遷移工具,因此具有很高的轉換效率。詳細的關于如何創建DTS包和dtsrun的調用方法請參考相關專著和SQL-SERVER聯機幫助。
2  系統設計
  通過上面的分析,本文認為運用DTS技術能夠很好地解決日志系統運行效率與數據結構化存儲之間的瓶頸問題。整個系統的架構設計如圖1所示。本設計基本實現了以下目標。

  (1)適合日志文件的多樣性
  現有多種流行的Web服務器,如Apache、IIS等。不同服務器的訪問日志文件所記錄的內容大同小異,如請求資源、請求時間、客戶IP、服務器IP、發送字節數和接收字節數等,然而記錄格式卻不盡相同。Apache和IIS的Web日志格式如表1所示。格式具體含義請參考聯機幫助。


  由此可見,日志文件屬于半結構化的文本文件。對于這樣的文件DTS是不能夠直接導入到數據庫中的。因此,在原始日志文件下載到本地后,應該對文件進行規范化處理,這里稱為日志文件的歸一化處理,即將不同的日志格式轉換成一種DTS可以直接操作的文件格式。這實際上是一種文本過濾技術,很多編程語言都能方便實現。
  (2)離散非結構數據的結構化存儲
  日志文件在進行歸一化處理后,便可使用DTS服務了。首先通過向導(Wizard)或數據轉換服務中的工具定義一個DTS包,其中數據源是經過歸一化處理的日志文件,導入目的庫是系統使用的數據庫。一切定義好之后,便可以將數據導入到數據庫表中。可以發現導入效率非常高,通常在2~5分鐘能完成100萬條記錄。
  (3)進行遠程離線統計
  分析系統應該盡量做到對Web服務器的無干擾操作,否則會影響Web服務器的正常工作。為此,分析系統應該在物理上與Web服務器隔離,使之位于另一臺服務器上,甚至另一個網絡中。這樣,系統應采用一定的技術手段將Web日志文件下載到本地。本系統采用FTP進行文件下載。
  (4)分析功能的定制性
  功能定制也稱為基于組件的軟插拔技術,是現代軟件所倡導的核心技術之一。因此,本系統的分析功能采用基于軟組件的方法,實現了系統功能的配置與定制。數據在導入數據庫系統之后,便可以利用關系數據庫和編程語言的強大功能進行數據挖掘和分析處理。
  (5)功能豐富的報表輸出B/S方式
  B/S方式已成為人機交互和信息表現的主流方式。本系統也是通過該方式顯示分析結果,通過豐富的報表、統計圖等直觀的手段,為網站管理者和決策者提供有價值的信息。
3  系統實現
  本系統由2部分組成,即后臺服務程序和前臺顯示程序。其中后臺服務程序負責完成日志文件下載、歸一化處理、DTS入庫、分析等功能,根據需要可以設置為自動運行和手動運行。現已實現了訪問統計功能、頻道統計功能、熱門頁面(HotPage)排行和用戶地域分析等功能。前臺顯示程序是基于B/S結構,通過統計表和統計圖方式直觀地展示分析結果。本系統采用Java語言開發,為系統移植和擴展提供了方便。利用本系統對某大型新聞類網站進行的一個月度訪問走勢對比分析如圖2所示。

4  結束語
  本文介紹了Web日志分析系統的特點和目前研究重點,并概要介紹了Microsoft SQL Server的DTS技術。在此基礎上開發的Web日志分析系統,較好地解決了日志系統運行效率與數據結構化存儲之間的瓶頸問題。該系統采用了主流的軟件技術,架構清晰,可擴展性較好。該系統操作簡單,功能實用,目前已在多個大型Web站點獲得了成功的應用,為網站管理者和決策者提供了大量有價值的信息。
參考文獻
1   張川.具有訪問時間完整性的Web日志方法.計算機應用與軟件,2004;21(2)
2   趙偉.Web日志挖掘中的數據預處理技術研究.計算機應用,2003;23(5)
3   張靜,田忠和.基于IIS和Web日志的關聯關系的挖掘.華中科技大學學報(自然科學版),2002;30(7)
4   章立民.SQL Server 2000完全實戰-數據轉換服務(DTS).  北京:中國鐵道出版社,2002
5   Bartolini C,Redpath R.Web Usage Mining and Discovery of Association Rules from Http Servers Logs.http://www.prato.linux.it/~gbartolini/en/view-a/2/pdf/wum.pdf,2001
 

此內容為AET網站原創,未經授權禁止轉載。
欧美激情办公室aⅴ_国产欧美综合一区二区三区_欧美午夜精品久久久久免费视_福利视频欧美一区二区三区

          亚洲国产日本| 亚洲二区在线视频| 久久久久在线观看| 亚洲欧美在线网| 一区二区三区精密机械公司| 亚洲成色精品| 激情成人综合网| 国产亚洲精品久久久久动| 国产精品高清一区二区三区| 欧美日韩人人澡狠狠躁视频| 欧美久久久久久| 欧美大片一区二区三区| 女人香蕉久久**毛片精品| 久久综合999| 鲁大师影院一区二区三区| 久久精品三级| 久久人人看视频| 久久婷婷国产综合精品青草| 久久蜜桃av一区精品变态类天堂| 久久黄色级2电影| 久久精精品视频| 久久久久久噜噜噜久久久精品| 久久国产精品高清| 久久国产黑丝| 久久久久久一区二区三区| 久久精品在线播放| 久久综合激情| 欧美电影资源| 欧美巨乳波霸| 欧美视频精品一区| 国产精品日韩一区二区| 国产麻豆午夜三级精品| 国产丝袜一区二区| 激情久久久久久久久久久久久久久久 | 海角社区69精品视频| 狠狠爱综合网| 亚洲人www| 亚洲视频专区在线| 午夜激情综合网| 久久久免费观看视频| 欧美国产日韩xxxxx| 欧美特黄一区| 国产亚洲精品激情久久| 亚洲高清资源| 9色精品在线| 亚洲无线视频| 久久久久久久精| 欧美激情91| 国产精品久久久久久久久久久久久 | 国产精品久久久一区麻豆最新章节| 国产伦精品一区二区三区| 樱桃视频在线观看一区| 99re6热只有精品免费观看| 亚洲欧美在线播放| 麻豆精品视频在线| 国产精品大片wwwwww| 娇妻被交换粗又大又硬视频欧美| 亚洲精品美女在线观看| 午夜欧美视频| 欧美电影在线| 国产欧美精品| 亚洲美女黄色| 久久激情视频免费观看| 欧美日韩国产小视频在线观看| 国产女人精品视频| 亚洲精品在线视频| 久久成人在线| 欧美特黄一级| 亚洲高清免费在线| 亚洲欧美清纯在线制服| 久久久精品国产免大香伊| 欧美日韩国产大片| 狠狠做深爱婷婷久久综合一区 | 欧美在线视频网站| 欧美精品激情在线| 国产亚洲欧洲997久久综合| 99国产精品| 久久综合电影| 国产精品网站视频| 99ri日韩精品视频| 久久综合一区| 国产欧美综合一区二区三区| av成人免费在线观看| 鲁大师成人一区二区三区| 国产麻豆精品theporn| 一区二区三区四区国产| 蜜乳av另类精品一区二区| 国产欧美日韩在线视频| 99在线精品观看| 免费久久精品视频| 国产亚洲在线观看| 亚洲欧美福利一区二区| 欧美日韩18| 亚洲国产1区| 久久久久九九九| 国产日韩欧美夫妻视频在线观看| 99亚洲精品| 欧美激情亚洲国产| 亚洲第一区在线观看| 久久精品综合| 国产三区精品| 午夜久久美女| 国产精品乱码| 中日韩美女免费视频网址在线观看 | 激情小说另类小说亚洲欧美| 小处雏高清一区二区三区| 欧美色图首页| 亚洲免费精彩视频| 欧美激情视频一区二区三区在线播放 | 国产日韩欧美在线| 亚洲中字黄色| 国产精品第一区| 妖精成人www高清在线观看| 欧美承认网站| 亚洲黄网站黄| 欧美第十八页| 亚洲日本中文字幕区| 欧美高清视频www夜色资源网| 在线观看一区二区视频| 久久这里只有| 亚洲观看高清完整版在线观看| 久久综合九色欧美综合狠狠| 加勒比av一区二区| 久久久久久久久伊人| 韩日视频一区| 狂野欧美一区| 亚洲第一视频| 免费在线欧美黄色| 亚洲欧洲一区二区在线播放| 欧美久久99| 亚洲色图在线视频| 国产精品亚洲成人| 久久av一区二区三区| 国产综合欧美在线看| 久久人人97超碰人人澡爱香蕉| 亚洲高清中文字幕| 欧美日韩黄色一区二区| 亚洲午夜电影网| 国产欧美一区二区视频| 久久人人爽人人| 亚洲人成7777| 欧美视频不卡| 午夜在线成人av| 激情成人亚洲| 欧美91大片| 一区二区三区免费观看| 国产精品五区| 久久先锋影音av| 日韩视频一区二区| 国产精品美女久久久久久久 | 亚洲在线一区二区| 国产亚洲午夜| 免费人成精品欧美精品| 99国产精品一区| 国产伦精品一区二区三区视频孕妇| 久久九九免费| 亚洲精品免费电影| 国产精品午夜春色av| 久久五月婷婷丁香社区| 日韩亚洲精品电影| 国产欧美一区二区三区久久 | 久久深夜福利免费观看| 亚洲欧洲一区二区三区在线观看| 欧美日韩亚洲一区二区三区在线观看| 亚洲免费视频在线观看| 狠狠做深爱婷婷久久综合一区| 免费在线观看成人av| 9色精品在线| 国产日韩欧美夫妻视频在线观看| 嫩草影视亚洲| 亚洲在线网站| 亚洲高清久久久| 国产精品国产一区二区| 久久亚洲私人国产精品va媚药| 亚洲免费播放| 国产一区二区黄| 欧美巨乳在线观看| 欧美在线观看网站| 99热免费精品| 国内外成人在线视频| 欧美日韩成人一区二区| 香蕉久久夜色精品国产| 亚洲精品资源| 国产一区二区三区久久 | 中文欧美在线视频| 黄色小说综合网站| 欧美日韩一区二区在线播放| 久久久精品tv| 亚洲图片欧美日产| 亚洲电影在线观看| 国产精品一卡二卡| 欧美日韩国产精品成人| 久久精品国产一区二区电影| 一区二区三欧美| 亚洲高清自拍| 国产一区二区三区av电影| 欧美日韩国产在线播放| 免费久久99精品国产| 久久aⅴ国产欧美74aaa| 亚洲一区二区三区精品动漫|