全國首例!短視頻平臺領域“網絡爬蟲”案件!提供軟件者被判刑一年六個月!
2021年9月,某信息公司員工吳先生在網絡上發現有人在兜售一款名叫匯易獲客的軟件,通過對方官網獲取電話,購買了該款軟件。在使用過后,吳先生驚訝地發現該軟件居然可以爬取自己公司后臺數據和直播間用戶的相關信息,隨即報警。
經偵查,公安機關發現售賣該軟件的某信息咨詢公司老板丁某有重大作案嫌疑。
經查,2019年,丁某在網上結識丁某某(另案處理),后者表示有一款“爬蟲”軟件可以獲取某短視頻平臺數據,通過輸入關鍵詞能篩選出視頻、評論、賬戶等信息,批量抓取意向用戶進行業務推廣。丁某試用后購買代理權,組織人員通過網絡向多人銷售,違法所得計24360元。
2022年5月10日,經梁溪區檢察院提起公訴,法院以提供侵入計算機信息系統程序罪判處被告人丁某有期徒刑一年六個月,緩刑兩年,并處罰金三萬元。
法院認為,被告人丁某伙同他人提供用于侵入計算機信息系統的程序,情節嚴重,已構成侵入計算機信息系統程序罪,當庭作出判決,并禁止其在緩刑考驗期內從事互聯網相關經營活動。
據悉,該軟件非法突破短視頻平臺防護機制,直接爬取大量用戶的賬號、評論等信息,繼而根據用戶習慣,發送私信實現精準營銷,“網絡爬蟲”作為一項技術手段本身并不違法,但由于本案的軟件采取了避開或突破計算機信息系統的安全保護措施,未經許可進入被害單位的計算機系統,即屬于非法獲取計算機信息系統數據罪中的侵入行為。
對此,本案承辦法官表示,侵入計算機信息系統程序罪是刑法修正案(七)新增的一個罪名,主要針對向他人提供專門用于侵入或非法控制計算機信息系統工具或程序,或是明知他人實施侵入、非法控制計算機信息系統的違法犯罪行為而為其提供程序、工具,情節嚴重的行為處以刑罰。
網絡爬蟲能夠根據自身規則抓取信息的程序。作為搜索引擎的基礎構件之一,網絡爬蟲直接面向互聯網,是搜索引擎的數據來源,決定著整個系統的內容是否豐富、信息能否得到及時更新。
網絡爬蟲的性能表現直接影響整個搜索引擎的效果。網絡爬蟲平時會在網絡上自動爬取有用的數據,通過一定的選取機制、過濾機制、錄用機制等,來豐富它們的數據庫。
事實上,每個搜索引擎的爬蟲機器人都不一樣,它們有著自己的一套“爬取機制”,誰把這個機制優化得最好,那么誰就能更快給到用戶真正想要的信息。
然而,網絡爬蟲卻不總是合法的——網絡惡意爬蟲則會突破網站機器人協議的禁止爬取要求(規定在robots.txt文件的Disallow部分),爬取網站的核心數據資源,并可能極大地損耗被爬取網站服務器的性能。實際上,對于刷個短視頻,個人信息和需求竟被他人獲取,不久后,私人信箱中還會收到仿佛“量身定制”的推銷信息的現象,其實就源于所謂的爬蟲軟件。
顯然,此次案件中涉及的“爬蟲”軟件就是利用技術手段突破短視頻平臺的反爬措施,非法獲取后臺服務器內指定的數據文件。
無疑,網絡爬蟲作為數據資源獲取和利用的重要手段,但無論是私法領域數據確權還是刑法領域數據法益保護,網絡爬蟲抓取數據的正當性、有效性都源于數據主體的授權,而技術一旦被惡意使用,在技術盛行的時代帶來的傷害,也將是超過人們想像的。
近五千網站被曝“偷看”用戶輸入:還沒點確定,信息就被發走
只是在登錄界面打了幾個字母,沒確認沒提交,網站居然就已經抓捕到了鍵入內容?
是的,根據來自歐洲頂尖研究型學術院校——荷蘭拉德堡德大學、洛桑大學、魯汶大學的三位科學家的最新研究,全世界前10萬排名的網站中,有近5000個門戶網站都有過這樣的行為,如福克斯新聞、商業內幕(business insider)、時代(Time)等網站。
通過研究人員自制的爬蟲腳本可以看到,在某一網站的登錄界面輸入郵件地址,鼠標移動到下一個輸入框后,網站后臺就已經準確抓取到了已輸入數據:
用研究人員的話來說,就是“當點擊下一個字段時,它們會收集前一個字段”,包括用戶每一次修改的數據,甚至是賬號密碼。
那么,這樣的抓取行為到底是如何做到的?
事實上,很多常見的登錄窗口都是表單網頁,這是HTML中的一種概念,可以使網頁和用戶之間進行交互,并將用戶填寫的數據發送給服務器端。所以這些網頁也可以被看作是一張或多張表格,用戶名、密碼、郵件地址等輸入信息就是表格中的一行行數據。
不僅為了滿足基本的網頁交互需求,還出于其他要求——比如檢查鍵入的數據是否符合要求——用戶的所有在線活動,包括鼠標點擊和鍵入數據,對于網頁來說都是“透明”且“可抓取”的。
于是,很多網站便會使用一些第三方追蹤器來監測用戶,用于提供服務、廣告、營銷活動。這些活動的合法與否,就在于網頁只是暫時抓取數據進行合法的交互,還是進行了行跨網站、跨平臺和持久的識別。
以Meta為例,它曾開發過一款第三方的網站事件管理/收集工具,Meta Pixel。Meta Pixel有一種叫做“自動高級匹配”的功能,可以自動從網頁的表單數據中收集個人標識符,通過這一身份認證,就可以鎖定同一用戶在不同平臺上的操作,進而測量廣告的轉化率和成效。
同時,官方文檔里也寫明:在用戶提交表單時,Meta Pixel才會觸發數據收集。
但研究人員在調查中發現,Meta Pixel腳本在沒有識別到提交按鈕,或者監聽(表單)提交事件時,也會觸發數據收集機制。
也就是說,安裝有這一追蹤器的網站,在用戶點擊提交按鈕,甚至放棄表單關閉網頁之前,就已經收集到了個人數據。研究團隊統計發現,有超過1.5萬個網站可能通過Meta Pixel泄露了信息。
此外,另一個較為出名的第三方網站事件管理工具,TikTok Pixel也有和Meta Pixel同樣的問題,涉及了上百個網站的信息泄露。
研究人員分別選出了美國和歐盟地區的十大泄露信息次數最多的網站,可以看到,其中的第三方網站事件管理工具除了上述兩家,還有taboola、Bizible等廣告商。
據了解,三位研究人員Asuman Senol、Gunes Acar、Mathias Humbert從去年開始調查,共爬取了10萬多個網站。在發現問題后,團隊已經在今年3月份向Meta提交了一份錯誤報告,該公司很快指派了一名工程師處理這個案件,但自那以后,就再也沒有收到過更新報告。
而TikTok在得到通知后,也并沒有進一步的回應。研究團隊表示,針對上述問題,他們已經開發了一款檢測網頁非法表單的插件,并將在今年8月份的Usenix安全會議上展示他們的發現,包括調查結果和爬蟲程序的構成。