《電子技術應用》
您所在的位置:首頁 > 通信與網絡 > 設計應用 > 基于特征集聚和卷積神經網絡的惡意PDF文檔檢測方法
基于特征集聚和卷積神經網絡的惡意PDF文檔檢測方法
信息技術與網絡安全
俞遠哲,王金雙,鄒 霞   
(陸軍工程大學 指揮控制工程學院,江蘇 南京210001)
摘要: 針對現有惡意PDF文檔檢測方法存在特征維度高、數據集樣本少導致模型欠擬合等問題,提出了一種基于特征集聚和卷積神經網絡的惡意PDF文檔檢測方法。該方法以詞袋模型為基礎,從PDF文檔中提取常規特征和結構特征。然后以合并后特征簇最小方差為目標,使用Ward最小方差聚類方法實現特征集聚。最后,將聚合特征送入卷積神經網絡分類模型進行訓練。根據不同聚合特征數下模型性能的好壞,確定最優的聚合特征數。實驗結果表明,該方法降低了特征維度,提升了模型的召回率,緩解了模型的欠擬合問題。縱向比較來看,在不同的良性樣本和惡意樣本比例下,遍歷得到最優的聚合特征數,召回率平均提升了53%,F-score平均提升了0.44,運行時間平均縮短了27%;與PJScan、PDFrate、Luxor 3種檢測工具橫向相比,檢測的綜合性能平均提升了5%。
中圖分類號: TP309
文獻標識碼: A
DOI: 10.19358/j.issn.2096-5133.2021.08.006
引用格式: 俞遠哲,王金雙,鄒霞。 基于特征集聚和卷積神經網絡的惡意PDF文檔檢測方法[J].信息技術與網絡安全,2021,40(8):35-41.
A malicious PDF detection method based on feature agglomeration and convolutional neural network
Yu Yuanzhe,Wang Jinshuang,Zou Xia
(Command & Control Engineering College,Army Engineering University of PLA,Nanjing 210001,China)
Abstract: To solve the high feature dimension problems and under-fitting due to the small dataset size, a malicious PDF document detection method based on feature agglomeration and CNN was proposed. Based on the word bag model, the regular and structural features are extracted from PDF documents. Then Ward′s Minimum Variance Clustering Method is used to achieve feature agglomeration according to the combined minimum variance of feature clusters. Afterwards, the agglomerate features are sent into the CNN classification model for training and evaluation. The optimal number of agglomerate features is determined by a comparison with the performances of the model under different numbers of agglomerate features. It was shown that the model proposed in this paper can reduce the dimension of the feature, improve the recall rate of model and mitigate the under-fitting problem at the same time.With different benign and malicious sample proportions, the recall rate is increased by 53% and the F-score is increased by 0.44 on average. Meanwhile, compared with detection tools PJScan, PDFrate and Luxor, the comprehensive detection performance is improved by 5% on average.
Key words : malicious PDF document;feature agglomeration;static detection;Convolutional Neural Network(CNN)

0 引言

PDF(Portable Document Format)文檔的使用非常廣泛,但隨著版本的更新換代,PDF文檔包含的功能也變得多種多樣,其中一些鮮為人知的功能(如文件嵌入、JavaScript代碼執行、動態表單等)越來越多地被不法分子利用,來實施惡意網絡攻擊行為[1]。APT(Advanced Persistent Threat)攻擊[2]常常借助惡意PDF文檔這一媒介,通過社會工程學、水坑攻擊、釣魚攻擊等手段,構造巧妙偽裝的惡意文檔,誘騙受害者下載,從而侵入或破壞計算機系統。相比傳統的可執行惡意程序攻擊,惡意文檔攻擊具有更強的迷惑性。

近年來,基于機器學習的惡意PDF文檔檢測技術被廣泛使用。相比于傳統簽名匹配檢測,它能夠及時發現新型惡意文檔且檢測模型更新方便迅速。其中基于靜態檢測的機器學習方法,具有高效、成本低、解釋性強等特點。而深度學習相較于機器學習算法,更強調學習數據中的隱藏信息,如特征的相關性。



本文詳細內容請下載:http://m.xxav2194.com/resource/share/2000003722




作者信息:

俞遠哲,王金雙,鄒  霞

(陸軍工程大學 指揮控制工程學院,江蘇 南京210001)


此內容為AET網站原創,未經授權禁止轉載。
主站蜘蛛池模板: 顶级欧美色妇xxxxx| m.jizz4.com| 波多野结衣中文字幕一区二区三区 | 被夫上司强迫的女人在线中文| 国内精品免费麻豆网站91麻豆| 中文字幕日韩精品有码视频 | 国产成人欧美视频在线| 99热99在线| 成人精品免费视频大全app| 五月婷在线视频| 波多野结衣中文一区| 和朋友共享娇妻高hh| 黄网站在线观看视频| 国产裸模视频免费区无码| 一本色道久久88加勒比—综合 | 八戒网站免费观看视频| 黄a大片av永久免费| 国产精选午睡沙发系列999| もんのエロま资源网| 日本一区二区三| 五月综合色婷婷在线观看 | 热99re久久精品香蕉| 喝茶影视喝茶影院最新电影电视剧| 国产高清精品入口91| 国内亚州视频在线观看| 一本无码中文字幕在线观| 日本一卡精品视频免费| 五月天婷婷精品免费视频| 欧美日韩国产成人高清视频| 健身私教干了我好几次| 美女被到爽羞羞漫画| 国产人成视频在线观看| 欧美一级特黄乱妇高清视频| 国产美女在线观看| a毛片免费在线观看| 成人毛片18女人毛片免费视频未| 久久国产精品免费网站| 欧美一级特黄aa大片在线观看免费| 亚洲精品熟女国产| 精品一区二区三区在线观看l| 国产一区二区影院|