《電子技術應用》
您所在的位置:首頁 > 其他 > 設計應用 > 基于代碼嵌入的二進制代碼相似性分析方法
基于代碼嵌入的二進制代碼相似性分析方法
網絡安全與數據治理 2023年3期
熊敏,薛吟興,徐云
(1.中國科學技術大學計算機科學與技術學院,安徽合肥230026; 2.安徽省高性能計算重點實驗室,安徽合肥230026)
摘要: 代碼嵌入利用神經網絡模型將二進制函數的代碼表示轉化為向量,在漏洞搜索等應用中展現了優勢。現有的方法將函數表示為匯編指令序列、控制流圖的拓撲結構或若干路徑,都沒有克服不同編譯環境導致控制流圖結構變化的干擾。為此,設計了基于基本塊樹(Basic Block Tree, BBT)的代碼表示以及構建了對應的代碼嵌入模型BBTree。首先,二進制函數被表示為一系列BBT,每個BBT被處理為指令序列;其次,BBTree利用LSTM和BiGRU將基于BBT的代碼表示轉化為向量;最后,通過計算向量間的距離去高效衡量對應函數的相似性。在代碼搜索中,BBTree的平均準確率比主流工具提升了24.8%;在漏洞搜索中,BBTree的平均召回率比主流工具提升了26.1%。
中圖分類號:TP311.5
文獻標識碼:A
DOI:10.19358/j.issn.2097-1788.2023.03.010
引用格式:熊敏,薛吟興,徐云.基于代碼嵌入的二進制代碼相似性分析方法[J].網絡安全與數據治理,2023,42(3):58-67.
A binary code similarity analysis method based on code embedding
Xiong Min1,2,Xue Yinxing1,Xu Yun 1,2
(1. School of Computer Science and Technology, University of Science and Technology of China, Hefei 230026, China; 2. Key Laboratory of High Performance Computing of Anhui Province, Hefei 230026, China)
Abstract: Code embedding utilizes neural network models to convert binary code into a vector, showing advantages in applications such as vulnerability searching. Existing methods represent functions as assembly instruction sequences, topology structures of control flow graphs, or several paths.However, none of them can overcome the interference produced by the structural changes in control flow graphs caused by different compilation environments.To this end, this paper designs a basic block tree (BBT)-based code representation and builds a corresponding code embedding model named BBTree.Firstly, the binary function is represented as a series of BBTs, and each BBT is processed into an instruction sequence Secondly, BBTree utilizes LSTM and Bi.GRU to convert the BBT.based code representation into a numerical vector Last, the distance between vectors is calculated to efficiently measure the similarity of corresponding functions. In code search, BBTree’s average accuracy rate is 24.8% higher than mainstream tools; in vulnerability search, BBTree’s average recall rate is 26.1% higher than mainstream tools.
Key words :

0    引言

由于商業程序、遺留程序和惡意代碼的源碼不公開, 因此,對這些程序進行二進制代碼相似性分析具有很多安全應用,比如抄襲檢測、惡意軟件檢測、漏洞搜索等。相似性分析旨在根據已有的二進制代碼(如已揭露的漏洞等)在代碼庫中搜索出語義相似的二進制代碼,從而探測出潛在的漏洞,維護程序的安全。二進制代碼嵌入作為一種新興的相似性分析技術,利用神經網絡模型將二進制函數的代碼表示轉化為數值向量,不僅學習了二進制代碼的語義,還可以通過計算向量間的距離去定量分析對應函數的相似性。



本文詳細內容請下載:http://m.xxav2194.com/resource/share/2000005257




作者信息:

熊敏1,2,薛吟興1,徐云1,2

(1.中國科學技術大學計算機科學與技術學院,安徽合肥230026;2.安徽省高性能計算重點實驗室,安徽合肥230026)


微信圖片_20210517164139.jpg

此內容為AET網站原創,未經授權禁止轉載。
主站蜘蛛池模板: 国产美女视频一区| 里漫社扶她全彩口工漫画| 无翼乌邪恶工番口番邪恶| 亚洲欧美日韩另类在线专区| 1313苦瓜网在线播| 日韩一区二区三区免费体验| 人人色在线视频播放| 超清av在线播放不卡无码| 国产精品网址在线观看你懂的| 久久精品国产清白在天天线| 狠狠色丁香婷婷| 国产熟女一区二区三区五月婷| 一个人看的www免费高清中文字幕 一个人看的www免费高清中文字幕 | 成人免费网站在线观看| 亚洲精品午夜久久久伊人| 欧美亚洲777| 成人年无码av片在线观看| 亚洲AV色香蕉一区二区| 澡人人澡人澡人人澡天天| 国产xxxxx在线观看| 99re在线这里只有精品免费| 最近中文字幕在线中文视频| 国产swag剧情在线观看| 波多野结衣资源在线| 大看蕉a在线观看| 久久精品一区二区| 白白的肥岳嗷嗷叫| 国产三级手机在线| 人人澡人人澡人人澡| 国内精品久久久人妻中文字幕| 久久天天躁狠狠躁夜夜躁2020| 欧美激情乱人伦| 免费人成在线观看视频高潮| 荡货把腿给我打开视频| 国产最新在线视频| 一级毛片免费播放试看60分钟| 日韩中文字幕在线| 亚洲乱码一二三四区国产| 波多野结衣厨房被强电影| 国产午夜a理论毛片在线影院| 1024人成网站色|