网络与信息安全学报 ›› 2017, Vol. 3 ›› Issue (11): 68-76.doi: 10.11959/j.issn.2096-109x.2017.00217

• 学术论文 • 上一篇    

基于静态多特征融合的恶意软件分类方法

孙博文1(),黄炎裔1,温俏琨2,田斌3,吴鹏4,李祺1   

  1. 1 北京邮电大学网络空间安全学院天地互联与融合北京市重点实验室,北京 100876
    2 北京邮电大学国际学院,北京 100876
    3 中国信息安全测评中心,北京 100085
    4 四川大学计算机学院,四川 成都 610015
  • 修回日期:2017-10-29 出版日期:2017-11-01 发布日期:2017-11-30
  • 作者简介:孙博文(1994-),男,辽宁沈阳人,北京邮电大学硕士生,主要研究方向为网络安全、恶意软件检测。|黄炎裔(1994-),女,江西黎川人,北京邮电大学硕士生,主要研究方向为数据安全、分布式调度。|温俏琨(1996-),女,辽宁沈阳人,北京邮电大学本科生,主要研究方向为网络安全、机器学习。|田斌(1983-),男,北京人,博士,中国信息安全测评中心副研究员,主要研究方向为威胁情报、攻击溯源。|吴鹏(1982-),男,四川广元人,四川大学博士生,主要研究方向为恶意软件检测、软件抄袭、软件安全加固。|李祺(1981-),女,北京人,北京邮电大学副教授,主要研究方向为网络安全、机器学习、物联网安全。
  • 基金资助:
    国家自然科学基金资助项目(U1536119);国家自然科学基金资助项目(61401038)

Malware classification method based on static multiple-feature fusion

Bo-wen SUN1(),Yan-yi HUANG1,Qiao-kun WEN2,Bin TIAN3,Peng WU4,Qi LI1   

  1. 1 Beijing Key Laboratory of Interconnection and Integration,School of Cyberspace Security,Beijing University of Post and Telecommunications,Beijing 100876,China
    2 International School,Beijing University of Post and Telecommunications,Beijing 100876,China
    3 China Information Technology Security Evaluation Center,Beijing 100085,China
    4 College of Computer Science Sichuan University,Chengdu 610015,China
  • Revised:2017-10-29 Online:2017-11-01 Published:2017-11-30
  • Supported by:
    The National Natural Science Foundation of China(U1536119);The National Natural Science Foundation of China(61401038)

摘要:

近年来,恶意软件呈现出爆发式增长势头,新型恶意样本携带变异性和多态性,通过多态、加壳、混淆等方式规避传统恶意代码检测方法。基于大规模恶意样本,设计了一种安全、高效的恶意软件分类的方法,通过提取可执行文件字节视图、汇编视图、PE 视图3个方面的静态特征,并利用特征融合和分类器集成学习2种方式,提高模型的泛化能力,实现了特征与分类器之间的互补,实验证明,在样本上取得了稳定的F1-score(93.56%)。

关键词: 恶意软件, 家族分类, 静态分析, 机器学习, 模型融合

Abstract:

In recent years,the amount of the malwares has tended to rise explosively.New malicious samples emerge as variability and polymorphism.By means of polymorphism,shelling and confusion,traditional ways of detecting can be avoided.On the basis of massive malicious samples,a safe and efficient method was designed to classify the mal-wares.Extracting three static features including file byte features,assembly features and PE features,as well as im-proving generalization of the model through feature fusion and ensemble learning,which realized the complementarity between the features and the classifier.The experiments show that the sample achieve a stable F1-socre (93.56%).

Key words: malware, family classification, static analysis, machine learning, model fusion

中图分类号: 

  • TP309.5