网络与信息安全学报 ›› 2021, Vol. 7 ›› Issue (4): 154-163.doi: 10.11959/j.issn.2096-109x.2021048

• 学术论文 • 上一篇    下一篇

基于TensorFlow的恶意代码片段自动取证检测算法

李炳龙, 佟金龙, 张宇, 孙怡峰, 王清贤, 常朝稳   

  1. 信息工程大学密码工程学院,河南 郑州 450001
  • 修回日期:2021-02-01 出版日期:2021-08-15 发布日期:2021-08-01
  • 作者简介:李炳龙(1974− ),男,河南卫辉人,博士,信息工程大学副教授,主要研究方向为数字调查与取证、网络入侵溯源追踪与取证、云计算取证、智能手机取证等
    佟金龙(1997− ),男,河北保定人,信息工程大学助理工程师,主要研究方向为信息智能安全
    张宇(1996− ),男,江苏连云港人,信息工程大学硕士生,主要研究方向为智能手机取证
    孙怡峰(1976− ),男,河南新乡人,博士,信息工程大学副教授,主要研究方向为人工智能与信息安全
    王清贤(1960− ),男,河南卫辉人,信息工程大学教授、博士生导师,主要研究方向为网络与信息安全
    常朝稳(1966− ),男,河南滑县人,博士,信息工程大学教授、博士生导师,主要研究方向为网络信息防御
  • 基金资助:
    国家自然科学基金(60903220)

Auto forensic detecting algorithms of malicious code fragment based on TensorFlow

Binglong LI, Jinlong TONG, Yu ZHANG, Yifeng SUN, Qingxian WANG, Chaowen CHANG   

  1. College of Cryptographic Engineering, Information Engineering University, Zhengzhou 450001, China
  • Revised:2021-02-01 Online:2021-08-15 Published:2021-08-01
  • Supported by:
    The National Natural Science Foundation of China(60903220)

摘要:

针对数字犯罪事件调查,在复杂、异构及底层的海量证据数据中恶意代码片段识别难的问题,通过分析TensorFlow深度学习模型结构及其特性,提出一种基于TensorFlow的恶意代码片段检测算法框架;通过分析深度学习算法训练流程及其机制,提出一种基于反向梯度训练的算法;为解决不同设备、不同文件系统的证据源中恶意代码片段特征提取问题,提出一种基于存储介质底层的二进制特征预处理算法;为进行反向传播训练,设计并实现了一个代码片段数据集制作算法。实验结果表明,基于TensorFlow的恶意代码片段检测算法针对不同存储介质以及证据存储容器中恶意代码片段的自动取证检测,综合评价指标F1达到 0.922,并且和 CloudStrike、Comodo、FireEye 等杀毒引擎相比,该算法在处理底层代码片段数据方面具有绝对优势。

关键词: 自动取证, 深度学习, 全连接神经网络, 恶意代码片段

Abstract:

In order to auto detect the underlying malicious code fragments in complex,heterogeneous and massive evidence data about digital forensic investigation, a framework for malicious code fragment detecting algorithm based on TensorFlow was proposed by analyzing TensorFlow model and its characteristics.Back-propagation training algorithm was designed through the training progress of deep learning.The underlying binary feature pre-processing algorithm of malicious code fragment was discussed and proposed to address the problem about different devices and heterogeneous evidence sources from storage media and such as AFF forensic containers.An algorithm which used to generate data set about code fragments was designed and implemented.The experimental results show that the comprehensive evaluation index F1of the method can reach 0.922, and compared with CloudStrike, Comodo, FireEye antivirus engines, the algorithm has obvious advantage in dealing with the underlying code fragment data from heterogeneous storage media.

Key words: auto forensics, deep learning, full connected network, malicious code fragment

中图分类号: 

No Suggested Reading articles found!