网络与信息安全学报 ›› 2020, Vol. 6 ›› Issue (3): 66-77.doi: 10.11959/j.issn.2096-109x.2020034
修回日期:
2020-01-21
出版日期:
2020-06-01
发布日期:
2020-07-01
作者简介:
翟明芳(1986- ),男,河南巩义人,国家数字交换系统工程技术研究中心硕士生,主要研究方向为网络空间安全及深度学习算法|张兴明(1963- ),男,河南新乡人,博士,国家数字交换系统工程技术研究中心教授,主要研究方向为网络空间安全、高性能计算、软硬件协同设计和深度学习|赵博(1981- ),男,吉林公主岭人,博士,国家数字交换系统工程技术研究中心副研究员,主要研究方向为网络空间安全和拟态防御体系结构
基金资助:
Mingfang ZHAI(),Xingming ZHANG,Bo ZHAO
Revised:
2020-01-21
Online:
2020-06-01
Published:
2020-07-01
Supported by:
摘要:
随着网络安全防范意识增强,加密通信占据主流,加密流量快速增长。流量加密在保护隐私的同时,也掩饰非法企图,改变威胁形式。深度学习作为机器学习领域的重要分支,是流量分类的有力工具。近年来,将深度学习方法应用于入侵检测的研究不断深入,取得良好效果。在深入调研文献的基础上,将加密恶意流量检测的步骤总结归纳为“六步法”的一般检测框架模型,结合模型对数据处理及检测算法进行回顾总结,指出各类算法模型的优缺点,并对未来研究方向进行展望,以期为下一步研究提供帮助。
中图分类号:
翟明芳,张兴明,赵博. 基于深度学习的加密恶意流量检测研究[J]. 网络与信息安全学报, 2020, 6(3): 66-77.
Mingfang ZHAI,Xingming ZHANG,Bo ZHAO. Survey of encrypted malicious traffic detection based on deep learning[J]. Chinese Journal of Network and Information Security, 2020, 6(3): 66-77.
表1
恶意流量检测数据集比较 Table 1 Comparison of malicious traffic detection datasets"
序号 | 名称 | 针对问题 | 描述 | 是否针对加密流量 | 标记 | 优缺点 |
1 | DARPA入侵检测评估数据集 | 入侵检测 | DARPA 1999覆盖了Probe、DoS、R2L、U2R和Data等5类58种典型攻击方式,是目前最为全面的攻击测试数据集 | 否 | 是 | 应用广泛,认可度高,但陈旧过时 |
2 | KDD99数据集 | 入侵检测 | 从一个模拟的美国空军局域网上采集9个星期的网络连接数据,训练集中包含了1种正常的标识类型和22种攻击类型,另外有14种攻击仅出现在测试数据集中 | 否 | 是 | 数据存在大量冗余 |
3 | NSL-KDD数据集 | 入侵检测 | 针对KDD CUP 99数据集出现的不足,NSL-KDD 数据集除去KDD CUP 99数据集中冗余的数据,克服了分类器偏向于重复出现的记录,学习方法的性能受影响等问题 | 否 | 是 | 缺乏入侵检测系统的公开数据,不能完美代表现实 |
4 | ISCX-2012数据集 | 入侵检测 | 引入了一种系统化的方法来生成所需的数据集,分析实际跟踪,为 HTTP、SMTP、SSH、IMAP、POP3 和 FTP 生成实际流量的代理创建配置文件 | 否 | 是 | 不能完美拟合现实流量数据 |
5 | CTU-13数据集 | 恶意流量检测 | CTU-13是2011年在捷克共和国CTU大学捕获的僵尸网络流量数据集,包含 13 个不同场景僵尸网络样本的捕获 | 是 | 是 | 不含特征标签 |
6 | CAIDA数据集 | 入侵检测/流量分类 | 包含3个不同的数据集,CAIDA DDoS包含1 h的攻击和5 min的pcap文件 | 否 | 否 | 攻击类型不多,且无标记 |
7 | CICIDS2017数据集 | 入侵检测 | 使用B-Profile系统产生良性背景流量,基于 HTTP、HTTPS、FTP、SSH 和电子邮件协议构建了25 个用户的抽象行为,收集5天超过50 GB流量 | 可用于加密 | 是 | 正常的用户行为是通过脚本产生的 |
8 | CIDDS数据集 | 入侵检测 | 基于软件Openstack,模拟小型企业环境,同时部署了外部服务器以获取真实流量数据,捕获四周的时间内收集了大约3.2×107的数据流,并分为5类 | 否 | 是 | 由Python脚本生成,可能包含人为偏差 |
9 | Kyoto 数据集 | 入侵检测 | 该数据集采用honypots 技术创建,因此没有手动标记和匿名化过程 | 是 | 是 | 只能观察对蜜罐的攻击 |
10 | CSIC2010数据集 | Web流量异常检测 | CSIC 2010由西班牙国家研究委员会信息安全研究所开发,包含36 000个正常请求和25 000多个异常请求 | 否 | 否 | 只针对Web流量,无特征集 |
11 | UNIBS数据集 | 流量分类 | 布雷西亚大学校园网的边缘路由器上捕获3个工作日收集的27 GB流量,可使用tcptrace提取特征 | 否 | 否 | 数据严重不平衡 |
12 | ADFA IDS数据集 | 入侵检测 | ADFA IDS Datasets 是澳大利亚国防大学发布的一套关于HIDS的数据集,包括10次攻击 | 否 | 否 | 某些攻击行为与正常行为没有很好分离 |
13 | WIDE流量数据 | 异常检测 | MAWILab是一个帮助研究人员评估他们的流量异常检测方法的数据库。它由一组在MAWI归档中定位流量异常的标签(采样点B和F)组成。数据集每天更新,包括即将到来的应用程序和异常的新流量 | 否 | 否 | 只适合做验证,不适合做训练 |
14 | Publicly available PCAP files | 恶意流量检测 | 从蜜罐、沙箱或现实世界入侵捕获恶意软件流量。包含多个恶意软件数据集 | 否 | 否 | 数据集繁杂,处理比较困难 |
15 | Masquerading User Data | 入侵检测 | Masquerading User Data 是通过正常数据构造出来用于训练和检测 Masquerading User攻击的数据集 | 否 | 否 | 用于验证比较算法 |
16 | Honeynet数据集 | 恶意流量检测 | Honeynet 数据集是由HoneyNet组织收集的黑客攻击数据集,能较好地反映黑客攻击模式,数据集包括从2000年4月到2001年2月的Snort报警数据 | 否 | 否 | 只能用于验证 |
17 | 恶意流量分析数据集 | 恶意流量检测 | 各种恶意软件的原始数据 | 否 | 是 | 无背景流量 |
18 | Cambridge University计算机实验室数据 | 流量分类 | 数据采用 Weka.arff 格式。对于数据中的每个流,有 12 个特征矢量和一个手动验证的类标签,仅从每个流的前5个数据包(注意:不是前5个数据包)收集 | 否 | 是 | 并非针对恶意流量检测 |
19 | Moore数据集 | 流量分类 | 用于分析TCP、UDP、IP的包头以及层完整性 | 否 | 是 | 并非针对恶意流量检测 |
20 | SSL Certificates数据集 | 流量分类 | 该数据集包含一组与每个研究中观察到的新X.509证书相关的元数据,这些证书考虑了之前运行的所有SSL研究 | 是 | 否 | 不适合做模型训练 |
表2
数据特征 Table 2 Data characteristics"
特征类别 | 特征名称 |
基本特征 | 源端口、目的端口、源IP、目的IP、协议协议版本号、加密算法、证书有效性、证书自签名 |
统计特征 | 源包数、源字节数、目的包数、目的字节数源包长(最大值、最小值、均值、中位数、标准差)目的包长(最大值、最小值、均值、中位数、标准差)源流长度(最大值、最小值、均值、中位数、标准差)目的流长度(最大值、最小值、均值、中位数、标准差) |
时间序列特征 | 包持续时间(最大值、最小值、均值、中位数、标准差)包到达时间(最大值、最小值、均值、中位数、标准差)流持续时间(最大值、最小值、均值、中位数、标准差)流到达时间(最大值、最小值、均值、中位数、标准差) |
[1] | LV Y F . In 2018,lucky star network security report and trend outlook[J]. Information Security Research, 2019,5(3): 186-191. |
[2] | CNCERT 2018 China Internet network security situation report[R]. 2018. |
[3] | GURUBARAN S . Cisco ETA–provides solution for detecting malware in encrypted traffic[EB]. |
[4] | LET’S ENCRYPT.Linux foundation collaborative projects[R]. |
[5] | HE G , XU B , ZHANG L ,et al. Mobile app identification for encrypted network flows by traffic correlation[J]. International Journal of Distributed Sensor Networks, 2018,14(12): 1-17. |
[6] | ARNA M . Malware is moving heavily to HTTPS[EB]. |
[7] | BUJLOW T , CARELA-ESPA?OL V BARLET-ROS P . Independent comparison of popular DPI tools for traffic classification[J]. Computer Networks, 2015,76: 75-89. |
[8] | WRIGHT C V , COULL S E , MONROSE F . Traffic morphing:an efficient defense against statistical traffic analysis[C]// NDSS. 2009: 237-250. |
[9] | VELAN P , ?ERMáK M , ?ELEDA P ,et al. A survey of methods for encrypted traffic classification and analysis[J]. International Journal of Network Management, 2015,25(5): 355-374. |
[10] | KRIZHEVSKY A , SUTSKEVER I , HINTON G . Imagenet classi?cation with deep convolutional neural networks[J]. Advances in neural information processing systems, 2012,25(2): 84-90. |
[11] | CHO K , VAN-MERRIENBOER B , GULCEHRE C ,et al. Learning phrase representations using RNN encoder-decoder for statistical machine translation[J]. arXiv Preprint arXiv:1406.1078, 2014 |
[12] | GRAVES A , MOHAMED A , HINTON G . Speech recognition with deep recurrent neural networks[C]// 2013 IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP). 2013: 6645-6649. |
[13] | BYEONW , BREUEL T M , RAUE F , et al . Scene labeling with LSTM recurrent neural networks[C]// IEEE Conference on Computer Vision and Pattern Recognition. 2015: 3547-3555. |
[14] | VINAYAKUMAR R , SOMAN K P , POORNACHANDRAN P . Applying convolutional neural network for network intrusion detection[C]// IEEE International Conference on Advances in Computing,Communications and Informatics (ICACCI). 2017: 1222-1228. |
[15] | WANG W , SHENG Y Q , WANGJL ,et al. HAST-IDS:learning hierarchical spatial-temporal features using deep neural networks to improve intrusion detection[J]. IEEE Access, 2018,6: 1792-1806. |
[16] | YUAN X Y , LI C H , LI X L . Deep defense:identifying DDoS attack via deep learning[C]// 2017 IEEE International Conference on Smart Computing. 2017:18. |
[17] | LI Z P , QIN Z , HUANG K ,et al. Intrusion detection using convolutional neural networks for representation learning[M]// Neural Information Processing. 2017: 858-866. |
[18] | YIN C L , ZHU Y F , FEI J L ,et al. A deep learning approach for intrusion detection using recurrent neural networks[J]. IEEE Access, 2017,5: 21954-21961. |
[19] | ANDERSON B , PAUL S , MCGREW D . Deciphering malware’s use of TLS (without decryption)[J]. Comput.Virol.Hacking Techn, 2018,14(3): 195-211. |
[20] | BLAKE A , DAVID M . Identifying encrypted malware traffic with contextual flow data[C]// ACM Workshop on Artificial Intelligence and Security (AISec). 2016: 35-46. |
[21] | GUANCHENG TECHNOLOGY . A report on the country's first detection engine for encrypted traffic[EB]. |
[22] | HE G , XU B , ZHU H . AppFA:a novel approach to detect malicious Android applications on the network[J]. Security and Communication Networks, 2018: 1-15. |
[23] | SHABTAI A , TENENBOIM C L , MIMRAN D ,et al. Mobile malware detection through analysis of deviations in application network behavior[J]. Computers & Security, 2014,43: 1-18. |
[24] | GARG S , PEDDOJU S K , SARJE A K . Network-based detection of Android malicious Apps[J]. International Journal of Information Security, 2017,16(4): 385-400. |
[25] | REZAEI S , LIU X . Deep learning for encrypted traffic classification:an overview[J]. IEEE Commun Mag, 2019,57(5): 76-81. |
[26] | WANG W , ZHU M , WANG J ,et al. End-to-end encrypted traffic classification with one-dimensional convolution neural networks[C]// IEEE Int Conf Intell Security Informat. 2017: 43-48. |
[27] | OKADA Y , ATA S , NAKAMURA N ,et al. Comparisons of machine learning algorithms for application identification of encrypted traffic[C]// 10th IEEE International Conference on Machine Learning and Applications and Workshops. 2011: 358-361. |
[28] | ZHAO B , GUO H , LIU Q R ,et al. Protocol independent identification of encrypted traffic based on weighted cumulative sum test[J]. Journal of Software, 2013,24(6): 1334-1345. |
[29] | NIU W N , ZHUO Z L , ZHANG X S ,et al. A heuristic statistical testing based approach for encrypted network traffic identification[J]. IEEE Trans.Veh.Technol., 2019,68(4). |
[30] | JAIN A V , . Network traffic identification with convolutional neural networks[C]// 2018 IEEE 16th Intl Conf on Dependable,Autonomic and Secure Computing,Washington:IEEE Computer Society (DASC). 2018: 1001-1007. |
[31] | KARAGIANNIS T , PAPAGIANNAKI K , FALOUTSOS M . BLINK:multilevel traffic classification in the dark[C]// SIGCOMM' 05. 2005: 229-239. |
[32] | GIL G D , LASHKARI A H , MAMUN M ,et al. Characterization of encrypted and VPN traf?c using time-related features[C]// 2nd International Conference on Information Systems Security and Privacy (ICISSP 2016). 2016: 19-21. |
[33] | WANG W , ZENG X , YE X ,et al. Malware traffic classification using convolutional neural network for representation learning[C]// The 31st International Conference on Information Networking(ICOIN). 2017: 712-717. |
[34] | LOTFOLLAHI M , et al . Deep packet:a novel approach for encrypted traffic classification using deep learning[J]. arXiv:1709.02656, 2017 |
[35] | YUAN X , LI C , LI X , . Deepdefense:identifying DDoS attack via deep learning[C]// 2017 IEEE International Conference Smart Computing (SMARTCOMP). 2017: 1-8. |
[36] | NYCHIS G , SEKAR V , ANDERSEN D ,et al. An empirical evaluation of entropy-based traffic anomaly detection[J]. The 8th ACM Computing Surveys, 2007,39(1): 1-42. |
[37] | KOCH R , GOLLING M , RODOSEK G D . Behavior based intrusion detection in encrypted environments[J]. Communications Magazine, 2014,52(7): 124-131. |
[38] | IVAN T , LUIS D C , ALEJANDRO C B . Hunting malicious TLS certificates with deep neural networks[C]// The 11th ACM Workshop on Arti?cial Intelligence and Security. 2018: 64-73. |
[39] | FRANTISEK S , SEBASTIAN G . Machine learning for network HTTPS analysis[C]// BRUCON Conference. 2017:5. |
[40] | GHARIB A , SHARAFALDIN I , HABIBI L A ,et al. An evaluation framework for intrusion detection dataset[C]// 2016 International Conference on Information Science and Security (ICISS). 2016: 1-6. |
[41] | GUYON I , ELISSEEFF A . An introduction to variable and feature selection[J]. Mach Learn Res, 2003(3): 1157-1182. |
[42] | FERREIRA D C , VAZQUEZ F I , VORMAYR G ,et al. A meta-analysis approach for feature selection in network traffic research[C]// Reproducibility Workshop (Reproducibility’17). 2017: 17-20. |
[43] | PAN W B , CHENG G , GUO X J ,et al. Review and perspective on encrypted traffic identification research[J]. Journal on Communications, 2016,37(9): 154-167. |
[44] | PATEL S , SONDHI J . A review of intrusion detection techniqueusing various technique of machine learning and feature optimization technique[J]. International Journal of Computer Applications, 2014,93(14): 43-47. |
[45] | MEGHDOURI F , ZSEBY T , IGLESIAS F . Analysis of lightweight feature vectors for attack detection in network traffic[J]. Applied Sciences, 2018,8(11):219. |
[46] | PRASSE P , MACHLICA L , PEVNY T ,et al. Malware detection by analysing encrypted network traffic with neural networks[C]// European Conference on Machine Learning and Knowledge Discovery in Databases. 2017: 73-88. |
[47] | TORROLEDO I , CAMACHO L D , BAHNSEN A C . Hunting malicious TLS certificates with deep neural networks[C]// 11th ACM Workshop Artif.Intell.Secur. 2018: 64-73. |
[48] | LOTFOLLAHI M , ZADE R S H , SIAVOSHANI M J ,et al. Deep packet:a novel approach for encrypted traffic classification using deep learning[J]. eprint arXiv:1709.02656, 2017. |
[49] | PASCANU R , STOKES J W , SANOSSIAN H ,et al. Malware classification with recurrent networks[C]// 40th Int Conf on Acoustics,Speech and Signal Processing. 2015: 1916-1920. |
[50] | ZENG Y , GU H , WEI W ,et al. Deep-full-range:a deep learning based network encrypted traffic classification and intrusion detection framework[J]. IEEE Access, 2019:1. |
[51] | REZAEI S , LIU X . How to achieve high classification accuracy with just a few labels:a semi-supervised approach using sampled packets[J]. arXiv preprint arXiv:1812.09761, 2018 |
[52] | ERMAN J , MAHANTI A , ARLITT M . Byte me:a case for byte accuracy in traffic classification[C]// 3rd Annual ACM Workshop on Mining Network Data(MineNet ’07). 2007: 35-38. |
[53] | HE Y . Research on confrontational learning for industrial controlsystem intrusion detection[D]. Zhejiang:Zhejiang University, 2019. |
[1] | 李晓萌, 郭玳豆, 卓训方, 姚恒, 秦川. 载体独立的抗屏摄信息膜叠加水印算法[J]. 网络与信息安全学报, 2023, 9(3): 135-149. |
[2] | 史国振, 李昆阳, 刘瑶, 杨永健. 基于深度残差胶囊网络与注意力机制的加密流量识别方法[J]. 网络与信息安全学报, 2023, 9(1): 32-41. |
[3] | 谢绒娜, 马铸鸿, 李宗俞, 田野. 基于卷积神经网络的加密流量分类方法[J]. 网络与信息安全学报, 2022, 8(6): 84-91. |
[4] | 章登勇, 文凰, 李峰, 曹鹏, 向凌云, 杨高波, 丁湘陵. 基于双分支网络的图像修复取证方法[J]. 网络与信息安全学报, 2022, 8(6): 110-122. |
[5] | 林佳滢, 周文柏, 张卫明, 俞能海. 空域频域相结合的唇型篡改检测方法[J]. 网络与信息安全学报, 2022, 8(6): 146-155. |
[6] | 陈晋音, 吴长安, 郑海斌. 基于softmax激活变换的对抗防御方法[J]. 网络与信息安全学报, 2022, 8(2): 48-63. |
[7] | 邱宝琳, 易平. 基于多维特征图知识蒸馏的对抗样本防御方法[J]. 网络与信息安全学报, 2022, 8(2): 88-99. |
[8] | 李丽娟, 李曼, 毕红军, 周华春. 基于混合深度学习的多类型低速率DDoS攻击检测方法[J]. 网络与信息安全学报, 2022, 8(1): 73-85. |
[9] | 秦中元, 贺兆祥, 李涛, 陈立全. 基于图像重构的MNIST对抗样本防御算法[J]. 网络与信息安全学报, 2022, 8(1): 86-94. |
[10] | 邹德清, 李响, 黄敏桓, 宋翔, 李浩, 李伟明. 基于图结构源代码切片的智能化漏洞检测系统[J]. 网络与信息安全学报, 2021, 7(5): 113-122. |
[11] | 王正龙, 张保稳. 生成对抗网络研究综述[J]. 网络与信息安全学报, 2021, 7(4): 68-85. |
[12] | 张心语, 张秉晟, 孟泉润, 任奎. 隐私保护的加密流量检测研究[J]. 网络与信息安全学报, 2021, 7(4): 101-113. |
[13] | 李玎, 祝跃飞, 芦斌, 林伟. 网络加密流量侧信道攻击研究综述[J]. 网络与信息安全学报, 2021, 7(4): 114-130. |
[14] | 李炳龙, 佟金龙, 张宇, 孙怡峰, 王清贤, 常朝稳. 基于TensorFlow的恶意代码片段自动取证检测算法[J]. 网络与信息安全学报, 2021, 7(4): 154-163. |
[15] | 谭清尹, 曾颖明, 韩叶, 刘一静, 刘哲理. 神经网络后门攻击研究[J]. 网络与信息安全学报, 2021, 7(3): 46-58. |
阅读次数 | ||||||
全文 |
|
|||||
摘要 |
|
|||||
|