网络与信息安全学报 ›› 2017, Vol. 3 ›› Issue (4): 51-57.doi: 10.11959/j.issn.2096-109x.2017.00126
修回日期:
2016-12-08
出版日期:
2017-04-01
发布日期:
2017-04-14
作者简介:
戴桦(1985-),男,浙江杭州人,硕士,国家电网浙江省电力公司电力科学研究院工程师,主要研究方向为网络安全、工业控制系统信息安全。|李景(1983-),男,山东泰安人,硕士,国家电网浙江省电力公司电力科学研究院高级工程师,主要研究方向为电力信息化及网络信息安全。|卢新岱(1988-),男,浙江奉化人,硕士,国家电网浙江省电力公司电力科学研究院工程师,主要研究方向为信息安全及工控安全。|孙歆(1981-),男,浙江杭州人,硕士,国家电网浙江省电力公司电力科学研究院高级工程师,主要研究方向为应用系统安全、移动安全、工控安全。
基金资助:
Hua DAI(),Jing LI,Xin-dai LU,Xin SUN(
)
Revised:
2016-12-08
Online:
2017-04-01
Published:
2017-04-14
Supported by:
摘要:
WebShell是网络入侵的常用工具,具有威害性大、隐蔽性好等特点。目前的检测手段较简单,容易被绕过,难以对付复杂灵活的 WebShell。针对这些问题,提出一种智能检测 WebShell 的机器学习算法,通过对已知存在WebShell和不存在WebShell的页面进行特征学习,完成对未知页面的预测,灵活性、适应性较好。实验证明,相比传统的WebShell检测方法,该算法的检测效率、正确率更高,同时也能以一定概率检测出新型的WebShell。
中图分类号:
戴桦,李景,卢新岱,孙歆. 智能检测WebShell的机器学习算法[J]. 网络与信息安全学报, 2017, 3(4): 51-57.
Hua DAI,Jing LI,Xin-dai LU,Xin SUN. Machine learning algorithm for intelligent detection of WebShell[J]. Chinese Journal of Network and Information Security, 2017, 3(4): 51-57.
特征类型 | 特征描述 |
单词数量 | |
文本特征 | 不同单词的数量最大单词长度文本总长度注释数量 |
特殊字符数量 | |
其他特征 | 字符操作函数调用关键函数调用加解密函数调用系统函数调用文件调用 |
ActiveX控件调用数据库调用 | |
脚本数量 |
表1 WebShell检测模型特征
特征类型 | 特征描述 |
单词数量 | |
文本特征 | 不同单词的数量最大单词长度文本总长度注释数量 |
特殊字符数量 | |
其他特征 | 字符操作函数调用关键函数调用加解密函数调用系统函数调用文件调用 |
ActiveX控件调用数据库调用 | |
脚本数量 |
实际结果 | 预测结果 | |
0 | 1 | |
0 | False Negative (FN) | False Positive (FP) |
1 | True Negative (TN) | True Positive (TP) |
表2 预测结果分类
实际结果 | 预测结果 | |
0 | 1 | |
0 | False Negative (FN) | False Positive (FP) |
1 | True Negative (TN) | True Positive (TP) |
检测方法 | RMSE |
矩阵分解 | 0.211 |
Logistic | 0.238 |
某安全产品 | 0.520 |
表3 WebShell的RMSE预测结果
检测方法 | RMSE |
矩阵分解 | 0.211 |
Logistic | 0.238 |
某安全产品 | 0.520 |
检测方法 | 准确率 | 召回率 | F值 |
矩阵分解 | 0.982 | 0.813 | 0.890 |
Logistic | 0.880 | 0.601 | 0.714 |
某安全产品 | 0.497 | 0.411 | 0.450 |
表4 WebShell的准确率、召回率以及F值预测结果
检测方法 | 准确率 | 召回率 | F值 |
矩阵分解 | 0.982 | 0.813 | 0.890 |
Logistic | 0.880 | 0.601 | 0.714 |
某安全产品 | 0.497 | 0.411 | 0.450 |
[1] | MENG Z , MEI R , ZHANG T ,et al. Research of Linux WebShell detection based on SVM classifier[J].Netinfo Security, 2014. |
[2] | MINGKUN X , XI C , YAN H . Design of software to search ASP WebShell[J]. Procedia Engineering, 2012,29: 123-127. |
[3] | 叶飞, 龚俭, 杨望 . 基于支持向量机的 WebShell 黑盒检测[J]. 南京航空航天大学学报, 2015,47(6): 924-930. |
YE F , GONG J , YANG W . Black box detection of WebShell based on support vector machine[J]. Journal of Nanjing University of Aeronautics and Astronautics, 2015,47(6): 924-930. | |
[4] | 胡建康, 徐震, 马多贺 ,等. 基于决策树的 WebShell 检测方法研究[J]. 网络新媒体技术, 2012(6): 15-19. |
HU J K , XU Z , MA D H ,et al. A decision tree based research on Webshell detection method[J]. Network and New Media Technology, 2012(6): 15-19. | |
[5] | 马立军 . 基于行为监测的窃密型木马检测研究[J]. 广西民族大学学报, 2014,20(2): 70-74. |
MA L J . A behavior monitoring based theft Trojan detection[J]. Journal of Guangxi University for Nationalities, 2014,20(2): 70-74. | |
[6] | 石刘洋, 方勇 . 基于 Web 日志的 Webshell 检测方法研究[J]. 信息安全研究, 2016(1). |
SHI L Y , FANG Y . Webshell detection method research based on Web log[J]. Information Security Research, 2016(1). | |
[7] | 马艳发 . 基于WAF入侵检测和变异WebShell检测算法的Web安全研究[D]. 天津:天津理工大学, 2016. |
MA Y F . Web security research based on WAF intrusion detection and mutation WebShell detection algorithm[D]. Tianjin:Tianjin University of Technology, 2016. | |
[8] | DENG L Y , DONG L L , CHEN Y H ,et al. Lexical analysis for the WebShell attacks[C]// The International Symposium on Computer,Consumer and Control,IEEE Computer Society. 2016: 579-582. |
[9] | MURPHY K P . Machine learning:a probabilistic perspective[M]. Massachusetts: MIT pressPress, 2012. |
[10] | BISHOP C M . Pattern recognition[J]. Machine Learning, 2006,128. |
[11] | HOU Y T , CHANG Y , CHEN T ,et al. Malicious Web content detection by machine learning[J]. Expert Systems with Applications, 2010,37(1): 55-60. |
[12] | 路永和, 李焰锋 . 改进TE-IDF算法的文本特征项权值计算方法[J]. 图书情报工作, 2013,57(3): 90-95. |
LU Y H , LI Y F . An improved TE-IDF algorithm for calculating the weight of text feature[J]. Library and Information Service, 2013,57(3): 90-95. | |
[13] | KHALID S , KHALIL T , NASREEN S . A survey of feature selection and feature extraction techniques in machine learning[C]// Science and Information. 2014: 372-378. |
[14] | 彭行雄, 肖如良, 张桂刚 . 基于自适应提升的概率矩阵分解算法[J]. 计算机应用, 2015,35(12): 3497-3501. |
PENG X X , XIAO R L , ZHANG G G . Probabilistic matrix factorization algorithm based on Ada Boost[J]. Computer Application, 2015,35(12): 3497-3501. | |
[15] | 李航 . 统计学习方法[M]. 北京: 清华大学出版社, 2012. |
LI H . Statistical learning method[M]. Beijing: Tsinghua University PressPress, 2012. | |
[16] | SCHEIN A I , UNGAR L H . Active learning for logistic regression:an evaluation[J]. Machine Learning, 2004,68(3): 235-265. |
[1] | 郭京城,舒辉,熊小兵,康绯. 基于代码碎片化的软件保护技术[J]. 网络与信息安全学报, 2020, 6(6): 57-68. |
[2] | 杨路辉,白惠文,刘光杰,戴跃伟. 基于可分离卷积的轻量级恶意域名检测模型[J]. 网络与信息安全学报, 2020, 6(6): 112-120. |
[3] | 王昊,吴天昊,朱孔林,张琳. 交叉口场景下基于区块链技术的匿名车辆身份认证方案[J]. 网络与信息安全学报, 2020, 6(5): 27-35. |
[4] | 超凡,杨智,杜学绘,孙彦. 基于深度神经网络的Android恶意软件检测方法[J]. 网络与信息安全学报, 2020, 6(5): 67-79. |
[5] | 李喆,韩益亮,李鱼. 基于Polar码改进的RLCE公钥加密方案[J]. 网络与信息安全学报, 2020, 6(5): 110-118. |
[6] | 张勖,马欣. 基于区块链的轻量化移动自组网认证方案[J]. 网络与信息安全学报, 2020, 6(4): 14-22. |
[7] | 钱思杰,陈立全,王诗卉. 基于改进PBFT算法的PKI跨域认证方案[J]. 网络与信息安全学报, 2020, 6(4): 37-44. |
[8] | 尹小康,刘鎏,刘龙,刘胜利. PPC和MIPS指令集下二进制代码中函数参数个数的识别方法[J]. 网络与信息安全学报, 2020, 6(4): 95-103. |
[9] | 张煜,吕锡香,邹宇聪,李一戈. 基于生成对抗网络的文本序列数据集脱敏[J]. 网络与信息安全学报, 2020, 6(4): 109-119. |
[10] | 刘健,张益,刘玉岭,胡浩. 灰度可视秘密共享方案分析与设计[J]. 网络与信息安全学报, 2020, 6(4): 140-147. |
[11] | 李少卓,王娜,杜学绘. 按需披露的区块链隐私保护机制[J]. 网络与信息安全学报, 2020, 6(3): 19-29. |
[12] | 赖慧彬,许力,曾雅丽,朱瑞. 基于椭圆曲线的ElGamal型位置隐私保护方案[J]. 网络与信息安全学报, 2020, 6(3): 30-38. |
[13] | 杨磊,郑啸,赵伟. 基于差分隐私的非等距直方图发布方法[J]. 网络与信息安全学报, 2020, 6(3): 39-49. |
[14] | 邱云翔,张红霞,曹琪,章建聪,陈兴蜀,金泓键. 基于CP-ABE算法的区块链数据访问控制方案[J]. 网络与信息安全学报, 2020, 6(3): 88-98. |
[15] | 王菁,李祖猛. 几个无证书签名方案的伪造攻击[J]. 网络与信息安全学报, 2020, 6(3): 108-112. |
阅读次数 | ||||||
全文 |
|
|||||
摘要 |
|
|||||