电信科学 ›› 2018, Vol. 34 ›› Issue (4): 41-48.doi: 10.11959/j.issn.1000-0801.2018094

• 研究与开发 • 上一篇    下一篇

一种基于特征集构建的Bagging集成方法及其在流量分类中的应用

钱亚冠1,关晓惠2,吴淑慧1,云本胜1,任东晓1   

  1. 1 浙江科技学院大数据科学系,浙江 杭州310023
    2 浙江水利水电学院,浙江 杭州310018
  • 修回日期:2018-01-18 出版日期:2018-04-01 发布日期:2018-05-02
  • 作者简介:钱亚冠(1976–),男,博士,浙江科技学院理学院大数据科学系副教授,主要研究方向为互联网流量分类、机器学习与大数据处理、对抗性机器学习。|关晓惠(1977–),女,浙江水利水电学院副教授,主要研究方向为机器学习与大数据处理、对抗性机器学习。|吴淑慧(1975–),女,博士,浙江科技学院理学院大数据科学系讲师,主要研究方向为量子计算与机器学习。|云本胜(1980–),男,博士,浙江科技学院理学院大数据科学系讲师,主要研究方向为数据挖掘、服务计算。|任东晓(1982–),女,博士,浙江科技学院理学院大数据科学系高级工程师,主要研究方向为机器学习与大数据处理、对抗性机器学习。

An approach of Bagging ensemble based on feature set and application for traffic classification

Yaguan QIAN1,Xiaohui GUAN2,Shuhui WU1,Bensheng YUN1,Dongxiao REN1   

  1. 1 Department of Big-Data Science,Zhejiang University of Science and Technology,Hangzhou 310023,China
    2 Zhejiang University of Water Resources and Electric Power,Hangzhou 310018,China
  • Revised:2018-01-18 Online:2018-04-01 Published:2018-05-02

摘要:

Bagging是一种经典的分类器集成方法,其有效性依赖于基分类器之间的差异度。通过遗传算法为每个基分类器构建独立的特征集,目的是获得基分类器之间更好的差异性。同时,根据不同基分类器的分类性能进行优化加权集成,获得更好的泛化能力。最后,采用Softmax回归作为基分类器,将改进的Bagging集成方法应用到互联网流量分类,实验结果表明,改进方法相比经典 Bagging 方法在分类准确率上有显著提高,与利用决策树集成的随机森林相比也有较好的性能提升。

关键词: Bagging集成, 特征子集, 遗传算法, 流量分类

Abstract:

Bagging is a classic ensemble approach,whose effectiveness depends on the diversity of component base classifiers.In order to gain the largest diversity,employing genetic algorithms to get independent feature subset for each base classifier was proposed.Meanwhile,for better generalization,the optimal weights for the base classifiers according to their predictive performance were selected.Finally,refined Bagging ensemble based on simple Softmax regression was applied successfully in traffic classification.The experiment result shows that the proposed approach can get more improvement than the original Bagging ensemble in classification performance,and is better than the random-forests to a certain extent.

Key words: Bagging ensemble, feature subset, genetic algorithm, traffic classification

中图分类号: 

No Suggested Reading articles found!