通信学报 ›› 2017, Vol. 38 ›› Issue (4): 140-148.doi: 10.11959/j.issn.1000-436x.2017084

• 学术论文 • 上一篇    下一篇

改进的朴素贝叶斯算法在垃圾邮件过滤中的研究

杨雷1,曹翠玲1,孙建国1,2,张立国1   

  1. 1 哈尔滨工程大学计算机科学与技术学院,黑龙江 哈尔滨 150001
    2 中国科学院信息工程研究所,北京 100093
  • 修回日期:2017-02-22 出版日期:2017-04-01 发布日期:2017-07-20
  • 作者简介:杨雷(1986-),男,黑龙江哈尔滨人,哈尔滨工程大学博士生,主要研究方向为机器学习、推荐系统等。|曹翠玲(1900-),女,河北邯郸人,哈尔滨工程大学硕士生,主要研究方向为信息安全、内容过滤等。|孙建国(1981-),男,黑龙江巴彦人,博士,哈尔滨工程大学博士生导师,主要研究方向为信息安全、可信计算等。|张立国(1981-),男,黑龙江双城人,博士,哈尔滨工程大学讲师,主要研究方向为多媒体信息处理等。
  • 基金资助:
    国家自然科学基金资助项目(61202455);国家自然科学基金资助项目(61472096)

Study on an improved naive Bayes algorithm in spam filtering

Lei YANG1,Cui-ling CAO1,Jian-guo SUN1,2,Li-guo ZHANG1   

  1. 1 College of Computer Science and Technology,Harbin Engineering University,Harbin 150001,China
    2 Institute of Information Engineering,Chinese Academy of Sciences,Beijing 100093,China
  • Revised:2017-02-22 Online:2017-04-01 Published:2017-07-20
  • Supported by:
    The National Natural Science Foundation of China(61202455);The National Natural Science Foundation of China(61472096)

摘要:

提出了一种利用支持向量机改进的朴素贝叶斯算法——TSVM-NB算法。首先利用NB算法对样本集进行初次训练,利用支持向量机构造一个最优分类超平面,每个样本根据与其距离最近样本的类型是否相同进行取舍,这样既降低样本空间规模,又提高每个样本类别的独立性,最后再次用朴素贝叶斯算法训练样本集从而生成分类模型。仿真实验结果表明,该算法在样本空间进行取舍过程当中消除了冗余属性,可以快速得到分类特征子集,提高了垃圾邮件过滤的分类速度、召回率和正确率。

关键词: 邮件过滤, 朴素贝叶斯, 支持向量机, 修剪策略

Abstract:

A method of improved support vector machine naive Bayes algorithm was proposed——TSVM-NB algorithm.

Key words: spam filtering, naive Bayes, SVM, trim strategy

中图分类号: 

No Suggested Reading articles found!