电信科学 ›› 2021, Vol. 37 ›› Issue (5): 133-147.doi: 10.11959/j.issn.1000-0801.2021025

• 研究与开发 • 上一篇    下一篇

基于最大信息系数的软件缺陷数目预测特征选择方法

刘国庆, 王兴起, 魏丹, 方景龙, 邵艳利   

  1. 杭州电子科技大学计算机学院,浙江 杭州 310018
  • 修回日期:2021-01-18 出版日期:2021-05-20 发布日期:2021-05-01
  • 作者简介:刘国庆(1995− ),男,杭州电子科技大学计算机学院硕士生,主要研究方向为软件测试、机器学习。
    王兴起(1974− ),男 ,博士,杭州电子科技大学教授,主要研究方向为数据挖掘、软件测试等。
    魏丹(1979− ),女,博士,杭州电子科技大学讲师,主要研究方向为数据挖掘、智能软件工程等
    方景龙(1964− ),男,博士,杭州电子科技大学教授,主要研究方向为智能软件工程、机器学习和人工智能等
    邵艳利(1989− ),女,博士,杭州电子科技大学副研究员,主要研究方向为 CAD&CAE、MBSE、智能软件工程和数据挖掘等
  • 基金资助:
    浙江省自然科学基金资助项目(LY20F020015);浙江省自然科学基金资助项目(LY21F020015);国家自然科学基金资助项目(61702517);国家自然科学基金资助项目(61972121);国家自然科学基金资助项目(61702146);国防基础科研计划资助项目(JCKY2019415C001)

Feature selection method for software defect number prediction based on maximum information coefficient

Guoqing LIU, Xingqi WANG, Dan WEI, Jinglong FANG, Yanli SHAO   

  1. School of Computer Science and Technology, Hangzhou Dianzi University, Hangzhou 310018, China
  • Revised:2021-01-18 Online:2021-05-20 Published:2021-05-01
  • Supported by:
    The Natural Science Foundation of Zhejiang Provincial of China(LY20F020015);The Natural Science Foundation of Zhejiang Provincial of China(LY21F020015);The National Natural Science Foundation of China(61702517);The National Natural Science Foundation of China(61972121);The National Natural Science Foundation of China(61702146);Defense Industrial Technology Development Program(JCKY2019415C001)

摘要:

针对传统特征选择方法仅考虑变量间的线性关系而忽略非线性相关性,导致软件缺陷数目预测模型的性能较低的问题,提出了一种基于最大信息系数的特征选择方法。该方法考虑特征与特征以及特征与缺陷数目间的线性及非线性关系,将特征的冗余性分析和相关性分析分离为两个阶段。在冗余特征分析阶段,基于特征间的相关度,采用凝聚层次聚类算法将冗余特征分到同一簇中;在相关性分析阶段,依据特征与软件缺陷数目之间的相关度,对每个特征簇中的特征进行排序,然后从簇中选择排名靠前的特征组成特征子集。实验结果表明,该方法能够选择有效的特征子集,提高软件缺陷数目预测模型的预测性能。

关键词: 软件缺陷数目预测, 特征选择, 最大信息系数

Abstract:

The traditional feature selection method only considers the linear correlation between variables and ignores the nonlinear correlation, so it is difficult to select effective feature subsets to build the effective model to predict the number of faults in software modules.Considering the linear and nonlinear relationship, a feature selection method based on maximum information coefficient (MIC) was proposed.The proposed method separated the redundancy analysis and correlation analysis into two phases.In the previous phase, the cluster algorithm, which was based on the correlation between features, was used to divide the redundant features into the same cluster.In the later phase, the features in each cluster were sorted in descending order according to the correlation between features and the number of software defects, and then the top features were selected to form the feature subset.The experimental results show that the proposed method can improve the prediction performance of software defect number prediction model by effectively removing redundant and irrelevant features.

Key words: software defect number prediction, feature selection, maximum information coefficient

中图分类号: 

[1] 周杰,梁笃国. 智能监控在上海世博会中的应用探讨[J]. 电信科学, 2009, 25(11): 78 -81 .
[2] 王侃. IDM技术发展与挑战[J]. 电信科学, 2009, 25(11): 88 -90 .
[3] 金家德. PTN力助运营商IP RAN建设步伐[J]. 电信科学, 2009, 25(11): 104 -105 .
[4] . 西南交通大学图书馆远程容灾备份系统的建设[J]. 电信科学, 2009, 25(11): 106 .
[5] . 联想服务器助力好耶广告网络邮件系统[J]. 电信科学, 2009, 25(11): 107 .
[6] 解冲锋,孙颖,高歆雅. 物联网与电信网融合策略探讨[J]. 电信科学, 2009, 25(12): 9 -12 .
[7] 吴吉义,平玲娣,潘雪增,李卓. 云计算:从概念到平台[J]. 电信科学, 2009, 25(12): 23 -30 .
[8] 张曼君,裴昌幸. 安全的公平非否认协议研究[J]. 电信科学, 2009, 25(12): 31 -35 .
[9] 王春芳,李春来,陈永涛,刘然. 卫星通信预警信息发布编码研究[J]. 电信科学, 2009, 25(12): 36 -40 .
[10] 樊自甫,杨俊蓉,万晓榆. TD-SCDMA网络中Iu-CS接口用户平面AAL2链路假活问题研究[J]. 电信科学, 2009, 25(12): 41 -45 .