基于粗糙集特征选择的过拟合现象及应对策略
作者:
作者单位:

1.江苏科技大学计算机学院, 镇江, 212003;2.太原师范学院计算机系, 太原, 030619

作者简介:

通讯作者:

亓慧,女,硕士,副教授,E-mail: qihui@tynu.edu.cn。

中图分类号:

TP391

基金项目:

国家自然科学基金 61572242 61502211;61503160)项目国家自然科学基金(61572242, 61502211, 61503160)项目资助。


Over-Fitting and Its Countermeasure in Feature Selection Based on Rough Set
Author:
Affiliation:

1.School of Computer, Jiangsu University of Science and Technology, Zhenjiang, 212003, China;2.Computer Science and Technology Department, Taiyuan Normal University, Taiyuan, 030619, China

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    在粗糙集方法中,利用向前启发式算法进行特征选择,是一个逐步加入重要度最高的特征的过程,直至满足所给定的约束条件。但使用这一策略选择出来的特征子集有可能产生过拟合现象。鉴于此,设计了一种新的启发式算法,其主要思想是借助交叉验证的方法对特征的重要度进行计算,当过拟合出现时,则采用截断式机制终止算法。使用邻域粗糙集模型,在UCI数据集上将启发式算法与所提算法进行对比分析,实验结果表明:所提算法能够有效地降低过拟合的程度;利用所提算法得到的特征子集能够带来更好的分类性能。

    Abstract:

    In rough set theory, forward heuristic algorithm selects the most important feature in the process of feature selection until the given constraint is satisfied. However, the feature subset selected by such strategy may bring us over-fitting. To solve this problem, a new heuristic algorithm is designed. The importance of the feature is obtained by cross validation and then the early stopping is employed to terminate the algorithm when over-fitting occurs. Based on the neighborhood rough set, the new method is compared with the heuristic algorithm over several UCI data sets. The experimental results show that: the proposed algorithm can effectively reduce the degree of over-fitting, and the feature subset obtained by the new algorithm may offer better classification performances.

    参考文献
    相似文献
    引证文献
引用本文

张文冬,亓慧,刘克宇,杨习贝.基于粗糙集特征选择的过拟合现象及应对策略[J].南京航空航天大学学报,2019,51(5):687-692

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2018-05-10
  • 最后修改日期:2018-06-30
  • 录用日期:
  • 在线发布日期: 2019-11-13
  • 出版日期:
您是第位访问者
南京航空航天大学学报 ® 2024 版权所有
技术支持:北京勤云科技发展有限公司