以下文章来源于数据思践 ,作者王路情
导读
阅读完本文,你可以知道:
1 集成特征选择是什么
2 集成特征选择的类型
3 集成特征选择要解决的关键问题
4 集成特征选择实现的常用工具
1
集成特征选择定义
集成特征选择是融合集成学习思想和特征选择方法,它结合了多个特征选择器的输出,通常可以提高性能,使得用户不必局限于选择单一的方法。简而言之:
集成特征选择 = 集成学习 + 特征选择
2
集成特征选择类型
集成特征选择可以分为同构的和异构的。
同构的是指采用相同基特征选择器;而异构的是指采用不同的基特征选择器。
类似于,集成学习器里面的基分类器可以是相同的分类器,也可以是不同的分类器。
同构的,即对不同的训练数据集使用相同的特征选择方法;异构的,即对相同的训练数据集使用不同的特征选择方法。
3
集成特征选择要解决的关键问题
集成特征选择要解决的关键问题,描述如下:
1 基特征选择选择器的确定
2 集成特征选择的策略,是采用同构的,还是异构的
3 集成特征选择的最终结果的合并策略
4
集成特征选择实现的常用工具
集成特征选择方法实现的常用工具
1 MATLAB,它的统计学和机器学习工具箱包括这些方法可以做特征选择。1)fscnca, 利用邻域成分分析进行特征选择分类;2)fsrnca, 利用邻域成分分析进行特征选择回归;3)relieff,利用ReliefF算法获得变量的重要性分析。等等。
2 R,有许多R包可以做特征选择。最著名的R包是caret和boruta。
3 Scikit-Learn,包括一些特征选择方法。例如基于低方差移除特征;基于卡方检验和互信息的单一变量的特征选择;递归特征消除的方法。等等。
关于集成特征选择,您有什么想法请留言。