特征选择

最近更新时间:2019-08-22 20:29:35

卡方特征选择([2.0] ChiSqSelector)

卡方检验是一种常用的特征选择方法。卡方用来描述两个事件的独立性或者描述实际观察值与期望值的偏离程度。卡方值越大,则表明实际观察值与期望值偏离越大,也说明两个事件的相互独立性越弱。

输入

  • 输入数据路径:输入文件所在路径。
  • 输入文件类型:格式包括以下两种:
    • csv:csv 文件
      • 输入数据包含 header 信息
      • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
    • parquet:列式存储格式 parquet

输出

  • 输出数据路径:输出文件所在路径。
  • 输出数据格式:格式包括以下两种:
    • csv:csv 文件
      • 输出数据包含 header 信息
      • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
    • parquet:列式存储格式 parquet
      最后的结果中,选中的原始特征列会被删除,经过卡方选择的特征会 append 到数据的最后几列。

参数

  • 标签列:标签列所在的列号,从0开始计数,如填写0,表示第一列是标签。
  • 特征列:表示需要计算的特征所在列,例如“1-12,15”,表示取特征在表中的1到12列,15列,从0开始计数。
  • 选择的特征个数:根据卡方值选择的特征个数。

基于方差的特征选择([2.0] VarianceSelector)

如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本上没有差异,这个特征对于样本的区分并没有什么用。所以通过方差对低方差的特征进行过滤,是特征选择常用的方法。

输入

  • 输入数据路径:输入文件所在路径。
  • 输入文件类型:格式包括以下两种:
    • csv:csv 文件
      • 输入数据包含 header 信息
      • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
    • parquet:列式存储格式 parquet

输出

  • 输出数据路径:输出文件所在路径。
  • 输出数据格式:格式包括以下两种:
    • csv:csv 文件
      • 输出数据包含 header 信息
      • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
    • parquet:列式存储格式 parquet
注意:

最后的结果中,选中的原始特征列会被删除,经过方差选择的特征会 append 到数据的最后几列。

参数

  • 标签列:标签列所在的列号,从0开始计数,如填写0,表示第一列是标签。
  • 特征列:表示需要计算的特征所在列,例如“1-12,15”,表示取特征在表中的1到12列,15列,从0开始计数。
  • 方差阈值:根据方差阈值选择特征。

基于树的特征选择([2.0] TreeBasedSelector)

基于树的集成算法有一个很好的特性,就是模型训练结束后可以输出模型所使用的特征的相对重要度,便于我们选择特征,理解哪些因素是对预测有关键影响。

输入

  • 输入数据路径:输入文件所在路径。
  • 输入文件类型:格式包括以下两种:
    • csv:csv 文件
      • 输入数据包含 header 信息
      • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
    • parquet:列式存储格式 parquet

输出

  • 输出数据路径:输出文件所在路径
  • 输出数据格式:格式包括以下两种:
    • csv:csv 文件
      • 输出数据包含 header 信息
      • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
    • parquet:列式存储格式 parquet
      最后的结果中,选中的原始特征列会被删除,经过树选择的特征会 append 到数据的最后几列。

参数

  • 标签列:标签列所在的列号,从0开始计数,如填写0,表示第一列是标签。
  • 特征列:表示需要计算的特征所在列,例如“1-12,15”,表示取特征在表中的1到12列,15列,从0开始计数。
  • 选择的特征个数:根据树模型选择的特征个数。

基于信息的特征选择([2.0] InfoBasedSelector)

基于信息的特征选择是常用的特征选择方法。总共有四种信息值用于特征选择:信息增益率(Information Gain Ratio)、基尼系数(Gini)、互信息(Mutual Information)以及对称不确定性(Symmetry Uncertainly)。

输入

  • 输入数据路径:输入文件所在路径。
  • 输入文件类型:格式包括以下两种:
    • csv:csv 文件
      • 输入数据包含 header 信息
      • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
    • parquet:列式存储格式 parquet

输出

  • 输出数据路径:输出文件所在路径。
  • 输出数据格式:格式包括以下两种:
    • csv:csv 文件
      • 输出数据包含 header 信息
      • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
    • parquet:列式存储格式 parquet
注意:

最后的结果中,选中的原始特征列会被删除,经过树选择的特征会 append 到数据的最后几列。

参数

  • 标签列:标签列所在的列号,从0开始计数,如填写0,表示第一列是标签。
  • 特征列:表示需要计算的特征所在列,例如“1-12,15”,表示取特征在表中的1到12列,15列,从0开始计数。
  • 选择的特征个数:根据树模型选择的特征个数。
  • 特征选择方法:可选择的项有极小冗余极大相关、互信息最大化、互信息、联合互信息、交互覆盖、条件互信息最大化、信息碎片。

特征权重分析([2.0] FeatureWeight)

学习出特征在模型中所占比重,分析特征重要性。

输入

  • 输入文件类型:格式包括以下两种:
    • csv:csv 文件
      • 输入数据包含 header 信息
      • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
    • parquet:列式存储格式 parquet

算法参数

  • 任务类别:分类、回归
  • 分类方法:
    分类:决策树分类、随机森林分类、梯度提升树分类
    回归:决策树回归、随机森林回归、梯度提升树回归

输出

  • 输出参数:colname、weight
  • 特征权重分析图:按重要性从高到低排列展示前十个特征,其余特征占比放在第一列“其他”列展示
  • 图中默认展示前1000行数据,更多数据请单击【下载】查看。