特征选择

最近更新时间:2019-08-22 20:37:34

卡方特征选择([2.0] ChiSqSelector)

卡方检验是一种常用的特征选择方法。卡方用来描述两个事件的独立性或者描述实际观察值与期望值的偏离程度。卡方值越大,则表明实际观察值与期望值偏离越大,也说明两个事件的相互独立性越弱。

输入

  • 输入数据路径:输入文件所在路径。
  • 输入文件类型:格式包括以下三种:
    • csv:csv 文件。
      • 输入数据包含 header 信息。
      • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符。
    • text:文本文件。
    • parquet:列式存储格式 parquet。

输出

  • 输出数据路径:输出文件所在路径。
  • 输出数据路径:输出文件所在路径。
  • 输出数据格式:格式包括以下三种:
    • csv:csv 文件。
      • 输出数据包含 header 信息。
      • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符。
    • text:文本文件。
    • parquet:列式存储格式 parquet。
注意:

最后的结果中,选中的原始特征列会被删除,经过卡方选择的特征会append到数据的最后几列。

参数

  • 标签列:标签列所在的列号,从0开始计数,如填写0,表示第一列是标签。
  • 特征列:表示需要计算的特征所在列,例如“1-12,15”,表示取特征在表中的1到12列,15列,从0开始计数。
  • 选择的特征个数:根据卡方值选择的特征个数。

基于方差的特征选择([2.0] VarianceSelector)

如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本上没有差异,这个特征对于样本的区分并没有什么用。所以通过方差对低方差的特征进行过滤,是特征选择常用的方法。

输入

  • 输入数据路径:输入文件所在路径。
  • 输入文件类型:格式包括以下三种:
    • csv:csv 文件。
      • 输入数据包含 header 信息。
      • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符。
    • text:文本文件。
    • parquet:列式存储格式 parquet。

输出

  • 输出数据路径:输出文件所在路径。
  • 输出数据格式:格式包括以下三种:
    • csv:csv 文件。
      • 输出数据包含 header 信息。
      • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符。
    • text:文本文件。
    • parquet:列式存储格式 parquet。
注意:

最后的结果中,选中的原始特征列会被删除,经过方差选择的特征会 append 到数据的最后几列。

参数

  • 标签列:标签列所在的列号,从0开始计数,如填写0,表示第一列是标签。
  • 特征列:表示需要计算的特征所在列,例如“1-12,15”,表示取特征在表中的1到12列,15列,从0开始计数。
  • 方差阈值:根据方差阈值选择特征。

基于树的特征选择([2.0] TreeBasedSelector)

基于树的集成算法有一个很好的特性,就是模型训练结束后可以输出模型所使用的特征的相对重要度,便于我们选择特征,理解哪些因素是对预测有关键影响。

输入

  • 输入数据路径:输入文件所在路径。
  • 输入文件类型:格式包括以下三种:
    • csv:csv 文件。
      • 输入数据包含 header 信息。
      • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符。
    • text:文本文件。
    • parquet:列式存储格式 parquet。

输出

  • 输出数据路径:输出文件所在路径
  • 输出数据格式:格式包括以下三种:
    • csv:csv 文件。
      • 输出数据包含 header 信息。
      • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符。
    • text:文本文件。
    • parquet:列式存储格式 parquet。
注意:

最后的结果中,选中的原始特征列会被删除,经过树选择的特征会 append 到数据的最后几列。

参数

  • 标签列:标签列所在的列号,从0开始计数,如填写0,表示第一列是标签。
  • 特征列:表示需要计算的特征所在列,例如“1-12,15”,表示取特征在表中的1到12列,15列,从0开始计数。
  • 选择的特征个数:根据树模型选择的特征个数。

基于信息的特征选择([2.0] InfoBasedSelector)

基于信息的特征选择是常用的特征选择方法。总共有四种信息值用于特征选择:信息增益率(Information Gain Ratio)、基尼系数(Gini)、互信息(Mutual Information)以及对称不确定性(Symmetry Uncertainly)。

输入

  • 输入数据路径:输入文件所在路径。
  • 输入文件类型:格式包括以下三种:
    • csv:csv 文件。
      • 输入数据包含 header 信息。
      • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符。
    • text:文本文件。
    • parquet:列式存储格式 parquet。

输出

  • 输出数据路径:输出文件所在路径。
  • 输出数据格式:格式包括以下三种:
    • csv:csv 文件。
      • 输出数据包含 header 信息。
      • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符。
    • text:文本文件。
    • parquet:列式存储格式 parquet。
      注意:

      最后的结果中,选中的原始特征列会被删除,经过树选择的特征会append到数据的最后几列。

参数

  • 标签列:标签列所在的列号,从0开始计数,如填写0,表示第一列是标签。
  • 特征列:表示需要计算的特征所在列,例如“1-12,15”,表示取特征在表中的1到12列,15列,从0开始计数。
  • 选择的特征个数:根据树模型选择的特征个数。
  • 特征选择方法:信息增益、基尼系数、互信息、对称不确定性。