特征转换

最近更新时间:2019-08-22 20:29:24

二值化 ([2.0] Binarizer)

二值化是一个将数值特征转换为二值特征的处理过程。阈值参数表示决定二值化的阈值。 值大于阈值的特征二值化为1,否则二值化为0。

输入

  • 输入数据路径:输入文件所在路径。
    • 输入文件类型:格式包括以下两种:
      • csv:csv 文件
        • 输入数据包含 header 信息
        • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
      • parquet:列式存储格式 parquet

输出

  • 输出数据路径:经转换后的数据存储路径。
    • 输出数据格式:格式包括以下两种:
      • csv:csv 文件
        • 输出数据包含 header 信息
        • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
      • parquet:列式存储格式 parquet
注意:

选中的原始特征列会被删除,经过二值化的特征会 append 到数据的最后几列。

参数

  • 选择特征列:表示需要计算的特征所在列,例如“1-12,15”,表示取特征在表中的1到12列,15列,从0开始计数。
  • 阈值:默认为0.5。值大于阈值的特征二值化为1,否则二值化为0。

正则化 ([2.0] Normalizer)

正则化器缩放单个样本让其拥有单位 p 范数。

输入

  • 输入数据路径:输入文件所在路径。
  • 输入文件类型:格式包括以下两种:
    • csv:csv 文件
      • 输入数据包含 header 信息
      • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
    • parquet:列式存储格式 parquet

输出

  • 输出数据路径:经转换后的测试数据存储路径。
  • 输出数据格式:格式包括以下两种:
    • csv:csv 文件
      • 输出数据包含 header 信息
      • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
    • parquet:列式存储格式 parquet

参数

  • 选择特征列:表示需要计算的特征所在列,例如“1-12,15”,表示取特征在表中的1到12列,15列,从0开始计数。
  • P:范数。

标准归一化 ([2.0] StandardScaler)

在原始的数据中,各变量的范围大不相同。对于某些机器学习的算法,若没有做过标准化,目标函数会无法适当的运作。举例来说,多数的分类器利用两点间的距离计算两点的差异, 若其中一个特征具有非常广的范围,那两点间的差异就会被该特征左右,因此,有些特征应该被标准化,可以使各特征按比例影响两点间的距离。另外一个做特征缩放的理由是他能使加速梯度下降法的收敛。标准归一化会使每个特征中的数值平均变为0(将每个特征的值都减掉原始数据中该特征的均值)、标准差变为1。

训练节点

  • 输入

    • 输入数据路径:输入训练文件所在路径。
    • 输入文件类型:格式包括以下两种:
      • csv:csv 文件
        • 输入数据包含 header 信息
        • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
      • parquet:列式存储格式 parquet
  • 输出

    • 输出数据路径:经转换后的训练数据存储路径。
    • 输出数据格式:格式包括以下两种:
      • csv:csv 文件
        • 输出数据包含 header 信息
        • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
      • parquet:列式存储格式 parquet
注意:

最后的结果中,选中的原始特征列会被删除,经过标准归一化的特征会 append 到数据的最后几列。

  • 参数
    • 选择特征列:表示需要计算的特征所在列,例如“1-12,15”,表示取特征在表中的1到12列,15列,从0开始计数。
    • 特征是否减去均值:默认选中。
    • 特征是否除以方差:默认不选中。

预测节点

  • 输入
    • 输入数据路径:输入测试文件所在路径。
    • 输入文件类型:格式包括以下两种:
      • csv:csv 文件
        • 输入数据包含 header 信息
        • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
      • parquet:列式存储格式 parquet
  • 输出
    • 输出数据路径:经转换后的测试数据存储路径。
    • 输出数据格式:格式包括以下两种:
      • csv:csv 文件
        • 输出数据包含 header 信息
        • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
      • parquet:列式存储格式 parquet
注意:

最后的结果中,选中的原始特征列会被删除,经过标准归一化的特征会 append 到数据的最后几列。

  • 参数
    • 选择特征列:表示需要计算的特征所在列,例如“1 - 12,15”,表示取特征在表中的1到12列,15列,从0开始计数。

最大绝对值归一化 ([2.0] MaxAbsScaler)

最大绝对值归一化将每个特征调整到-1,1的范围,它通过每个特征内的最大绝对值来划分。 它不会移动和聚集数据,因此不会破坏任何的稀疏性。

训练节点

  • 输入

    • 输入数据路径:输入训练文件所在路径。
    • 输入文件类型:格式包括以下两种:
      • csv:csv 文件
        • 输入数据包含 header 信息
        • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
      • parquet:列式存储格式 parquet
  • 输出

    • 输出数据路径:经转换后的训练数据存储路径。
    • 输出数据格式:格式包括以下两种:
      • csv:csv 文件
        • 输出数据包含 header 信息
        • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
      • parquet:列式存储格式 parquet
        注意:

        最后的结果中,选中的原始特征列会被删除,经过最大绝对值归一化的特征会append到数据的最后几列。

  • 参数
    选择特征列:表示需要计算的特征所在列,例如“1 - 12,15”,表示取特征在表中的1到12列,15列,从0开始计数。

预测节点

  • 输入
    • 输入数据路径:输入训练文件所在路径。
    • 输入文件类型:格式包括以下两种:
      • csv:csv 文件
        • 输入数据包含 header 信息
        • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
      • parquet:列式存储格式 parquet
  • 输出
    • 输出数据路径:经转换后的训练数据存储路径。
    • 输出数据格式:格式包括以下两种:
      • csv:csv 文件
        • 输出数据包含 header 信息
        • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
      • parquet:列式存储格式 parquet
注意:

最后的结果中,选中的原始特征列会被删除,经过最大绝对值归一化的特征会 append 到数据的最后几列。

  • 参数
    • 选择特征列:表示需要计算的特征所在列,例如“1 - 12,15”,表示取特征在表中的1到12列,15列,从0开始计数。

最小最大归一化([2.0] MinMaxScaler)

最小最大归一化将每个特征调整到一个特定的范围(通常是(0,1))。

训练节点

  • 输入
    • 输入数据路径:输入训练文件所在路径。
    • 输入文件类型:格式包括以下两种:
      • csv:csv 文件
        • 输入数据包含 header 信息
        • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
      • parquet:列式存储格式 parquet
  • 输出
    • 输出数据路径:经转换后的训练数据存储路径。
    • 输出数据格式:格式包括以下两种:
      • csv:csv 文件
        • 输出数据包含 header 信息
        • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
      • parquet:列式存储格式 parquet
注意:

最后的结果中,选中的原始特征列会被删除,经过最小最大归一化的特征会 append 到数据的最后几列。

  • 参数
    • 选择特征列:表示需要计算的特征所在列,例如“1-12,15”,表示取特征在表中的1到12列,15列,从0开始计数。
    • min:默认是0。转换的下界,被所有的特征共享。
    • max:默认是1。转换的上界,被所有特征共享。

预测节点

  • 输入
    • 输入数据路径:输入训练文件所在路径。
    • 输入文件类型:格式包括以下两种:
      • csv:csv 文件
        • 输入数据包含 header 信息
        • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
      • parquet:列式存储格式 parquet
  • 输出
    • 输出数据路径:经转换后的训练数据存储路径。
    • 输出数据格式:格式包括以下两种:
      • csv:csv 文件
        • 输出数据包含 header 信息
        • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
      • parquet:列式存储格式 parquet
注意:

最后的结果中,选中的原始特征列会被删除,经过最小最大归一化的特征会append到数据的最后几列。

  • 参数
    • 选择特征列:表示需要计算的特征所在列,例如“1 - 12,15”,表示取特征在表中的1到12列,15列,从0开始计数。

主成分分析 ([2.0] PCA)

主成分分析一种统计学的特征降维方法,将数据从原来的坐标系投影到新的坐标系,通过每个维度的方差大小来衡量该维度的重要性。从中选取重要性排在前K个的特征作为新的特征,达到数据降维的目的。

训练节点

  • 输入
    • 输入数据路径:输入训练文件所在路径。
    • 输入文件类型:格式包括以下两种:
      • csv:csv 文件
        • 输入数据包含 header 信息
        • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
      • parquet:列式存储格式 parquet
  • 输出
    • 输出数据路径:经转换后的训练数据存储路径。
    • 输出数据格式:格式包括以下两种:
      • csv:csv 文件
        • 输出数据包含 header 信息
        • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
      • parquet:列式存储格式 parquet
        注意:

        最后的结果中,选中的原始特征列会被删除,经过 PCA 的特征会 append 到数据的最后几列。

    • 参数
    • 选择特征列:表示需要计算的特征所在列,例如“1 - 12,15”,表示取特征在表中的1到12列,15列,从0开始计数。
  • k:降维后的特征维度。

预测节点

  • 输入
    • 输入数据路径:输入训练文件所在路径。
    • 输入文件类型:格式包括以下两种:
      • csv:csv 文件
        • 输入数据包含 header 信息
        • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
      • parquet:列式存储格式 parquet
  • 输出
    • 输出数据路径:经转换后的训练数据存储路径。
    • 输出数据格式:格式包括以下两种:
      • csv:csv 文件
        • 输出数据包含 header 信息
        • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
      • parquet:列式存储格式 parquet
注意:

最后的结果中,选中的原始特征列会被删除,经过 PCA 的特征会 append 到数据的最后几列。

  • 参数
    • 选择特征列:表示需要计算的特征所在列,例如“1 - 12,15”,表示取特征在表中的1到12列,15列,从0开始计数。

向量索引 ([2.0] VectorIndexer)

向量索引把数据集中的类型特征转换为索引。它不仅可以自动的判断哪些特征可以类别化,也能将原有的值转换为类别索引。通过 maxCategories 参数来判断特征是否可以类别化。

训练节点

  • 输入
    • 输入数据路径:输入训练文件所在路径。
    • 输入文件类型:格式包括以下两种:
      • csv:csv 文件
        • 输入数据包含 header 信息
        • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
      • parquet:列式存储格式 parquet
  • 输出
    • 输出数据路径:经转换后的训练数据存储路径。
    • 输出数据格式:格式包括以下两种:
      • csv:csv 文件
        • 输出数据包含 header 信息
        • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
      • parquet:列式存储格式 parquet
        注意:

        最后的结果中,选中的原始特征列会被删除,经过向量索引的特征会 append 到数据的最后几列。

    • 参数
    • 选择特征列:表示需要计算的特征所在列,例如“1 - 12,15”,表示取特征在表中的1到12列,15列,从0开始计数。
    • maxCategories:拥有的不同值的数量小于等于 maxCategories 的特征被判断可以类别化。

预测节点

  • 输入
    • 输入数据路径:输入训练文件所在路径。
    • 输入文件类型:格式包括以下两种:
      • csv:csv 文件
        • 输入数据包含 header 信息
        • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
      • parquet:列式存储格式 parquet
  • 输出
    • 输出数据路径:经转换后的训练数据存储路径。
    • 输出数据格式:格式包括以下两种:
      • csv:csv 文件
        • 输出数据包含 header 信息
        • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
      • parquet:列式存储格式 parquet
注意:

最后的结果中,选中的原始特征列会被删除,经过向量索引的特征会 append 到数据的最后几列。

  • 参数
    • 选择特征列:表示需要计算的特征所在列,例如“1 - 12,15”,表示取特征在表中的1到12列,15列,从0开始计数。

多项式展开 ([2.0] PolynomialExpansion)

多项式展开是一个将特征展开到多元空间的处理过程。 它通过 degree(阶)结合原始的维度来定义。例如设置 degree 为2就可以将 (x,y) 转化为 (x,x x,y,x y,y y)。

  • 输入
    • 输入数据路径:输入训练文件所在路径。
    • 输入文件类型:格式包括以下两种:
      • csv:csv 文件
        • 输入数据包含 header 信息
        • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
      • parquet:列式存储格式 parquet
  • 输出
    • 输出数据路径:经转换后的训练数据存储路径。
    • 输出数据格式:格式包括以下两种:
      • csv:csv 文件
        • 输出数据包含 header 信息
        • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
      • parquet:列式存储格式 parquet
注意:

最后的结果中,选中的原始特征列会被删除,经过多项式展开的特征会 append 到数据的最后几列。

  • 参数
    • 选择特征列:表示需要计算的特征所在列,例如“1 - 12,15”,表示取特征在表中的1到12列,15列,从0开始计数。
    • 阶(degree):展开阶数。

独热编码([2.0] OneHotEncoder)

将离散型特征的每一种取值都看成一种状态,若您的这一特征中有 N 个不相同的取值,那么我们就可以将该特征抽象成 N 种不同的状态,独热编码保证了每一个取值只会使得一种状态处于“激活态”,也就是说这 N 种状态中只有一个状态位值为1,其他状态位都是0。

  • 输入
    • 输入数据路径:输入训练文件所在路径。
    • 输入文件类型:格式包括以下两种:
      • csv:csv 文件
        • 输入数据包含 header 信息
        • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
      • parquet:列式存储格式 parquet
  • 输出
    • 输出数据路径:经转换后的训练数据存储路径。
    • 输出数据格式:格式包括以下两种:
      • csv:csv 文件
        • 输出数据包含 header 信息
        • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
      • parquet:列式存储格式 parquet
  • 参数
    • 选择特征列:表示需要计算的特征所在列,从0开始计数。

字符串索引([2.0] StringIndexer)

字符串索引把数据集中的字符串特征转换为索引。字符串索引很多情况下会和独热编码一起使用。

训练节点

  • 输入
    • 输入数据路径:输入训练文件所在路径。
    • 输入文件类型:格式包括以下两种:
      • csv:csv 文件
        • 输入数据包含 header 信息
        • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
      • parquet:列式存储格式 parquet
  • 输出
    • 输出数据路径:经转换后的训练数据存储路径。
    • 输出数据格式:格式包括以下两种:
      • csv:csv 文件
        • 输出数据包含 header 信息
        • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
      • parquet:列式存储格式 parquet
注意:

最后的结果中,选中的原始特征列会被删除,经过字符串索引的特征会 append 到数据的最后几列。

  • 参数
    • 选择特征列:表示需要计算的特征所在列,从0开始计数。
    • 处理非法值的方法:可以选择保持、忽略、报错三种处理方法。
    • 排序方式:对字符串进行索引的顺序,可以选择按频率倒序、按频率正序、按字母倒序、按字母正序四种方法。

预测节点

  • 输入
    • 输入数据路径:输入训练文件所在路径。
    • 输入文件类型:格式包括以下两种:
      • csv:csv 文件
        • 输入数据包含 header 信息
        • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
      • parquet:列式存储格式 parquet
  • 输出
    • 输出数据路径:经转换后的训练数据存储路径。
    • 输出数据格式:格式包括以下两种:
      • csv:csv 文件
        • 输出数据包含 header 信息
        • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
      • parquet:列式存储格式 parquet
        注意:

        最后的结果中,选中的原始特征列会被删除,经过字符串索引的特征会 append 到数据的最后几列。

        • 参数
          • 选择特征列:表示需要计算的特征所在列,从0开始计数。

索引转字符串( [2.0] IndexToString)

将字符串转换为索引之后,我们很难分辨索引到底代表的是哪个类别,这时候我们可以用序列转字符串算子将序列再转换为原始的字符串。

  • 输入
    • 输入数据路径:输入训练文件所在路径。
    • 输入文件类型:格式包括以下两种:
      • csv:csv 文件
        • 输入数据包含 header 信息
        • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
      • parquet:列式存储格式 parquet
  • 输出
    • 输出数据路径:经转换后的训练数据存储路径。
    • 输出数据格式:格式包括以下两种:
      • csv:csv 文件
        • 输出数据包含 header 信息
        • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
      • parquet:列式存储格式 parquet
  • 参数
    • 选择特征列:表示需要计算的特征所在列,从0开始计数。

离散余弦变换([2.0] DCT)

离散余弦变换将一个在时间域(time domain)内长度为 N 的实值序列转换为另外一个在频率域(frequency domain)内的长度为 N 的实值序列。

  • 输入
    • 输入数据路径:输入训练文件所在路径。
    • 输入文件类型:格式包括以下两种:
      • csv:csv 文件
        • 输入数据包含 header 信息
        • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
      • parquet:列式存储格式 parquet
  • 输出
    • 输出数据路径:经转换后的训练数据存储路径。
    • 输出数据格式:格式包括以下两种:
      • csv:csv 文件
        • 输出数据包含 header 信息
        • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
      • parquet:列式存储格式 parquet
  • 参数
    • 选择特征列:表示需要计算的特征所在列,从0开始计数。
    • 是否反向变换:默认反向变换。

BoxCoxTransformer([2.0] box-cox转换)

统计分析中,基础数据的分布可能比较特别,不符合“正态分布”。正态分布的变换,比较经典的就是 box-cox 变换。
box-cox 变换的目标有两个:一个是变换后,可以一定程度上减小不可观测的误差和预测变量的相关性。主要操作是对因变量转换,使得变换后的因变量于回归自变量具有线性相依关系,误差也服从正态分布,误差各分量是等方差且相互独立。第二个是用这个变换来使得因变量获得一些性质,比如在时间序列分析中的平稳性,或者使得因变量分布为正态分布。

  • 输入
    • 输入数据路径:输入训练文件所在路径。
    • 输入文件类型:格式包括以下两种:
      • csv:csv 文件
        • 输入数据包含 header 信息
        • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
      • parquet:列式存储格式 parquet
  • 输出
    • 输出数据路径:经转换后的训练数据存储路径。
    • 输出数据格式:格式包括以下两种:
      • csv:csv 文件
        • 输出数据包含 header 信息
        • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
      • parquet:列式存储格式 parquet
  • 参数
    • 选择特征列:表示需要计算的特征所在列,从0开始计数。
    • lambda:变换参数,当lambda为0时,等价于对数变换。

特征分桶 ([2.0] Bucketizer)

Bucketizer 将连续的特征列转换成离散的列。这些离散值由用户指定,通过“切分区间”参数来确定。

  • 输入
    • 输入数据路径:输入训练文件所在路径。
    • 输入文件类型:格式包括以下两种:
      • csv:csv 文件
        • 输入数据包含 header 信息
        • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
      • parquet:列式存储格式 parquet
  • 输出
    • 输出数据路径:经转换后的训练数据存储路径。
    • 输出数据格式:格式包括以下两种:
      • csv:csv 文件
        • 输出数据包含 header 信息
        • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
      • parquet:列式存储格式 parquet
  • 参数
    • 选择特征列:表示需要计算的特征所在列,从0开始计数,如“1 - 4”。
    • 切分区间:如果有 n+ 切分区间,那么将有n个桶。桶将由区间 x和区间 y共同确定,它的值范围为[x,y],如果是最后一个桶,范围将是 [x,y]。切分区间应该严格递增。例如“0.0,1.0,2.0”。

分位数离散化([2.0] QuantileDiscretizer)

分位数离散化输入连续的特征列,输出离散的特征。分桶数是通过参数“桶数量”来指定的。 桶的范围是通过使用近似算法(见approxQuantile)来得到的。桶的上边界和下边界分别是正无穷和负无穷时, 取值将会覆盖所有的实数值。

训练节点

  • 输入
    • 输入数据路径:输入训练文件所在路径。
    • 输入文件类型:格式包括以下两种:
      • csv:csv 文件
        • 输入数据包含 header 信息
        • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
      • parquet:列式存储格式 parquet
  • 输出
    • 输出数据路径:经转换后的训练数据存储路径。
    • 输出数据格式:格式包括以下两种:
      • csv:csv 文件
        • 输出数据包含 header 信息
        • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
      • parquet:列式存储格式 parquet
        最后的结果中,选中的原始特征列会被删除,经过字符串索引的特征会 append 到数据的最后几列。
  • 参数
    • 选择特征列:表示需要计算的特征所在列,从0开始计数,如“1-4”。
    • 桶数量:分桶的个数。

预测节点

  • 输入
    • 输入数据路径:输入训练文件所在路径。
    • 输入文件类型:格式包括以下两种:
      • csv:csv 文件
        • 输入数据包含 header 信息
        • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符
      • parquet:列式存储格式 parquet
  • 输出
    • 输出数据路径:经转换后的训练数据存储路径。
    • 输出数据格式:格式包括以下两种:
      • csv:csv 文件
        • 输出数据包含 header 信息
        • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符
      • parquet:列式存储格式 parquet
        最后的结果中,选中的原始特征列会被删除,经过字符串索引的特征会 append 到数据的最后几列。
  • 参数
    • 选择特征列:表示需要计算的特征所在列,从0开始计数,如“1-4”。