数据预处理

最近更新时间:2019-08-22 20:29:04

按比例采样([2.0] DataSampling)

算法说明

按比例采样是一种常用的数据预处理算法。它提供了从原数据集里随机抽取特定的比例小样本数据的方法。该模块常用于抽取小样本用于数据的可视化。

输入

  • 输入数据路径:输入文件所在路径。
  • 输入文件类型:格式包括以下两种:
    • csv:csv 文件。
      • 输入数据包含 header 信息。
      • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符。
    • parquet:列式存储格式 parquet。

输出

  • 输出数据路径:输出文件所在路径。
  • 输出数据格式:格式包括以下两种:
    • csv:csv 文件。
      • 输出数据包含 header 信息。
      • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符。
    • parquet:列式存储格式 parquet。

参数

  • 抽样率:范围是0 - 1.0,表示抽取样本的比例,默认值为0.5。

按样本数采样([2.0] ExactSampling)

算法说明

按样本数采样是一种常用的数据预处理算法。它提供了从原数据集里随机抽取特定数量小样本数据的方法。该模块常用于抽取小样本用于数据的可视化。

输入

  • 输入数据路径:输入文件所在路径。
  • 输入文件类型:格式包括以下两种:
    • csv:csv 文件。
      • 输入数据包含 heade信息。
      • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符。
    • parquet:列式存储格式 parquet。

输出

  • 输出数据路径:输出文件所在路径。
  • 输出数据格式:格式包括以下两种:
    • csv:csv 文件。
      • 输出数据包含 header 信息。
      • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符。
    • parquet:列式存储格式 parquet。

参数

  • 采样数量:默认是1000。
  • 有放回采样:默认是。可选择是和否。

上采样([2.0] OverSampling)

算法说明

上采样是一种常用的处理不平衡数据的一种预处理方法。它是把小数据量的类别复制多份。上采样后的数据集中会反复出现一些样本,训练出来的模型会有一定的过拟合。

输入

  • 输入数据路径:输入文件所在路径。
  • 输入文件类型:格式包括以下两种:
    • csv:csv 文件。
      • 输入数据包含 header 信息。
      • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符。
    • parquet:列式存储格式 parquet。

输出

  • 输出数据路径:输出文件所在路径。
  • 输出数据格式:格式包括以下两种:
    • csv:csv 文件。
      • 输出数据包含 header 信息。
      • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符。
    • parquet:列式存储格式 parquet。

参数

  • 标签列:指定标签所在的列,从0开始计数。
  • 采样类别:需要采样的类别值(数量少的类别),如类别 0.0。
  • 目标类别:数量多的类别,如类别 1.0。
  • 类别比率阈值:如果(目标类别 / 采样类别)比类别比率阈值小,那么说明数据是平衡的,不做任何处理。如果(目标类别 / 采样类别)比类别比率阈值大,那么会对采样类别进行采样,采样率为 (目标类别 / 采样类别)/ 类别比率阈值。

下采样([2.0] DownSampling)

算法说明

下采样是一种常用的处理不平衡数据的一种预处理方法。下采样是从大众类中剔除一些样本,或者说只从大众类中选取部分样本。下采样的缺点显而易见,那就是最终的训练集丢失了数据,模型只学到了部分数据的特征。

输入

  • 输入数据路径:输入文件所在路径。
  • 输入文件类型:格式包括以下两种:
    • csv:csv 文件。
      • 输入数据包含 header 信息。
      • 输入数据分割符:主要包括逗号、空格、分号、星号等分割符。
    • parquet:列式存储格式 parquet。

输出

  • 输出数据路径:输出文件所在路径。
  • 输出数据格式:格式包括以下两种:
    • csv:csv 文件。
      • 输出数据包含 header 信息。
      • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符。
    • parquet:列式存储格式 parquet。

参数

  • 标签列:指定标签所在的列,从0开始计数。
  • 采样类别:需要采样的类别值(数量多的类别),如类别 0.0。
  • 目标类别:数量多的类别,如类别 1.0。
  • 类别比率阈值:如果(采样类别 / 目标类别)比类别比率阈值小,那么说明数据是平衡的,不做任何处理。如果(采样类别 / 目标类别)比类别比率阈值大,那么会对采样类别进行采样,采样率为 类别比率阈值 / (采样类别 / 目标类别)。

数据切分([2.0] Spliter)

算法说明

数据切分是另外一种常用的数据预处理算法。在机器学习建模过程中,通常需要训练数据集和验证数据集两类数据集。该方法将数据集按照一定的比例切分为训练数据集和验证数据集。

输入

  • 输出数据路径:输出文件所在路径。
  • 输出数据格式:格式包括以下两种:
    • csv:csv 文件。
      • 输出数据包含 header 信息。
      • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符。
    • parquet:列式存储格式 parquet。

输出

  • 第一部分输出结果:第一份数据的输出,如切分比例为0.7,该份结果占总数据的0.7。
  • 第二部分输出结果:第二份数据的输出,如切分比例为0.7,该份结果占总数据的0.3。
  • 输出数据格式:格式包括以下两种:
    • csv:csv 文件。
      • 输出数据包含 header 信息。
      • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符。
    • parquet:列式存储格式 parquet。

参数

切分比例:数据切分的比例。

数据去重([2.0] DropDuplicates)

算法说明

该算法用于将数据集中的重复样本进行去重处理。

输入

  • 输出数据路径:输出文件所在路径。
  • 输出数据格式:格式包括以下两种:
    • csv:csv 文件。
      • 输出数据包含 header 信息。
      • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符。
    • parquet:列式存储格式 parquet。

输出

  • 输出数据路径:输出文件所在路径。
  • 输出数据格式:格式包括以下两种:
    • csv:csv 文件。
      • 输出数据包含 header 信息。
      • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符。
    • parquet:列式存储格式 parquet。

自动生成 ID 列([2.0] GenerateIDColumn)

算法说明

该算法自动生成一列 ID 列,ID 列各行的数据各不相同。生成的 ID 列会放到输出数据的最后一列。

输入

  • 输出数据路径:输出文件所在路径。
    • 输出数据格式:格式包括以下两种:
    • csv:csv 文件。
      • 输出数据包含 header 信息。
      • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符。
    • parquet:列式存储格式 parquet。

输出

  • 输出数据格式:格式包括以下两种:
  • csv:csv 文件。
    • 输出数据包含 header 信息。
    • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符。
  • parquet:列式存储格式 parquet。

参数

生成的列名:ID 列的列名,默认是“ID”。

缺失值填充([2.0] ReplaceMissing)

算法说明

该算法对数据中某列数据存在的缺失值进行替换。

输入

  • 输出数据路径:输出文件所在路径。
    • 输出数据格式:格式包括以下两种:
    • csv:csv 文件。
      • 输出数据包含 header 信息。
      • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符。
    • parquet:列式存储格式 parquet。

输出

  • 输出数据格式:格式包括以下两种:
  • csv:csv 文件。
    • 输出数据包含 header 信息。
    • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符。
  • parquet:列式存储格式 parquet。

    参数

  • 特征列:处理的特征列序号,如0 - 1,从0开始计数。
  • 填充方法:
    • zero:填充0值。
    • minimum:填充最小值。
    • maximum:填充最大值。
    • average: 填充均值。
    • median: 填充中位数。
    • value:填充某一指定的固定值(主要针对字符串特征)。

修改列名([2.0] RenameColumn)

算法说明

该算法修改数据中某一列的列名。

输入

  • 输出数据路径:输出文件所在路径。
    • 输出数据格式:格式包括以下两种:
    • csv:csv 文件。
      • 输出数据包含 header 信息。
      • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符。
    • parquet:列式存储格式 parquet。

输出

  • 输出数据格式:格式包括以下两种:
  • csv:csv 文件。
    • 输出数据包含 header 信息。
    • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符。
  • parquet:列式存储格式 parquet。

参数

  • 选择列:选择修改列名的列,从0开始计数。
  • 列名:修改后的列名。

自动数据预处理([2.0] AutoDataProcess)

算法说明

该算法自动预处理数据。主要做如下自动处理:

  1. 去除重复样本。
  2. 删除缺失率高的列,删除列值相同的列。
  3. 数据规整化(大小写转换,去除两侧空格)。
  4. 填充缺失值。
  5. 处理异常值。

输入

  • 输出数据路径:输出文件所在路径。
    • 输出数据格式:格式包括以下两种:
    • csv:csv 文件。
      • 输出数据包含 header 信息。
      • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符。
    • parquet:列式存储格式 parquet。

输出

  • 输出数据格式:格式包括以下两种:
  • csv:csv 文件。
    • 输出数据包含 header 信息。
    • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符。
      • parquet:列式存储格式 parquet。

参数

  • 缺失值阈值:如果特征列的缺失值比例大于该阈值,特征列会被删除。
  • 是否删除异常值:决定异常值的处理方式,选择是,则删除异常值所在的行,否则用合适的值填充。

数据类型转换([2.0] DataTypeTransformer)

算法说明

该算法提供数据类型转换功能。

输入

  • 输出数据路径:输出文件所在路径。
    • 输出数据格式:格式包括以下两种:
    • csv:csv 文件。
      • 输出数据包含 header 信息。
      • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符。
    • parquet:列式存储格式 parquet。

输出

  • 输出数据格式:格式包括以下两种:
  • csv:csv 文件。
    • 输出数据包含 header 信息。
    • 输出数据分割符:主要包括逗号、空格、分号、星号等分割符。
      • parquet:列式存储格式 parquet。

参数

  • 选择列:选择修改列名的列,从0开始计数。
  • 目标数据类型:选择目标数据类型。