数据预处理

最近更新时间:2019-08-22 20:44:31

在工程实践中,为了便于数据建模,我们需要对数据集中存在缺失、重复等问题进行预处理,同时需要将字符串转换为可以参与建模的数值形式。本文以常见的数据预处理方式为例,介绍它们的使用方式。

本文原始数据部分截图如下,观察数据,选择数据预处理方法。

针对原始数据存在的问题,选择【SelectColumn】选择特征列、【ReplaceMissing】缺失值填充、【StringIndexer】字符串索引以及【Spliter】数据切分等算子进行数据预处理。

注意:

以上算子可通过控制台左侧算子下方的搜索栏快速找到。

操作步骤

  1. 将上述全部算子拖动至画布中,并右键重命名,拼接如下实验。
  2. 单击【选择特征列】,在画布右侧设置区进行参数设置,输入所需要的相应特征列的序号,并以逗号隔开。
说明:

本步骤是为了选择有效列进行建模,去除例如“Ticket”等对建模无意义的数据列。

  1. 单击【缺失值填充】,在画布右侧设置区进行参数设置,选择特征列和相应的填充方式。
说明:

本步骤可以针对上一步的输出数据结果,对有缺失的数据列进行缺失值填充,此处可选择 Average 填充方式。

  1. 单击【字符串索引】,在初始的数据集中,需要将字符串转换为数值的形式,以用于后续的建模。
    在这里我们需要对数据中的“sex”和“embarked”列分别做字符串索引,点击相应算子,并在画布右侧的参数设置区中,选择相应的特征列。
说明:

本步骤是为了将字符串列转换为可以参与建模的数值形式,以便于后续建模。在本步骤中,做了字符串索引的数据列会移动到最后一列。

  1. 单击【数据切分】,在画布右侧的参数设置区中,输入切分比例0.8,80%作为模型训练集,20%作为模型测试集。
  2. 单击菜单栏中的【运行】,数据预处理成功运行。
注意:

由于本数据集存在 header,请在参数配置时,输入参数是否包含 header 信息/输入数据分隔符全部填写为:是/逗号,输出数据也保持一致。