ML工作流程（第5部分） - 特征预处理

花落花飞去

发布于 2017-12-25 16:13:14

8200

发布于 2017-12-25 16:13:14

文章被收录于专栏：人工智能

本译文自EROGOL 在http://www.erogol.com 发表的 ML Work-Flow (Part 5) – Feature Preprocessing，文中版权，图像代码的数据均归作者所有。为了本土化，本文略作修改。

我们已经讨论了ML工作流程的前四个步骤。到目前为止，我们通过DICTR（离散化，积分，清理，转换，还原）对原始数据进行预处理，然后采用特征提取的方式将数据转化为机器可理解的表示形式，最后将数据分割为训练和测试集等不同的串。现在是对特征值进行预处理的时候了，并且为ML艺术的发展做好了准备。

我们需要特征预处理以便：

消除尺寸之间的差异。
将实例传递到空间中的有界区域。
删除不同维度之间的相关性。

你可能会问：“为什么我们如此关心这些？”，因为：

减少比例差异减少了特定特征尺寸之间的单位差异。考虑你的顾客的年龄和身高。年龄缩放数年，高度缩放cm。因此，这两个维度值是以不同的方式分配的。我们需要解决这个问题，并在训练您的ML算法之前将数据转换为一个尺度不变的表示，特别是如果您使用Logistic回归或SVM（基于树的模型更有效地缩放差异）等线性模型。
将实例传递到空间中的有界区域可以解决实例之间的表示偏差。例如，如果您用文字袋表示法处理文档分类问题，那么您应该关心文档长度，因为较长的文档会包含更多的词，从而导致更多拥挤的特征柱状图。解决这个问题的合理方法之一是将每个词的频率除以文档中的总词频，以便我们可以将每个直方图的值转换为在文档中看到该词的概率。结果，文档被表示为其元素的总数为1的特征向量。这个新的空间在文献中被称为矢量空间模型。
删除维度之间的相关性将清除您的数据与多个维度显示的冗余信息。因此，数据投影到一个新的空间，每个维度解释了其他特征维度中独立重要的东西。

好吧，我希望现在清楚了为什么我们关心这些。今后，我将尝试在我们的工具包中强调一些基本功能，以进行特征预处理。

标准化

可以应用于特征维度或数据实例。
如果我们应用于维度，它减少了单位效应，如果我们应用于实例，那么我们就像文档分类问题一样解决实例偏差。
标准化的结果是每个特征维度（实例）被缩放到定义的均值和方差中，以便我们确定维度之间的单位差异。
[2.png]
：对于每个维度（实例），减去平均值并除以该维度（实例）的方差，使得每个维度保持在均值= 0，方差= 1的曲线内。

Min Max Scaling

就我个人而言，我并没有将Min-Max Scaling应用于实例，
单位差异问题仍然有用。
取代分布式考虑，它取决于0,1范围内的值。
[1.png]
：查找特征尺寸的最大值和最小值并应用公式。

注意事项1：缩放和标准化的一个常见问题是：你需要保留标准化的最小值、最大值、新的数据以及测试时间的标准化的平均值和方差值。我们仅从训练数据中估计这些值，并假设这些值对测试和现实世界数据仍然有效。这个假设对于小问题可能是正确的，但特别是对于在线环境来说，这样的处理是非常重要的。

Sigmoid函数

Sigmoid函数自然会将给定值提取到0，1范围内
不需要关于数据如均值和方差的任何假设
它比较小的价值惩罚大的价值。
您可以使用其他激活功能，如tanh。

注意事项2：如何选择和选择什么是非常依赖于问题的问题。然而，如果你有一个聚类问题，那么标准化似乎更适合实例之间的更好的相似度测量，如果你打算使用神经网络，那么一些特定类型的NN需求0,1缩放数据（或更有趣的尺度范围更好在NN模型上的梯度传播）。另外，我个人使用sigmoid函数来解决简单的问题，以便在没有复杂调查的情况下通过SVM获得快速结果。

零相组分分析（ZCA美白）