本译文自EROGOL 在http://www.erogol.com 发表的 ML Work-Flow (Part 5) – Feature Preprocessing,文中版权,图像代码的数据均归作者所有。为了本土化,本文略作修改。
我们已经讨论了ML工作流程的前四个步骤。到目前为止,我们通过DICTR(离散化,积分,清理,转换,还原)对原始数据进行预处理,然后采用特征提取的方式将数据转化为机器可理解的表示形式,最后将数据分割为训练和测试集等不同的串。现在是对特征值进行预处理的时候了,并且为ML艺术的发展做好了准备。
我们需要特征预处理以便:
你可能会问:“为什么我们如此关心这些?”,因为:
好吧,我希望现在清楚了为什么我们关心这些。今后,我将尝试在我们的工具包中强调一些基本功能,以进行特征预处理。
标准化
Min Max Scaling
注意事项1:缩放和标准化的一个常见问题是:你需要保留标准化的最小值、最大值、新的数据以及测试时间的标准化的平均值和方差值。我们仅从训练数据中估计这些值,并假设这些值对测试和现实世界数据仍然有效。这个假设对于小问题可能是正确的,但特别是对于在线环境来说,这样的处理是非常重要的。
Sigmoid函数
注意事项2:如何选择和选择什么是非常依赖于问题的问题。然而,如果你有一个聚类问题,那么标准化似乎更适合实例之间的更好的相似度测量,如果你打算使用神经网络,那么一些特定类型的NN需求0,1缩放数据(或更有趣的尺度范围更好在NN模型上的梯度传播)。另外,我个人使用sigmoid函数来解决简单的问题,以便在没有复杂调查的情况下通过SVM获得快速结果。
零相组分分析(ZCA美白)
我试图触及一些特征预处理的方法和常见问题,但并不完整。尽管如此,还是有收获到一点东西; 在进入训练阶段之前不要忽略规范化的特征值,并通过仔细研究这些值来选择正确的方法。
PS:我实际上答应每周写一篇文章,但现在我像蜜蜂一样忙碌,我几乎没有时间写一些新东西。对此感到非常抱歉。
本文系外文翻译,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文系外文翻译,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。