ML工作流程(第5部分) - 特征预处理

本译文自EROGOLhttp://www.erogol.com 发表的 ML Work-Flow (Part 5) – Feature Preprocessing,文中版权,图像代码的数据均归作者所有。为了本土化,本文略作修改。

我们已经讨论了ML工作流程的前四个步骤。到目前为止,我们通过DICTR(离散化,积分,清理,转换,还原)对原始数据进行预处理,然后采用特征提取的方式将数据转化为机器可理解的表示形式,最后将数据分割为训练和测试集等不同的串。现在是对特征值进行预处理的时候了,并且为ML艺术的发展做好了准备。

我们需要特征预处理以便:

  1. 消除尺寸之间的差异
  2. 将实例传递到空间中的有界区域
  3. 删除不同维度之间的相关性

你可能会问:“为什么我们如此关心这些?”,因为:

  1. 减少比例差异减少了特定特征尺寸之间的单位差异。考虑你的顾客的年龄和身高。年龄缩放数年,高度缩放cm。因此,这两个维度值是以不同的方式分配的。我们需要解决这个问题,并在训练您的ML算法之前将数据转换为一个尺度不变的表示,特别是如果您使用Logistic回归或SVM(基于树的模型更有效地缩放差异)等线性模型。
  2. 将实例传递到空间中的有界区域可以解决实例之间的表示偏差。例如,如果您用文字袋表示法处理文档分类问题,那么您应该关心文档长度,因为较长的文档会包含更多的词,从而导致更多拥挤的特征柱状图。解决这个问题的合理方法之一是将每个词的频率除以文档中的总词频,以便我们可以将每个直方图的值转换为在文档中看到该词的概率。结果,文档被表示为其元素的总数为1的特征向量。这个新的空间在文献中被称为矢量空间模型。
  3. 删除维度之间的相关性将清除您的数据与多个维度显示的冗余信息。因此,数据投影到一个新的空间,每个维度解释了其他特征维度中独立重要的东西。

好吧,我希望现在清楚了为什么我们关心这些。今后,我将尝试在我们的工具包中强调一些基本功能,以进行特征预处理。

标准化

  • 可以应用于特征维度或数据实例。
  • 如果我们应用于维度,它减少了单位效应,如果我们应用于实例,那么我们就像文档分类问题一样解决实例偏差。
  • 标准化的结果是每个特征维度(实例)被缩放到定义的均值和方差中,以便我们确定维度之间的单位差异。
  • :对于每个维度(实例),减去平均值并除以该维度(实例)的方差,使得每个维度保持在均值= 0,方差= 1的曲线内。

Min Max Scaling

  • 就我个人而言,我并没有将Min-Max Scaling应用于实例,
  • 单位差异问题仍然有用。
  • 取代分布式考虑,它取决于0,1范围内的值。
  • :查找特征尺寸的最大值和最小值并应用公式。

注意事项1:缩放和标准化的一个常见问题是:你需要保留标准化的最小值、最大值、新的数据以及测试时间的标准化的平均值和方差值。我们仅从训练数据中估计这些值,并假设这些值对测试和现实世界数据仍然有效。这个假设对于小问题可能是正确的,但特别是对于在线环境来说,这样的处理是非常重要的。

Sigmoid函数

  • Sigmoid函数自然会将给定值提取到0,1范围内
  • 不需要关于数据如均值和方差的任何假设
  • 它比较小的价值惩罚大的价值。
  • 您可以使用其他激活功能,如tanh。
Sigmoid函数

注意事项2:如何选择和选择什么是非常依赖于问题的问题。然而,如果你有一个聚类问题,那么标准化似乎更适合实例之间的更好的相似度测量,如果你打算使用神经网络,那么一些特定类型的NN需求0,1缩放数据(或更有趣的尺度范围更好在NN模型上的梯度传播)。另外,我个人使用sigmoid函数来解决简单的问题,以便在没有复杂调查的情况下通过SVM获得快速结果。

零相组分分析(ZCA美白)

  • 正如我之前所解释的那样,白化是通过用最终的对角相关矩阵解相关数据来减少冗余信息的过程,优选的所有对角线都是1。
  • 在图像识别和特征学习中有着特别重要的意义,从而使图像的视觉线索更为具体。
  • 公式与代码结合会更加的直观。
  • 蒙特利尔集团的一个很好的导师
  • 由dolaameng 提供的笔记本

我试图触及一些特征预处理的方法和常见问题,但并不完整。尽管如此,还是有收获到一点东西; 在进入训练阶段之前不要忽略规范化的特征值,并通过仔细研究这些值来选择正确的方法。

PS:我实际上答应每周写一篇文章,但现在我像蜜蜂一样忙碌,我几乎没有时间写一些新东西。对此感到非常抱歉。

原文链接:http://www.erogol.com/ml-work-flow-part-5-feature-processing/

原文作者:EROGOL

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

卷积神经网络(CNN)新手指南

引言 卷积神经网络:听起来像是生物与数学还有少量计算机科学的奇怪结合,但是这些网络在计算机视觉领域已经造就了一些最有影响力的创新。2012年神经网络开始崭露头角...

3094
来自专栏机器之心

综述论文:当前深度神经网络模型压缩和加速方法速览

2667
来自专栏计算机视觉战队

尺度不变人脸检测器(S3FD-Single Shot Scale-invariant Face Detector)

今天讲尺度不变人脸检测前之前,我想讲解下一位热心研究者的问题,可以简单讲解下,希望也可以帮助其他读者,谢谢! ? ? 这样的人脸尺度怎么去实现的,其实很简单,如...

3804
来自专栏瓜大三哥

Face Recognition via Deep Embedding(0.9977):baidu

作者提出了一种两部学习方法,结合mutil-patch deep CNN和deep metric learning,实现脸部特征提取和识别。通过1.2milli...

2538
来自专栏数据科学与人工智能

【数据】数据科学面试问题集二

您应该意识到时间序列不是随机分布数据这一事实,它本质上是按照时间顺序排序的,因而不使用K-折交叉验证。

1170
来自专栏ATYUN订阅号

为什么我们一定要用随机权重初始化神经网络

必须将人工神经网络的权重初始化为小的随机数。这是因为这是用于训练模型的随机优化算法的期望,即随机梯度下降。

603
来自专栏AI研习社

用python 6步搞定从照片到名画,你学你也可以(附视频)

近年来,机器学习的进步使我们仅用几行代码就能生成惊为天人的艺术作品。如果可以将艺术作品的原型设计速度提高100倍,让用户真正地与创作媒介合为一体,效果会怎么样呢...

3305
来自专栏WD学习记录

机器学习 学习笔记(20)深度前馈网络

深度前馈网络(deep feedforward network),也叫做前馈神经网络(feedforward neural network)或者多层感知机(mu...

833
来自专栏数据派THU

计算机视觉怎么给图像分类?KNN、SVM、BP神经网络、CNN、迁移学习供你选(附开源代码)

原文:Medium 作者:Shiyu Mou 来源:机器人圈 本文长度为4600字,建议阅读6分钟 本文为你介绍图像分类的5种技术,总结并归纳算法、实现方式,并...

37010
来自专栏磐创AI技术团队的专栏

解决机器学习问题的一般流程

本期将针对机器学习的新朋友,为大家讲解解决机器学习问题的一般思路: 很多博客、教程中都对机器学习、深度学习的具体方法有很详细的讲解,但却很少有人对机器学习问题的...

2756

扫码关注云+社区