ML工作流程(第5部分) - 特征预处理

本译文自EROGOLhttp://www.erogol.com 发表的 ML Work-Flow (Part 5) – Feature Preprocessing,文中版权,图像代码的数据均归作者所有。为了本土化,本文略作修改。

我们已经讨论了ML工作流程的前四个步骤。到目前为止,我们通过DICTR(离散化,积分,清理,转换,还原)对原始数据进行预处理,然后采用特征提取的方式将数据转化为机器可理解的表示形式,最后将数据分割为训练和测试集等不同的串。现在是对特征值进行预处理的时候了,并且为ML艺术的发展做好了准备。

我们需要特征预处理以便:

  1. 消除尺寸之间的差异
  2. 将实例传递到空间中的有界区域
  3. 删除不同维度之间的相关性

你可能会问:“为什么我们如此关心这些?”,因为:

  1. 减少比例差异减少了特定特征尺寸之间的单位差异。考虑你的顾客的年龄和身高。年龄缩放数年,高度缩放cm。因此,这两个维度值是以不同的方式分配的。我们需要解决这个问题,并在训练您的ML算法之前将数据转换为一个尺度不变的表示,特别是如果您使用Logistic回归或SVM(基于树的模型更有效地缩放差异)等线性模型。
  2. 将实例传递到空间中的有界区域可以解决实例之间的表示偏差。例如,如果您用文字袋表示法处理文档分类问题,那么您应该关心文档长度,因为较长的文档会包含更多的词,从而导致更多拥挤的特征柱状图。解决这个问题的合理方法之一是将每个词的频率除以文档中的总词频,以便我们可以将每个直方图的值转换为在文档中看到该词的概率。结果,文档被表示为其元素的总数为1的特征向量。这个新的空间在文献中被称为矢量空间模型。
  3. 删除维度之间的相关性将清除您的数据与多个维度显示的冗余信息。因此,数据投影到一个新的空间,每个维度解释了其他特征维度中独立重要的东西。

好吧,我希望现在清楚了为什么我们关心这些。今后,我将尝试在我们的工具包中强调一些基本功能,以进行特征预处理。

标准化

  • 可以应用于特征维度或数据实例。
  • 如果我们应用于维度,它减少了单位效应,如果我们应用于实例,那么我们就像文档分类问题一样解决实例偏差。
  • 标准化的结果是每个特征维度(实例)被缩放到定义的均值和方差中,以便我们确定维度之间的单位差异。
  • :对于每个维度(实例),减去平均值并除以该维度(实例)的方差,使得每个维度保持在均值= 0,方差= 1的曲线内。

Min Max Scaling

  • 就我个人而言,我并没有将Min-Max Scaling应用于实例,
  • 单位差异问题仍然有用。
  • 取代分布式考虑,它取决于0,1范围内的值。
  • :查找特征尺寸的最大值和最小值并应用公式。

注意事项1:缩放和标准化的一个常见问题是:你需要保留标准化的最小值、最大值、新的数据以及测试时间的标准化的平均值和方差值。我们仅从训练数据中估计这些值,并假设这些值对测试和现实世界数据仍然有效。这个假设对于小问题可能是正确的,但特别是对于在线环境来说,这样的处理是非常重要的。

Sigmoid函数

  • Sigmoid函数自然会将给定值提取到0,1范围内
  • 不需要关于数据如均值和方差的任何假设
  • 它比较小的价值惩罚大的价值。
  • 您可以使用其他激活功能,如tanh。
Sigmoid函数

注意事项2:如何选择和选择什么是非常依赖于问题的问题。然而,如果你有一个聚类问题,那么标准化似乎更适合实例之间的更好的相似度测量,如果你打算使用神经网络,那么一些特定类型的NN需求0,1缩放数据(或更有趣的尺度范围更好在NN模型上的梯度传播)。另外,我个人使用sigmoid函数来解决简单的问题,以便在没有复杂调查的情况下通过SVM获得快速结果。

零相组分分析(ZCA美白)

  • 正如我之前所解释的那样,白化是通过用最终的对角相关矩阵解相关数据来减少冗余信息的过程,优选的所有对角线都是1。
  • 在图像识别和特征学习中有着特别重要的意义,从而使图像的视觉线索更为具体。
  • 公式与代码结合会更加的直观。
  • 蒙特利尔集团的一个很好的导师
  • 由dolaameng 提供的笔记本

我试图触及一些特征预处理的方法和常见问题,但并不完整。尽管如此,还是有收获到一点东西; 在进入训练阶段之前不要忽略规范化的特征值,并通过仔细研究这些值来选择正确的方法。

PS:我实际上答应每周写一篇文章,但现在我像蜜蜂一样忙碌,我几乎没有时间写一些新东西。对此感到非常抱歉。

原文链接:http://www.erogol.com/ml-work-flow-part-5-feature-processing/

原文作者:EROGOL

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏深度学习与计算机视觉

学习SVM(四) 理解SVM中的支持向量(Support Vector)

学习SVM(一) SVM模型训练与分类的OpenCV实现 学习SVM(二) 如何理解支持向量机的最大分类间隔 学习SVM(三)理解SVM中的对偶问题 ...

2068
来自专栏AI科技大本营的专栏

如何用Python处理分类和回归问题?附方法和代码

编译 | AI科技大本营 参与 | 王柯凝 编辑 | 明明 【AI科技大本营导读】继马斯克的重型火箭猎鹰火箭(Falcon Heavy)发射成功后,营长的朋友...

3265
来自专栏人工智能LeadAI

梯度下降法快速教程 | 第三章:学习率衰减因子(decay)的原理与Python实现

前言 梯度下降法(Gradient Descent)是机器学习中最常用的优化方法之一,常用来求解目标函数的极值。 其基本原理非常简单:沿着目标函数梯度下降的方向...

3535
来自专栏大数据挖掘DT机器学习

用R语言做钻石价格预测

作者:夏尔康 https://ask.hellobi.com/blog/xiaerkang/4424 1.1问题描述和目标 因为钻石的价格定价取决于重量...

3354
来自专栏绿巨人专栏

机器学习实战 - 读书笔记(05) - Logistic回归

4099
来自专栏量化投资与机器学习

【Python机器学习】系列五决策树非线性回归与分类(深度详细附源码)

查看之前文章请点击右上角,关注并且查看历史消息 所有文章全部分类和整理,让您更方便查找阅读。请在页面菜单里查找。 相关内容:(点击标题可查看原文) 第1章 机...

3156
来自专栏机器学习算法全栈工程师

《机器学习》笔记-概率图模型(14)

如今机器学习和深度学习如此火热,相信很多像我一样的普通程序猿或者还在大学校园中的同学,一定也想参与其中。不管是出于好奇,还是自身充电,跟上潮流,我觉得都值得试...

853
来自专栏ATYUN订阅号

Python机器学习的练习三:逻辑回归

在这篇文章中,我们将把我们的目标从预测连续值(回归)变成分类两个或更多的离散的储存器(分类),并将其应用到学生入学问题上。假设你是一个大学的管理人员,你想要根据...

4314
来自专栏大数据挖掘DT机器学习

R语言与机器学习(分类算法)神经网络

人工神经网络(ANN),简称神经网络,是一种模仿生物神经网络的结构和功能的数学模型或计算模型。神经网络由大量的人工神经元联结进行计算。大多数情况下人工神经网络...

4565
来自专栏AI研习社

数值计算——「Deep Learning」读书系列分享第四章分享总结

「Deep Learning」这本书是机器学习领域的重磅书籍,三位作者分别是机器学习界名人、GAN 的提出者、谷歌大脑研究科学家 Ian Goodfellow,...

35112

扫码关注云+社区