首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

数据规范化

数据规范化

  若我看倦了风景,走累了路。你是否,愿意变成酒色的石头,让我把余生靠一靠。

数据规范化:一种是针对数据库的介绍,另一种是对数据而言,数据的规范化包括归一化、标准化、正则化。

正则化:在训练数据不够多时,或者overtraining时,常常会导致过拟合。正则化的目的:提高模型的泛化能力。

正则化的方法:

   (1)L1正则化

   (2)L2正则化(权重衰减)

   (3)dropout

   (4)人为扩充数据

标准化

  数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。其中最典型的就是数据的归一化处理,即将数据统一映射到[0,1]区间上。

最小-最大规范化(线性变换)

z-score规范化(零-均值规范化)

优点:当X的最大值和最小值未知,或孤立点左右最大-最小规范化时,该方法有用

小数定标规范化通过移动X的小数未知来进行规范化

对数Logistic模式

归一化

归一化的目标是:把数变为[0,1]之间的小数:把数据映射到0~1范围之内处理,更加便捷快速,应该归到数字信号处理范畴之内。把有量纲表达式变为无量纲表达式:归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为纯量。

线性转换

对数函数转换

反余切函数转换

归一化的好处:

(1)提升模型的收敛速度

  如下图,x1的取值为0-2000,而x2的取值为1-5,假如只有这两个特征,对其进行优化时,会得到一个窄长的椭圆形,导致在梯度下降时,梯度的方向为垂直等高线的方向而走之字形路线,这样会使迭代很慢,相比之下,右图的迭代就会很快(理解:也就是步长走多走少方向总是对的,不会走偏)

(2)提升模型的精度

  归一化的另一好处是提高精度,这在涉及到一些距离计算的算法时效果显著,比如算法要计算欧氏距离,比如算法要计算欧氏距离,上图中x2的取值范围比较小,涉及到距离计算时其对结果的影响远比x1带来的小,所以这就会造成精度的损失。所以归一化很有必要,他可以让各个特征对结果做出的贡献相同。

  在多指标评价体系中,由于各评价指标的性质不同,通常具有不同的量纲和数量级。当各指标间的水平相差很大时,如果直接用原始指标值进行分析,就会突出数值较高的指标在综合分析中的作用,相对削弱数值水平较低指标的作用。因此,为了保证结果的可靠性,需要对原始指标数据进行标准化处理。

(3)深度学习中数据归一化可以防止模型梯度爆炸。

总的来说,归一化是为了消除不同数据之间的量纲,方便数据比较和共同处理,比如在神经网络中,归一化可以加快训练网络的收敛性;标准化是为了方便数据的下一步处理,而进行的数据缩放等变换,并不是为了方便与其他数据一同处理或比较,比如数据经过零-均值标准化后,更利于使用标准正态分布的性质,进行处理;正则化而是利用先验知识,在处理过程中引入正则化因子(regulator),增加引导约束的作用,比如在逻辑回归中使用正则化,可有效降低过拟合的现象。

有哪些需要归一化?

需要归一化的模型:

  有些模型在各个维度进行不均匀伸缩后,最优解与原来不等价,例如SVM(距离分界面远的也拉近了,支持向量变多?)。对于这样的模型,除非本来各维数据的分布范围就比较接近,否则必须进行标准化,以免模型参数被分布范围较大或较小的数据主宰。

  有些模型在各个维度进行不均匀伸缩后,最优解与原来等价,例如logistic regression(因为θ的大小本来就自学习出不同的feature的重要性吧?)。对于这样的模型,是否标准化理论上不会改变最优解。但是,由于实际求解往往使用迭代算法,如果目标函数的形状太“扁”,迭代算法可能收敛得很慢甚至不收敛。所以对于具有伸缩不变性的模型,最好也进行数据标准化。

不需要归一化的模型:

  ICA好像不需要归一化(因为独立成分如果归一化了就不独立了?)。

  基于平方损失的最小二乘法OLS不需要归一化。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180716G1WY6300?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券