独家 | 数据转换：标准化vs 归一化（附代码&链接）

数据派THU

发布于 2020-05-26 14:24:14

1.2K0

发布于 2020-05-26 14:24:14

文章被收录于专栏：数据派THU

作者：Clare Liu, 英国金融科技数据科学家

翻译：林鹤冲

校对：王紫岳

本文约2300字，建议阅读10分钟

本文将解释数据转换中常见的特征缩放方法：“标准化”和“归一化”的不同之处，并举例说明何时使用，以及如何使用它们。

数据转换的前几步往往可以提升机器学习模型的准确性。本文将解释数据转换中常见的特征缩放方法：“标准化”和“归一化”的不同之处，并举例说明何时使用，以及如何使用它们。

数据转换是数据处理中十分基本的步骤之一。当我初学特征缩放的时候，经常用到“缩放” “标准化”“归一化”等术语。但是却很难找到应该在什么时候，使用哪一种方法的信息。所以，我想从以下几方面讲解一下：

标准化和归一化的区别
何时使用标准化和归一化
如何用Python实现特征缩放

特征缩放的意义

在实践中，同一个数据集合中经常包含不同类别的变量。一个很大的问题是这些变量的值域可能大不相同。如果使用原值域将会使得值域大的变量被赋予更多的权重。针对这个问题，我们需要在数据预处理时对自变量或特征使用缩放的方法。虽然，“归一化”和 “标准化”这两个说法有时候可以互换使用，但是二者本质上确是不同的。

“特征缩放的目的是使得所有特征都在相似的范围内，因此建模时每个特征都会变得同等重要，并且更便于机器学习的算法进行处理。”

范例

这个数据集包含一个因变量(purchased)以及三个自变量（Country, Age, Salary）。我们能很容易发现变量彼此不在同一个范围内——年龄（Age）的值域在27-50之间，工资（Salary）的区间则是48K-83K。工资的值域远远地超过了年龄的值域。这会干扰我们的训练模型，因为很多的机器学习模型诸如K均值聚类（K-means clustering）和近邻算法（Nearest neighbour classification）都依据了欧氏距离（Euclidean Distance）。

关注年龄和工资变量

当我们计算欧氏距离的时候，(x2-x1)² 的值要远大于(y2-y1)² ，这意味着在不使用特征缩放的情况下，欧氏距离会被工资变量主导。年龄间的差距对整体欧氏距离的影响则很小。因此，我们需要使用特征缩放来将全部的数值统一到一个量级上来解决此问题。为了达到这个目标，基本的解决方法有二：“标准化”和“归一化”。

欧氏距离的应用

标准化（Standardization）：中心标准化

中心标准化（Z-score normalization）的结果是使所有特征的数值被转化成为均值为0、标准差为1的正态分布。公式如下：

这种将特征的值域重新缩放到0到1之间的技巧对于优化算法是很有用的，诸如在回归和神经网问题中应用到的“梯度下降”。缩放也适用于基于距离测量的算法，比如K近邻算法（KNN）。

归一化：离差标准化 (Max-Min Normalization)

另一常用的方法就是离差标准化（Min-Max scaling）。这个方法是将每个特征数值转化到[0,1]区间。对于每个特征，最小值被转化为0，最大值被转化为1。公式如下：

Code

from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
scaler.fit(df)
scaled_features = scaler.transform(df)
#Convert to table format - MinMaxScaler
df_MinMax = pd.DataFrame(data=scaled_features, columns=["Age", "Salary","Purchased","Country_France","Country_Germany", "Country_spain"])

中心标准化 vs 离差标准化

相比于中心标准化，离差标准化后的标准差比较小。用上述数据集来展示：