前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >专题一:预处理数据(使用sklearn-preprocessing)

专题一:预处理数据(使用sklearn-preprocessing)

作者头像
K同学啊
发布2020-08-10 11:11:20
9690
发布2020-08-10 11:11:20
举报

环境:Python3.6.5 编译器:jupyter notebook

注:这篇文章会不断更新…


1. 标准化

数据集的标准化(Standardization)scikit-learn中实现的大多数机器学习算法来说是常见的要求 。如果个别特征或多或少看起来不是很像标准正态分布(具有零均值和单位方差),那么这些机器学习算法的表现可能会比较差。

在机器学习算法的目标函数(例如SVM的RBF内核或线性模型的l1和l2正则化) 中有很多地方都假定了所有特征都是以0为中心而且它们的方差也具有相同的阶数。 如果某个特征的方差比其他特征大几个数量级,那么它就会在学习算法的目标函数中占据主导位置, 导致学习器并不能像我们所期望的那样,从其他特征中学习。

函数scale提供了一个快速简单的方法来在单个array-like数据集上执行上述标准化操作

代码语言:javascript
复制
from sklearn import preprocessing
import numpy as np
#创建一组特征数据,每一行表示一个样本,每一列表示一个特征
X_train = np.array([[ 1., -1.,  2.],
                    [ 2.,  0.,  0.],
                    [ 0.,  1., -1.]])
#将每一列特征标准化为标准正太分布,注意,标准化是针对每一列而言的
X_scaled = preprocessing.scale(X_train)
X_scaled
"""
输出:
array([[ 0.        , -1.22474487,  1.33630621],
       [ 1.22474487,  0.        , -0.26726124],
       [-1.22474487,  1.22474487, -1.06904497]])
"""

被缩放的数据具有零均值和单位方差:

代码语言:javascript
复制
X_scaled.mean(axis=0)
"""
输出:array([0., 0., 0.])
"""
代码语言:javascript
复制
X_scaled.std(axis=0)
"""
输出:array([1., 1., 1.])
"""

preprocessing模块还提供了一个工具类StandardScaler,它实现了Transformer的API来计算训练集上的平均值标准偏差,以便以后能够在测试集上重新应用相同的变换。

代码语言:javascript
复制
scaler = preprocessing.StandardScaler().fit(X_train)
#将每一列特征标准化为标准正太分布,注意,标准化是针对每一列而言的
scaler.transform(X_train)
"""
输出:
array([[ 0.  ..., -1.22...,  1.33...],
       [ 1.22...,  0.  ..., -0.26...],
       [-1.22...,  1.22..., -1.06...]])
"""

(本文参考官网文档)

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2020-08-09 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. 标准化
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档