专栏首页明天依旧可好的专栏专题一:预处理数据(使用sklearn-preprocessing)

专题一:预处理数据(使用sklearn-preprocessing)

环境:Python3.6.5 编译器:jupyter notebook

注:这篇文章会不断更新…


1. 标准化

数据集的标准化(Standardization)scikit-learn中实现的大多数机器学习算法来说是常见的要求 。如果个别特征或多或少看起来不是很像标准正态分布(具有零均值和单位方差),那么这些机器学习算法的表现可能会比较差。

在机器学习算法的目标函数(例如SVM的RBF内核或线性模型的l1和l2正则化) 中有很多地方都假定了所有特征都是以0为中心而且它们的方差也具有相同的阶数。 如果某个特征的方差比其他特征大几个数量级,那么它就会在学习算法的目标函数中占据主导位置, 导致学习器并不能像我们所期望的那样,从其他特征中学习。

函数scale提供了一个快速简单的方法来在单个array-like数据集上执行上述标准化操作

from sklearn import preprocessing
import numpy as np
#创建一组特征数据,每一行表示一个样本,每一列表示一个特征
X_train = np.array([[ 1., -1.,  2.],
                    [ 2.,  0.,  0.],
                    [ 0.,  1., -1.]])
#将每一列特征标准化为标准正太分布,注意,标准化是针对每一列而言的
X_scaled = preprocessing.scale(X_train)
X_scaled
"""
输出:
array([[ 0.        , -1.22474487,  1.33630621],
       [ 1.22474487,  0.        , -0.26726124],
       [-1.22474487,  1.22474487, -1.06904497]])
"""

被缩放的数据具有零均值和单位方差:

X_scaled.mean(axis=0)
"""
输出:array([0., 0., 0.])
"""
X_scaled.std(axis=0)
"""
输出:array([1., 1., 1.])
"""

preprocessing模块还提供了一个工具类StandardScaler,它实现了Transformer的API来计算训练集上的平均值标准偏差,以便以后能够在测试集上重新应用相同的变换。

scaler = preprocessing.StandardScaler().fit(X_train)
#将每一列特征标准化为标准正太分布,注意,标准化是针对每一列而言的
scaler.transform(X_train)
"""
输出:
array([[ 0.  ..., -1.22...,  1.33...],
       [ 1.22...,  0.  ..., -0.26...],
       [-1.22...,  1.22..., -1.06...]])
"""

(本文参考官网文档)

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 机器学习第3天:多元线性回归

    简单线性回归:影响Y的因素唯一,只有一个。 多元线性回归:影响Y的因数不唯一,有多个。

    明天依旧可好
  • LeetCode题组:第169题-多数元素

    给定一个大小为 n 的数组,找到其中的多数元素。多数元素是指在数组中出现次数大于 ⌊ n/2 ⌋ 的元素。你可以假设数组是非空的,并且给定的数组总是存在多数元素...

    明天依旧可好
  • git学习记录

    注释:用-r参数删除目录, git rm --cached a.txt 删除的是本地仓库中的文件,且本地工作区的文件会保留且不再与远程仓库发生跟踪关系,如果本地...

    明天依旧可好
  • sklearn-preprocessing使用

    将数据按期属性(按列进行)减去其均值,并处以其方差。得到的结果是,对于每个属性/每列来说所有数据都聚集在0附近,方差为1。

    周小董
  • 利用scikit-learn进行机器学习:特征工程(一)数据预处理

    对于机器学习,业内早有这样的说法:“数据和特征决定了你机器学习模型效果的上限,而模型和算法只是逐渐逼近这个上限而已。”小编不才,在机器学习方面只尝试过一些简单的...

    企鹅号小编
  • 机器学习第3天:多元线性回归

    简单线性回归:影响Y的因素唯一,只有一个。 多元线性回归:影响Y的因数不唯一,有多个。

    明天依旧可好
  • 数据科学工作流程

    [导读]我们做出数据产品的过程一般是比较规范化的,通常称这个过程为:方法论、产品生命周期或者工作流程。当然数据科学的工作也有很多选择,就像没有一套通用的开发软件...

    陆勤_数据人网
  • 类型提升

    当容量小的的数据类型的变量与容量大的数据类型做运算时,结果自动提升为容量大的数据。

    DataScience
  • 研究团队利用“两面镜子”创造出负质量粒子,未来可用于构建低功耗激光器 | 黑科技

    镁客网
  • Nginx性能提升 - open_file_cache指令

    今天我们使用 open_file_cache 指令来尝试提高我们的nginx服务性能

    用户2825413

扫码关注云+社区

领取腾讯云代金券