数据预处理 | 机器学习之特征工程

作者:苏小保(jacksu) 华为工程师 擅长分布式系统、大数据、机器学习。github地址:https://github.com/jacksu

通过特征提取,我们能得到未经处理的特征,这时的特征可能有以下问题:

不属于同一量纲:即特征的规格不一样,不能够放在一起比较。无量纲化可以解决这一问题。

信息冗余:对于某些定量特征,其包含的有效信息为区间划分,例如学习成绩,假若只关心“及格”或不“及格”,那么需要将定量的考分,转换成“1”和“0”表示及格和未及格。二值化可以解决这一问题。

定性特征不能直接使用:某些机器学习算法和模型只能接受定量特征的输入,那么需要将定性特征转换为定量特征。最简单的方式是为每一种定性值指定一个定量值,但是这种方式过于灵活,增加了调参的工作。通常使用哑编码的方式将定性特征转换为定量特征**(https://stats.idre.ucla.edu/):假设有N种定性值,则将这一个特征扩展为N种特征,当原始特征值为第i种定性值时,第i个扩展特征赋值为1,其他扩展特征赋值为0。哑编码的方式相比直接指定的方式,不用增加调参的工作,对于线性模型来说,使用哑编码后的特征可达到非线性的效果。

存在缺失值:因为各种各样的原因,真实世界中的许多数据集都包含缺失数据,这类数据经常被编码成空格、NaNs,或其他占位符。

信息利用率低:不同的机器学习算法和模型对数据中信息的利用是不同的,之前提到在线性模型中,使用对定性特征哑编码可以达到非线性的效果。类似地,对定量变量多项式化,或者进行其他的转换,都能达到非线性的效果。

无量钢化

1

标准化

数据的标准化是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。

公式为:(X-mean)/std 计算时对每个属性/每列分别进行。

将数据按属性(按列进行)减去其均值,并除以其方差。得到结果是,对于每个属性(每列)来说所有数据都聚集在0附近,方差为1。

from sklearn.datasets import load_irisimport numpy as np  X = np.array([[ 1., -1.,  2.],               [ 2.,  0.,  0.],               [ 0.,  1., -1.]])from sklearn import preprocessing X_scaled = preprocessing.scale(X) print(X_scaled) print(X_scaled.mean(axis=0)) print(X_scaled.std(axis=0))
out
[[ 0.         -1.22474487  1.33630621]  [ 1.22474487  0.         -0.26726124]  [-1.22474487  1.22474487 -1.06904497]] [ 0.  0.  0.] [ 1.  1.  1.]

sklearn 还提供了StandardScaler类,使用该类的好处在于可以保存训练集中的参数(均值、方差)直接使用其对象转换测试集数据。

scaler = preprocessing.StandardScaler().fit(X) print(scaler) print(scaler.mean_)                                      print(scaler.scale_)                                      print(scaler.transform(X)) scaler.transform([[-1.,  1., 0.]])
out
StandardScaler(copy=True, with_mean=True, with_std=True) [ 1.          0.          0.33333333] [ 0.81649658  0.81649658  1.24721913] [[ 0.         -1.22474487  1.33630621]  [ 1.22474487  0.         -0.26726124]  [-1.22474487  1.22474487 -1.06904497]] Out[9]: array([[-2.44948974,  1.22474487, -0.26726124]]) 

区间缩放

另一种常用的方法是将属性缩放到一个指定的最大和最小值(通常是1-0)之间,这可以通过preprocessing.MinMaxScaler类实现。

使用这种方法的目的包括:

1、对于方差非常小的属性可以增强其稳定性。 2、维持稀疏矩阵中为0的条目。

X_train = np.array([[ 1., -1.,  2.],                     [ 2.,  0.,  0.],                     [ 0.,  1., -1.]]) min_max_scaler = preprocessing.MinMaxScaler() X_train_minmax = min_max_scaler.fit_transform(X_train) print(X_train_minmax) 
out
[[ 0.5         0.          1.        ]  [ 1.          0.5         0.33333333]  [ 0.          1.          0.        ]]

归一化

归一化是依照特征矩阵的行处理数据,其目的在于样本向量在点乘运算或其他核函数计算相似性时,拥有统一的标准,也就是说都转化为“单位向量”。规则为l2的归一化公式如下:

该方法主要应用于文本分类和聚类中。例如,对于两个TF-IDF向量的l2-norm进行点积,就可以得到这两个向量的余弦相似性。

X_normalized = preprocessing.normalize(X_train, norm='l2') print(X_normalized) normalizer = preprocessing.Normalizer().fit(X_train) normalizer.transform(X_train)
out
[[ 0.40824829 -0.40824829  0.81649658]  [ 1.          0.          0.        ]  [ 0.          0.70710678 -0.70710678]] Out[16]: array([[ 0.40824829, -0.40824829,  0.81649658],        [ 1.        ,  0.        ,  0.        ],        [ 0.        ,  0.70710678, -0.70710678]])

后面接着介绍数据预处理

参考

1、关于使用sklearn进行数据预处理 —— 归一化/标准化/正则化(http://www.cnblogs.com/chaosimple/p/4153167.html)

2、统计数据归一化与标准化(http://blog.csdn.net/mpbchina/article/details/7573519)

3、标准化和归一化什么区别?(https://www.zhihu.com/question/20467170)

4、特征工程到底是什么?(https://www.zhihu.com/question/29316149)

5、sklearn preprocess(http://sklearn.lzjqsdd.com/modules/preprocessing.html)

原文发布于微信公众号 - 人工智能LeadAI(atleadai)

原文发表时间:2017-11-02

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量化投资与机器学习

【独家】周志华教授gcForest(多粒度级联森林)算法预测股指期货涨跌

公众号特约编辑 / 一心想错 / 独家 gcForest Algorithm 对于周志华教授的文章,网上已经有人做出很详细的解释啦。我们对论文进行简单描述之后,...

57980
来自专栏jeremy的技术点滴

tensorflow学习笔记_02

32240
来自专栏AILearning

【Scikit-Learn 中文文档】决策树 - 监督学习 - 用户指南 | ApacheCN

中文文档: http://sklearn.apachecn.org/cn/stable/modules/tree.html 官方文档: http://sci...

46950
来自专栏有趣的Python和你

sklearn调包侠之线性回归

如图所示,这是一组二维的数据,我们先想想如何通过一条直线较好的拟合这些散点了?直白的说:尽量让拟合的直线穿过这些散点(这些点离拟合直线很近)。

11310
来自专栏YoungGy

机器翻译之Facebook的CNN与Google的Attention

传统的seq2seq facebook的cnn 结构 特点 position embedding 卷积的引入 GLU控制信息的流动 attention goog...

41090
来自专栏marsggbo

论文笔记系列-Simple And Efficient Architecture Search For Neural Networks

本文提出了一种新方法,可以基于简单的爬山过程自动搜索性能良好的CNN架构,该算法运算符应用网络态射,然后通过余弦退火进行短期优化运行。

15110
来自专栏深度学习自然语言处理

TreeLSTM Sentiment Classification

昨天的周日讨论班讲的是TreeLSTM Sentiment Classification,主讲人:王铭涛 今天我来做一下总结。 下面的图片来自于 王铭涛的ppt...

490110
来自专栏技术与生活

深度学习之卷积

今日休假,把卷积神经网络梳理下。先从一些基本概念入手,什么是卷积?为什么叫这么个名字? 搜索了一遍,网上有很多人已经表述的非常好了,这里用自己理解的语言重述下。

11120
来自专栏技术专栏

Python3入门机器学习(五)-线性回归算法

线性回归算法以一个坐标系里一个维度为结果,其他维度为特征(如二维平面坐标系中横轴为特征,纵轴为结果),无数的训练集放在坐标系中,发现他们是围绕着一条执行分布。线...

53130
来自专栏人工智能LeadAI

零基础入门深度学习 | 第三章:神经网络和反向传播算法

无论即将到来的是大数据时代还是人工智能时代,亦或是传统行业使用人工智能在云上处理大数据的时代,作为一个有理想有追求的程序员,不懂深度学习这个超热的技术,会不会感...

512120

扫码关注云+社区

领取腾讯云代金券