机器学习之特征工程(一)

在数据预处理之前,先来了解下特征工程,特征工程指的是在原始数据之中提取,构造,选择数据特征的过程。有句话是:“数据和特征工程决定了你能到达的上限,机器学习模型决定了你能多么逼近这个上限”。特征工程是数据分析过程中最重要的一步,当然也很能简单的理解,毕竟特征工程是建模步骤的基础和准备。content1特征选择  1.1 Filter    1.1.1 方差选择法    1.1.2 相关系数法    1.1.3 卡方检验    1.1.4 互信息法  1.2 Wrapper    1.2.1 递归特征消除法  1.3 Embedded    1.3.1 基于惩罚项的特征选择法    1.3.2 基于树模型的特征选择法1 特征选择当数据预处理完成后,我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说,从两个方面考虑来选择特征:

特征是否发散:如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本上没有差异,这个特征对于样本的区分并没有什么用。特征与目标的相关性:这点比较显见,与目标相关性高的特征,应当优选选择。除方差法外,本文介绍的其他方法均从相关性考虑。

根据特征选择的形式又可以将特征选择方法分为3种:

Filter:过滤法,按照发散性或者相关性对各个特征进行评分,设定阈值或者待选择阈值的个数,选择特征。Wrapper:包装法,根据目标函数(通常是预测效果评分),每次选择若干特征,或者排除若干特征。Embedded:嵌入法,先使用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据系数从大到小选择特征。类似于Filter方法,但是是通过训练来确定特征的优劣。

我们使用sklearn中的feature_selection库来进行特征选择。1.1 Filter1.1.1 方差选择法使用方差选择法,先要计算各个特征的方差,然后根据阈值,选择方差大于阈值的特征。使用feature_selection库的VarianceThreshold类来选择特征的代码如下:

fromsklearn.feature_selectionimportVarianceThreshold

#方差选择法,返回值为特征选择后的数据

#参数threshold为方差的阈值

VarianceThreshold(threshold=3).fit_transform(iris.data)

单变量特征选择的原理是分别单独的计算每个变量的某个统计指标,根据该指标来判断哪些指标重要,剔除那些不重要的指标。对于分类问题(y离散),可采用:卡方检验,f_classif, *mutual_info_classif,互信息对于回归问题(y连续),可采用:皮尔森相关系数,f_regression, *mutual_info_regression,最大信息系数

1.1.2 相关系数法使用相关系数法,先要计算各个特征对目标值的相关系数以及相关系数的P值。Pearson相关系数的一个明显缺陷是,作为特征排序机制,他只对线性关系敏感。如果关系是非线性的,即便两个变量具有一一对应的关系,Pearson相关性也可能会接近0。用feature_selection库的SelectKBest类结合相关系数来选择特征的代码如下:

fromsklearn.feature_selectionimportSelectKBest

fromscipy.statsimportpearsonr

#选择K个最好的特征,返回选择特征后的数据

#第一个参数为计算评估特征是否好的函数,该函数输入特征矩阵和目标向量,输出二元组(评分,P值)的数组,数组第i项为第i个特征的评分和P值。在此定义为计算相关系数

#参数k为选择的特征个数

SelectKBest(lambdaX,Y:array(map(lambdax:pearsonr(x,Y),X.T)).T,k=2).fit_transform(iris.data,iris.target)

1.1.3 卡方检验卡方检验的样本量要求:卡方分布本身是连续型分布,但是在分类资料的统计分析中,显然频数只能以整数形式出现,因此计算出的统计量是非连续的。只有当样本量比较充足时,才可以忽略两者问的差异,否则将可能导致较大的偏差具体而言,一般认为对于卡方检验中的每一个单元格,要求其最小期望频数均大于1,且至少有4/5的单元格期望频数大于5,此时使用卡方分布计算出的概率值才是准确的。如果数据不符合要求,可以采用确切概率法进行概率的计算。经典的卡方检验是检验定性自变量对定性因变量的相关性。用feature_selection库的SelectKBest类结合卡方检验来选择特征的代码如下:

fromsklearn.feature_selectionimportSelectKBest

fromsklearn.feature_selectionimportchi2

#选择K个最好的特征,返回选择特征后的数据

SelectKBest(chi2,k=2).fit_transform(iris.data,iris.target)

1.1.4 互信息法互信息指的是两个随机变量之间的关联程度,即给定一个随机变量后,另一个随机变量不确定性的削弱程度,因而互信息取值最小为0,意味着给定一个随机变量对确定一另一个随机变量没有关系,最大取值为随机变量的熵,意味着给定一个随机变量,能完全消除另一个随机变量的不确定性。为了处理定量数据,最大信息系数法被提出,使用feature_selection库的SelectKBest类结合最大信息系数法来选择特征的代码如下:

fromsklearn.feature_selectionimportSelectKBest

fromminepyimportMINE

#由于MINE的设计不是函数式的,定义mic方法将其为函数式的,返回一个二元组,二元组的第2项设置成固定的P值0.5

defmic(x,y):

m=MINE()

m.compute_score(x,y)

return(m.mic(),0.5)

#选择K个最好的特征,返回特征选择后的数据

SelectKBest(lambdaX,Y:array(map(lambdax:mic(x,Y),X.T)).T,k=2).fit_transform(iris.data,iris.target)

互信息直接用于特征选择其实不是太方便:1、它不属于度量方式,也没有办法归一化,在不同数据及上的结果无法做比较;2、对于连续变量的计算不是很方便(X和Y都是集合,x,y都是离散的取值),通常变量需要先离散化,而互信息的结果对离散化的方式很敏感。最大信息系数克服了这两个问题。它首先寻找一种最优的离散化方式,然后把互信息取值转换成一种度量方式,取值区间在[0,1]。minepy提供了MIC功能。1.2 WrapperWrapper方法寻找所有特征子集中能使后续学习算法达到较高性能的子集,在特征选择阶段,wrapper可以看做:搜索方法+学习算法。通俗理解就是Wrapper方法将特征集的选择视为一个搜索问题,会先准备若干种特征的组合方案,然后评估,相互比较。评估所使用的标准通常是模型的准确率。1.2.1 递归特征消除法递归消除特征法使用一个基模型来进行多轮训练,每轮训练后,移除若干权值系数的特征,再基于新的特征集进行下一轮训练。sklearn官方解释:对特征含有权重的预测模型(例如,线性模型对应参数coefficients),RFE通过递归减少考察的特征集规模来选择特征。首先,预测模型在原始特征上训练,每个特征指定一个权重。之后,那些拥有最小绝对值权重的特征被踢出特征集。如此往复递归,直至剩余的特征数量达到所需的特征数量。RFECV 通过交叉验证的方式执行RFE,以此来选择最佳数量的特征:对于一个数量为d的feature的集合,他的所有的子集的个数是2的d次方减1(包含空集)。指定一个外部的学习算法,比如SVM之类的。通过该算法计算所有子集的validation error。选择error最小的那个子集作为所挑选的特征。

fromsklearn.feature_selectionimportRFE

fromsklearn.linear_modelimportLogisticRegression

#递归特征消除法,返回特征选择后的数据

#参数estimator为基模型

#参数n_features_to_select为选择的特征个数

RFE(estimator=LogisticRegression(),n_features_to_select=2).fit_transform(iris.data,iris.target)

使用LogisticRegression作为基模型主要是能直接得到特征的权重。1.3 Embedded1.3.1 基于惩罚项的特征选择法使用带惩罚项的基模型,除了筛选出特征外,同时也进行了降维。使用feature_selection库的SelectFromModel类结合带L1惩罚项的逻辑回归模型,来选择特征的代码如下:

fromsklearn.feature_selectionimportSelectFromModel

fromsklearn.linear_modelimportLogisticRegression

#带L1惩罚项的逻辑回归作为基模型的特征选择

SelectFromModel(LogisticRegression(penalty="l1",C=0.1)).fit_transform(iris.data,iris.target)

通过L1正则项来选择特征:L1正则方法具有稀疏解的特性,因此天然具备特征选择的特性,但是要注意,L1没有选到的特征不代表不重要,原因是两个具有高相关性的特征可能只保留了一个,如果要确定哪个特征重要应再通过L2正则方法交叉检验;具体方法参照:http://www.cnblogs.com/jasonfreak/p/5448385.html关于正则化的的解释可参考:https://www.zhihu.com/question/209240391.3.2 基于树模型的特征选择法树模型中GBDT也可用来作为基模型进行特征选择,使用feature_selection库的SelectFromModel类结合GBDT模型,来选择特征的代码如下:

fromsklearn.feature_selectionimportSelectFromModel

fromsklearn.ensembleimportGradientBoostingClassifier

#GBDT作为基模型的特征选择

SelectFromModel(GradientBoostingClassifier()).fit_transform(iris.data, iris.target)

本文来自企鹅号 - 全球大搜罗媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏SIGAI学习与实践平台

流形学习概述

在很多应用中,数据的维数会很高。以图像数据为例,我们要识别32x32的手写数字图像,如果将像素按行或者列拼接起来形成向量,这个向量的维数是1024。高维的数据不...

20140
来自专栏机器之心

学界 | Hinton提出泛化更优的「软决策树」:可解释DNN具体决策

选自arXiv 机器之心编译 参与:刘晓坤、黄小天 近日,针对泛化能力强大的深度神经网络(DNN)无法解释其具体决策的问题,深度学习殿堂级人物 Geoffrey...

34470
来自专栏SIGAI学习与实践平台

机器学习与深度学习常见面试题(下)

为了帮助参加校园招聘、社招的同学更好的准备面试,SIGAI曾整理出了一些常见的机器学习、深度学习面试题(上篇),获得了小伙伴们的广泛好评,并强烈要求推出下篇的面...

73410
来自专栏AI研习社

不到 200 行代码 教你如何用 Keras 搭建生成对抗网络(GAN)

生成对抗网络(Generative Adversarial Networks,GAN)最早由 Ian Goodfellow 在 2014 年提出,是目前深度学习...

372100
来自专栏Spark学习技巧

机器学习萌新必学的Top10算法

13730
来自专栏机器学习算法与Python学习

收藏!机器学习与深度学习面试问题总结.....

38270
来自专栏量子位

机器学习萌新必学的Top10算法

在机器学习领域里,不存在一种万能的算法可以完美解决所有问题,尤其是像预测建模的监督学习里。 ? 比方说,神经网络不见得比决策树好,同样反过来也不成立。 最后的结...

37460
来自专栏AI研习社

神经风格迁移指南(第一部分)

在本系列中,我们会从神经风格的基础开始,你将从中学到一种自下而上(从基础开始)的方法。对于初学者而言,我们将会详细讲解神经风格到底是什么,以及它的工作原理。本文...

10420
来自专栏人工智能LeadAI

BAT机器学习面试1000题系列(第150~279题)

长文~可先收藏再看哟~ 150、在感知机中(Perceptron)的任务顺序是什么?深度学习 DL基础 易 1 随机初始化感知机的权重 2 去到数据集的下一批(...

6.4K120
来自专栏技术随笔

[译] Precomputed Real-Time Texture Synthesis with Markovian Generative Adversarial Networks

41260

扫码关注云+社区

领取腾讯云代金券