机器学习之特征工程(一)

在数据预处理之前,先来了解下特征工程,特征工程指的是在原始数据之中提取,构造,选择数据特征的过程。有句话是:“数据和特征工程决定了你能到达的上限,机器学习模型决定了你能多么逼近这个上限”。特征工程是数据分析过程中最重要的一步,当然也很能简单的理解,毕竟特征工程是建模步骤的基础和准备。content1特征选择  1.1 Filter    1.1.1 方差选择法    1.1.2 相关系数法    1.1.3 卡方检验    1.1.4 互信息法  1.2 Wrapper    1.2.1 递归特征消除法  1.3 Embedded    1.3.1 基于惩罚项的特征选择法    1.3.2 基于树模型的特征选择法1 特征选择当数据预处理完成后,我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说,从两个方面考虑来选择特征:

特征是否发散:如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本上没有差异,这个特征对于样本的区分并没有什么用。特征与目标的相关性:这点比较显见,与目标相关性高的特征,应当优选选择。除方差法外,本文介绍的其他方法均从相关性考虑。

根据特征选择的形式又可以将特征选择方法分为3种:

Filter:过滤法,按照发散性或者相关性对各个特征进行评分,设定阈值或者待选择阈值的个数,选择特征。Wrapper:包装法,根据目标函数(通常是预测效果评分),每次选择若干特征,或者排除若干特征。Embedded:嵌入法,先使用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据系数从大到小选择特征。类似于Filter方法,但是是通过训练来确定特征的优劣。

我们使用sklearn中的feature_selection库来进行特征选择。1.1 Filter1.1.1 方差选择法使用方差选择法,先要计算各个特征的方差,然后根据阈值,选择方差大于阈值的特征。使用feature_selection库的VarianceThreshold类来选择特征的代码如下:

fromsklearn.feature_selectionimportVarianceThreshold

#方差选择法,返回值为特征选择后的数据

#参数threshold为方差的阈值

VarianceThreshold(threshold=3).fit_transform(iris.data)

单变量特征选择的原理是分别单独的计算每个变量的某个统计指标,根据该指标来判断哪些指标重要,剔除那些不重要的指标。对于分类问题(y离散),可采用:卡方检验,f_classif, *mutual_info_classif,互信息对于回归问题(y连续),可采用:皮尔森相关系数,f_regression, *mutual_info_regression,最大信息系数

1.1.2 相关系数法使用相关系数法,先要计算各个特征对目标值的相关系数以及相关系数的P值。Pearson相关系数的一个明显缺陷是,作为特征排序机制,他只对线性关系敏感。如果关系是非线性的,即便两个变量具有一一对应的关系,Pearson相关性也可能会接近0。用feature_selection库的SelectKBest类结合相关系数来选择特征的代码如下:

fromsklearn.feature_selectionimportSelectKBest

fromscipy.statsimportpearsonr

#选择K个最好的特征,返回选择特征后的数据

#第一个参数为计算评估特征是否好的函数,该函数输入特征矩阵和目标向量,输出二元组(评分,P值)的数组,数组第i项为第i个特征的评分和P值。在此定义为计算相关系数

#参数k为选择的特征个数

SelectKBest(lambdaX,Y:array(map(lambdax:pearsonr(x,Y),X.T)).T,k=2).fit_transform(iris.data,iris.target)

1.1.3 卡方检验卡方检验的样本量要求:卡方分布本身是连续型分布,但是在分类资料的统计分析中,显然频数只能以整数形式出现,因此计算出的统计量是非连续的。只有当样本量比较充足时,才可以忽略两者问的差异,否则将可能导致较大的偏差具体而言,一般认为对于卡方检验中的每一个单元格,要求其最小期望频数均大于1,且至少有4/5的单元格期望频数大于5,此时使用卡方分布计算出的概率值才是准确的。如果数据不符合要求,可以采用确切概率法进行概率的计算。经典的卡方检验是检验定性自变量对定性因变量的相关性。用feature_selection库的SelectKBest类结合卡方检验来选择特征的代码如下:

fromsklearn.feature_selectionimportSelectKBest

fromsklearn.feature_selectionimportchi2

#选择K个最好的特征,返回选择特征后的数据

SelectKBest(chi2,k=2).fit_transform(iris.data,iris.target)

1.1.4 互信息法互信息指的是两个随机变量之间的关联程度,即给定一个随机变量后,另一个随机变量不确定性的削弱程度,因而互信息取值最小为0,意味着给定一个随机变量对确定一另一个随机变量没有关系,最大取值为随机变量的熵,意味着给定一个随机变量,能完全消除另一个随机变量的不确定性。为了处理定量数据,最大信息系数法被提出,使用feature_selection库的SelectKBest类结合最大信息系数法来选择特征的代码如下:

fromsklearn.feature_selectionimportSelectKBest

fromminepyimportMINE

#由于MINE的设计不是函数式的,定义mic方法将其为函数式的,返回一个二元组,二元组的第2项设置成固定的P值0.5

defmic(x,y):

m=MINE()

m.compute_score(x,y)

return(m.mic(),0.5)

#选择K个最好的特征,返回特征选择后的数据

SelectKBest(lambdaX,Y:array(map(lambdax:mic(x,Y),X.T)).T,k=2).fit_transform(iris.data,iris.target)

互信息直接用于特征选择其实不是太方便:1、它不属于度量方式,也没有办法归一化,在不同数据及上的结果无法做比较;2、对于连续变量的计算不是很方便(X和Y都是集合,x,y都是离散的取值),通常变量需要先离散化,而互信息的结果对离散化的方式很敏感。最大信息系数克服了这两个问题。它首先寻找一种最优的离散化方式,然后把互信息取值转换成一种度量方式,取值区间在[0,1]。minepy提供了MIC功能。1.2 WrapperWrapper方法寻找所有特征子集中能使后续学习算法达到较高性能的子集,在特征选择阶段,wrapper可以看做:搜索方法+学习算法。通俗理解就是Wrapper方法将特征集的选择视为一个搜索问题,会先准备若干种特征的组合方案,然后评估,相互比较。评估所使用的标准通常是模型的准确率。1.2.1 递归特征消除法递归消除特征法使用一个基模型来进行多轮训练,每轮训练后,移除若干权值系数的特征,再基于新的特征集进行下一轮训练。sklearn官方解释:对特征含有权重的预测模型(例如,线性模型对应参数coefficients),RFE通过递归减少考察的特征集规模来选择特征。首先,预测模型在原始特征上训练,每个特征指定一个权重。之后,那些拥有最小绝对值权重的特征被踢出特征集。如此往复递归,直至剩余的特征数量达到所需的特征数量。RFECV 通过交叉验证的方式执行RFE,以此来选择最佳数量的特征:对于一个数量为d的feature的集合,他的所有的子集的个数是2的d次方减1(包含空集)。指定一个外部的学习算法,比如SVM之类的。通过该算法计算所有子集的validation error。选择error最小的那个子集作为所挑选的特征。

fromsklearn.feature_selectionimportRFE

fromsklearn.linear_modelimportLogisticRegression

#递归特征消除法,返回特征选择后的数据

#参数estimator为基模型

#参数n_features_to_select为选择的特征个数

RFE(estimator=LogisticRegression(),n_features_to_select=2).fit_transform(iris.data,iris.target)

使用LogisticRegression作为基模型主要是能直接得到特征的权重。1.3 Embedded1.3.1 基于惩罚项的特征选择法使用带惩罚项的基模型,除了筛选出特征外,同时也进行了降维。使用feature_selection库的SelectFromModel类结合带L1惩罚项的逻辑回归模型,来选择特征的代码如下:

fromsklearn.feature_selectionimportSelectFromModel

fromsklearn.linear_modelimportLogisticRegression

#带L1惩罚项的逻辑回归作为基模型的特征选择

SelectFromModel(LogisticRegression(penalty="l1",C=0.1)).fit_transform(iris.data,iris.target)

通过L1正则项来选择特征:L1正则方法具有稀疏解的特性,因此天然具备特征选择的特性,但是要注意,L1没有选到的特征不代表不重要,原因是两个具有高相关性的特征可能只保留了一个,如果要确定哪个特征重要应再通过L2正则方法交叉检验;具体方法参照:http://www.cnblogs.com/jasonfreak/p/5448385.html关于正则化的的解释可参考:https://www.zhihu.com/question/209240391.3.2 基于树模型的特征选择法树模型中GBDT也可用来作为基模型进行特征选择,使用feature_selection库的SelectFromModel类结合GBDT模型,来选择特征的代码如下:

fromsklearn.feature_selectionimportSelectFromModel

fromsklearn.ensembleimportGradientBoostingClassifier

#GBDT作为基模型的特征选择

SelectFromModel(GradientBoostingClassifier()).fit_transform(iris.data, iris.target)

本文来自企鹅号 - 全球大搜罗媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏刘笑江的专栏

Loss Function

2014
来自专栏小鹏的专栏

感知机--模型与策略

看到模型和策略,应该很快联想到了李航的《统计学习方法》,统计学习方法的三要素定义为:模型、策略、算法。 感知机 感知机是二分类的线性分类模型,输入为实例的...

1875
来自专栏机器学习算法全栈工程师

面对各种数据怎么处理 : 特征工程之特征表达

地址:https://www.cnblogs.com/pinard/p/9032759.html

843
来自专栏智能算法

初识支持向量机原理

支持向量机作为机器学习中最为难于理解的算法,小编将以三篇的篇幅去讲解小编自己理解的SVM算法。主要包括:初识支持向量机原理、SVM如何解决线性不可分、SVM实践...

3348
来自专栏深度学习入门与实践

机器学习基础与实践(三)----数据降维之PCA

写在前面:本来这篇应该是上周四更新,但是上周四写了一篇深度学习的反向传播法的过程,就推迟更新了。本来想参考PRML来写,但是发现里面涉及到比较多的数学知识,写出...

1977
来自专栏天天P图攻城狮

Android图像处理系列 - 高斯模糊的几种优化方法

一,高斯模糊简介 高斯模糊是图像处理中常用的一种操作,用于减少图像细节,平滑图像。简单来说,高斯模糊的处理过程,是让图像每个像素都取周边像素的平均值,是参照正态...

1K10
来自专栏AI研习社

感知机(Perceptron)是怎么实现“知错能改”的?

感知机(perceptron)是二类分类的线性分类模型,其输入为实例的特征向量,输出为实例的类别,取+1和-1二值。感知机对应于输入空间中将实例划分为正负两类的...

3708
来自专栏码洞

机器学习sklearn线性回归

回归算法是机器学习的一个基础算法,简单的就是线性回归,还有非线性回归。本节我们讲解简单的线性回归。

541
来自专栏机器学习从入门到成神

机器学习之深入理解SVM

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/sinat_35512245/articl...

912
来自专栏数据科学与人工智能

【算法】SVD算法

小编邀请您,先思考: 1 如何对矩阵做SVD? 2 SVD算法与PCA算法有什么关联? 3 SVD算法有什么应用? 4 SVD算法如何优化? 前言 奇异值分解(...

41011

扫码关注云+社区