首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >机器学习之特征工程(一)

机器学习之特征工程(一)

作者头像
企鹅号小编
发布2018-01-05 14:33:08
1.1K0
发布2018-01-05 14:33:08
举报
文章被收录于专栏:企鹅号快讯企鹅号快讯

在数据预处理之前,先来了解下特征工程,特征工程指的是在原始数据之中提取,构造,选择数据特征的过程。有句话是:“数据和特征工程决定了你能到达的上限,机器学习模型决定了你能多么逼近这个上限”。特征工程是数据分析过程中最重要的一步,当然也很能简单的理解,毕竟特征工程是建模步骤的基础和准备。content1特征选择  1.1 Filter    1.1.1 方差选择法    1.1.2 相关系数法    1.1.3 卡方检验    1.1.4 互信息法  1.2 Wrapper    1.2.1 递归特征消除法  1.3 Embedded    1.3.1 基于惩罚项的特征选择法    1.3.2 基于树模型的特征选择法1 特征选择当数据预处理完成后,我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说,从两个方面考虑来选择特征:

特征是否发散:如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本上没有差异,这个特征对于样本的区分并没有什么用。特征与目标的相关性:这点比较显见,与目标相关性高的特征,应当优选选择。除方差法外,本文介绍的其他方法均从相关性考虑。

根据特征选择的形式又可以将特征选择方法分为3种:

Filter:过滤法,按照发散性或者相关性对各个特征进行评分,设定阈值或者待选择阈值的个数,选择特征。Wrapper:包装法,根据目标函数(通常是预测效果评分),每次选择若干特征,或者排除若干特征。Embedded:嵌入法,先使用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据系数从大到小选择特征。类似于Filter方法,但是是通过训练来确定特征的优劣。

我们使用sklearn中的feature_selection库来进行特征选择。1.1 Filter1.1.1 方差选择法使用方差选择法,先要计算各个特征的方差,然后根据阈值,选择方差大于阈值的特征。使用feature_selection库的VarianceThreshold类来选择特征的代码如下:

fromsklearn.feature_selectionimportVarianceThreshold

#方差选择法,返回值为特征选择后的数据

#参数threshold为方差的阈值

VarianceThreshold(threshold=3).fit_transform(iris.data)

单变量特征选择的原理是分别单独的计算每个变量的某个统计指标,根据该指标来判断哪些指标重要,剔除那些不重要的指标。对于分类问题(y离散),可采用:卡方检验,f_classif, *mutual_info_classif,互信息对于回归问题(y连续),可采用:皮尔森相关系数,f_regression, *mutual_info_regression,最大信息系数

1.1.2 相关系数法使用相关系数法,先要计算各个特征对目标值的相关系数以及相关系数的P值。Pearson相关系数的一个明显缺陷是,作为特征排序机制,他只对线性关系敏感。如果关系是非线性的,即便两个变量具有一一对应的关系,Pearson相关性也可能会接近0。用feature_selection库的SelectKBest类结合相关系数来选择特征的代码如下:

fromsklearn.feature_selectionimportSelectKBest

fromscipy.statsimportpearsonr

#选择K个最好的特征,返回选择特征后的数据

#第一个参数为计算评估特征是否好的函数,该函数输入特征矩阵和目标向量,输出二元组(评分,P值)的数组,数组第i项为第i个特征的评分和P值。在此定义为计算相关系数

#参数k为选择的特征个数

SelectKBest(lambdaX,Y:array(map(lambdax:pearsonr(x,Y),X.T)).T,k=2).fit_transform(iris.data,iris.target)

1.1.3 卡方检验卡方检验的样本量要求:卡方分布本身是连续型分布,但是在分类资料的统计分析中,显然频数只能以整数形式出现,因此计算出的统计量是非连续的。只有当样本量比较充足时,才可以忽略两者问的差异,否则将可能导致较大的偏差具体而言,一般认为对于卡方检验中的每一个单元格,要求其最小期望频数均大于1,且至少有4/5的单元格期望频数大于5,此时使用卡方分布计算出的概率值才是准确的。如果数据不符合要求,可以采用确切概率法进行概率的计算。经典的卡方检验是检验定性自变量对定性因变量的相关性。用feature_selection库的SelectKBest类结合卡方检验来选择特征的代码如下:

fromsklearn.feature_selectionimportSelectKBest

fromsklearn.feature_selectionimportchi2

#选择K个最好的特征,返回选择特征后的数据

SelectKBest(chi2,k=2).fit_transform(iris.data,iris.target)

1.1.4 互信息法互信息指的是两个随机变量之间的关联程度,即给定一个随机变量后,另一个随机变量不确定性的削弱程度,因而互信息取值最小为0,意味着给定一个随机变量对确定一另一个随机变量没有关系,最大取值为随机变量的熵,意味着给定一个随机变量,能完全消除另一个随机变量的不确定性。为了处理定量数据,最大信息系数法被提出,使用feature_selection库的SelectKBest类结合最大信息系数法来选择特征的代码如下:

fromsklearn.feature_selectionimportSelectKBest

fromminepyimportMINE

#由于MINE的设计不是函数式的,定义mic方法将其为函数式的,返回一个二元组,二元组的第2项设置成固定的P值0.5

defmic(x,y):

m=MINE()

m.compute_score(x,y)

return(m.mic(),0.5)

#选择K个最好的特征,返回特征选择后的数据

SelectKBest(lambdaX,Y:array(map(lambdax:mic(x,Y),X.T)).T,k=2).fit_transform(iris.data,iris.target)

互信息直接用于特征选择其实不是太方便:1、它不属于度量方式,也没有办法归一化,在不同数据及上的结果无法做比较;2、对于连续变量的计算不是很方便(X和Y都是集合,x,y都是离散的取值),通常变量需要先离散化,而互信息的结果对离散化的方式很敏感。最大信息系数克服了这两个问题。它首先寻找一种最优的离散化方式,然后把互信息取值转换成一种度量方式,取值区间在[0,1]。minepy提供了MIC功能。1.2 WrapperWrapper方法寻找所有特征子集中能使后续学习算法达到较高性能的子集,在特征选择阶段,wrapper可以看做:搜索方法+学习算法。通俗理解就是Wrapper方法将特征集的选择视为一个搜索问题,会先准备若干种特征的组合方案,然后评估,相互比较。评估所使用的标准通常是模型的准确率。1.2.1 递归特征消除法递归消除特征法使用一个基模型来进行多轮训练,每轮训练后,移除若干权值系数的特征,再基于新的特征集进行下一轮训练。sklearn官方解释:对特征含有权重的预测模型(例如,线性模型对应参数coefficients),RFE通过递归减少考察的特征集规模来选择特征。首先,预测模型在原始特征上训练,每个特征指定一个权重。之后,那些拥有最小绝对值权重的特征被踢出特征集。如此往复递归,直至剩余的特征数量达到所需的特征数量。RFECV 通过交叉验证的方式执行RFE,以此来选择最佳数量的特征:对于一个数量为d的feature的集合,他的所有的子集的个数是2的d次方减1(包含空集)。指定一个外部的学习算法,比如SVM之类的。通过该算法计算所有子集的validation error。选择error最小的那个子集作为所挑选的特征。

fromsklearn.feature_selectionimportRFE

fromsklearn.linear_modelimportLogisticRegression

#递归特征消除法,返回特征选择后的数据

#参数estimator为基模型

#参数n_features_to_select为选择的特征个数

RFE(estimator=LogisticRegression(),n_features_to_select=2).fit_transform(iris.data,iris.target)

使用LogisticRegression作为基模型主要是能直接得到特征的权重。1.3 Embedded1.3.1 基于惩罚项的特征选择法使用带惩罚项的基模型,除了筛选出特征外,同时也进行了降维。使用feature_selection库的SelectFromModel类结合带L1惩罚项的逻辑回归模型,来选择特征的代码如下:

fromsklearn.feature_selectionimportSelectFromModel

fromsklearn.linear_modelimportLogisticRegression

#带L1惩罚项的逻辑回归作为基模型的特征选择

SelectFromModel(LogisticRegression(penalty="l1",C=0.1)).fit_transform(iris.data,iris.target)

通过L1正则项来选择特征:L1正则方法具有稀疏解的特性,因此天然具备特征选择的特性,但是要注意,L1没有选到的特征不代表不重要,原因是两个具有高相关性的特征可能只保留了一个,如果要确定哪个特征重要应再通过L2正则方法交叉检验;具体方法参照:http://www.cnblogs.com/jasonfreak/p/5448385.html关于正则化的的解释可参考:https://www.zhihu.com/question/209240391.3.2 基于树模型的特征选择法树模型中GBDT也可用来作为基模型进行特征选择,使用feature_selection库的SelectFromModel类结合GBDT模型,来选择特征的代码如下:

fromsklearn.feature_selectionimportSelectFromModel

fromsklearn.ensembleimportGradientBoostingClassifier

#GBDT作为基模型的特征选择

SelectFromModel(GradientBoostingClassifier()).fit_transform(iris.data, iris.target)

本文来自企鹅号 - 全球大搜罗媒体

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文来自企鹅号 - 全球大搜罗媒体

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档