Python机器学习中的特征选择

Feature Selection For Machine Learning in Python

原文作者:Jason Brownlee

原文地址:https://machinelearningmastery.com/feature-selection-machine-learning-python/

译者微博:@从流域到海域

译者博客:blog.csdn.net/solo95

Python机器学习中的特征选择

您用来训练机器学习模型的数据特征(data features)对最终实现时能达到的性能表现有巨大的影响。

不相关或部分相关的特征可能会对模型性能产生负面影响。

在这篇文章中,您将会了解自动特征选择技术,您可以使用scikit-learn在Python中准备机器学习(所使用的)数据。

让我们开始吧。

更新于2016年12月:修正了RFE部分关于所选择变量的错字。感谢 Anderson。

Python中机器学习的特征选择

Baptiste Lafontaine的照片,保留一些权利

特征选择

特征选择是一个过程,您可以自动选择数据中您感兴趣的对预测变量或输出贡献(影响)最大的特征。

数据中不相关的特征会降低许多模型的精确度,特别是线性算法和逻辑回归等线性算法。

在对数据建模之前执行特征选择的三个好处是:

  • 减少过度配合:减少冗余数据意味着根据噪音(noise)作出决定的机会减少。
  • 提高准确性:更少的误导数据意味着建模精确度提高。
  • 减少训练时间:更少的数据意味着算法训练更快。

您可以在文章"Feature selection"了解有关使用scikit-learn进行特征选择的更多信息。

机器学习的特征选择

本节列出了Python中用于机器学习的4个特征选择方案。

这篇文章包含特征选择方法的方案。

每个方案的设计都是完整但完全独立的,因此您可以直接将其复制并粘贴到您的项目中并立即使用。

这些方案使用Pima Indians onset of diabetes dataset来演示特征选择方法。这是一个二元分类问题,其中所有的属性都是数字的。

1.单因素特征选择

可以使用统计测试来选择与输出变量具有最强(最紧密)关系的那些要素。

scikit-learn库提供了SelectKBest类,可以使用一系列不同的统计测试来选择特定数量的特征。

下面的例子使用针对非负特征的chi平方(chi ^ 2)统计测试来从皮马印第安人糖尿病数据集发病中选择4个最佳特征。

# Feature Extraction with Univariate Statistical Tests (Chi-squared for classification)
import pandas
import numpy
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2

# load data
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/pima-indians-diabetes/pima-indians-diabetes.data"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = pandas.read_csv(url, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]

# feature extraction
test = SelectKBest(score_func=chi2, k=4)
fit = test.fit(X, Y)

# summarize scores
numpy.set_printoptions(precision=3)
print(fit.scores_)
features = fit.transform(X)

# summarize selected features
print(features[0:5,:])

你可以看到每个属性的得分和所选择的4个属性(得分最高的属性):plastestmassage

[  111.52   1411.887    17.605    53.108  2175.565   127.669     5.393
   181.304]
[[ 148.     0.    33.6   50. ]
 [  85.     0.    26.6   31. ]
 [ 183.     0.    23.3   32. ]
 [  89.    94.    28.1   21. ]
 [ 137.   168.    43.1   33. ]]

2.递归特征消除

The Recursive Feature Elimination(递归特征消除(或RFE))通过递归地移除属性然后使用最后留下的属性来搭建一个模型。

它使用模型准确度来确定哪些属性(以及属性组合)对预测目标属性贡献(影响)最大。

您可以在scikit-learn文档中了解有关RFE类的更多信息。

下面的例子使用了逻辑回归算法的RFE来选择前3个特征。算法的选择并不重要,只要它是熟练和一致的。

# Feature Extraction with RFE
from pandas import read_csv
from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression

# load data
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/pima-indians-diabetes/pima-indians-diabetes.data"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(url, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]

# feature extraction
model = LogisticRegression()
rfe = RFE(model, 3)
fit = rfe.fit(X, Y)
print("Num Features: %d") % fit.n_features_
print("Selected Features: %s") % fit.support_
print("Feature Ranking: %s") % fit.ranking_

您可以看到,RFE选择的前三名的特征,如pregmasspedi

这些在_support__数组中标记为True,并在_ranking__数组中标记为“1” 。

Num Features: 3
Selected Features: [ True False False False False  True  True False]
Feature Ranking: [1 2 3 5 6 1 1 4]

3.主成分分析

主成分分析(Principal Component Analysis或PCA)使用线性代数将数据集转换为压缩格式。

通常这被称为数据压缩技术。PCA的一个属性是可以在转换结果中选择维数或主成分。

在下面的例子中,我们使用PCA并选择3个主要组件。

通过查看PCA API,在scikit-learn中了解更多关于PCA类的内容。您也可以在 Principal Component Analysis Wikipedia article.中深入探讨PCA背后的数学。

# Feature Extraction with PCA
import numpy
from pandas import read_csv
from sklearn.decomposition import PCA

# load data
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/pima-indians-diabetes/pima-indians-diabetes.data"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(url, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]

# feature extraction
pca = PCA(n_components=3)
fit = pca.fit(X)

# summarize components
print("Explained Variance: %s") % fit.explained_variance_ratio_
print(fit.components_)

您可以看到被转换的数据集(3个主要组件)与源数据几乎没有相似之处。

Explained Variance: [ 0.88854663  0.06159078  0.02579012]
[[ -2.02176587e-03   9.78115765e-02   1.60930503e-02   6.07566861e-02
    9.93110844e-01   1.40108085e-02   5.37167919e-04  -3.56474430e-03]
 [  2.26488861e-02   9.72210040e-01   1.41909330e-01  -5.78614699e-02
   -9.46266913e-02   4.69729766e-02   8.16804621e-04   1.40168181e-01]
 [ -2.24649003e-02   1.43428710e-01  -9.22467192e-01  -3.07013055e-01
    2.09773019e-02  -1.32444542e-01  -6.39983017e-04  -1.25454310e-01]]

4.特征重要性

像随机森林(Random Forest)和额外树(Extra Trees)这样的装袋决策树(Bagged decision trees)可以用来估计特征的重要性。

(Bagging算法 英语:Bootstrap aggregating,引导聚集算法),又称装袋算法,译者注)。

在下面的例子中,我们为Pima印第安人记录在案的糖尿病数据集构建了一个ExtraTreesClassifier分类器。您可以 在scikit-learn API中了解关于ExtraTreesClassifier类的更多信息。

# Feature Importance with Extra Trees Classifie
from pandas import read_csv
from sklearn.ensemble import ExtraTreesClassifie

# load data
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/pima-indians-diabetes/pima-indians-diabetes.data"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(url, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
# feature extraction
model = ExtraTreesClassifier()
model.fit(X, Y)
print(model.feature_importances_)

你可以看到,我们给每个属性都分配了重要性分数,其中越重要的属性得分越高。分数表明了plasagemass的重要性。

 [ 0.11070069  0.2213717   0.08824115  0.08068703  0.07281761  0.14548537 0.12654214  0.15415431]

摘要

在这篇文章中,您了解了使用scikit-learn在Python中准备机器学习数据的特征选择。

您了解了4种不同的自动特征选择技术:

  • 单因素特征选择。
  • 递归特征消除。
  • 主成分分析。
  • 特征重要性。

如果您正在寻找关于特征选择的更多信息,请参阅以下相关文章:

本文的版权归 Steve Wang 所有,如需转载请联系作者。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

如何捕获一只彩色卓别林?黑白照片AI上色教程很友好 | 哈佛大触

21120
来自专栏CSDN技术头条

Python; 机器学习之项目实践

机器学习是一项经验技能,经验越多越好。在项目建立的过程中,实践是掌握机器学习的最佳手段。在实践过程中,通过实际操作加深对分类和回归问题的每一个步骤的理解,达到学...

33350
来自专栏人工智能

Python&机器学习之项目实践

文章节选自《机器学习——Python实践》 文末评论赠送本书,欢迎留言! 机器学习是一项经验技能,经验越多越好。在项目建立的过程中,实践是掌握机器学习的最佳手段...

33680
来自专栏机器之心

学界 | ImageNet 2017目标定位冠军论文:双路径网络

选自arXiv 作者:Yunpeng Chen等 机器之心编译 参与:蒋思源、Smith 最后一届 ImageNet 挑战赛刚刚落下帷幕,而新加坡国立大学参与的...

29370
来自专栏专知

【论文推荐】最新五篇视频分类相关论文—细粒度行人识别、群组归一化、MLtuner、时序特征

18330
来自专栏iOSDevLog

决策树模型概述

23650
来自专栏大数据挖掘DT机器学习

数字识别,从KNN,LR,SVM,RF到深度学习

@蜡笔小轩V 原文:http://blog.csdn.net/Dinosoft/article/details/50734539 之前看了很多入门的资料,如果...

54950
来自专栏人工智能头条

LSTM实现详解

23530
来自专栏机器学习算法工程师

Logistic回归实战篇之预测病马死亡率(三)

作 者:崔家华 编 辑:李文臣 四、使用Sklearn构建Logistic回归分类器 开始新一轮的征程,让我们看下Sklearn的Logistic回归分类器! ...

57890
来自专栏闪电gogogo的专栏

SAMP论文学习

SAMP:稀疏度自适应匹配追踪 实际应用中信号通常是可压缩的而不一定为稀疏的,而且稀疏信号的稀疏度我们通常也会不了解的。论文中提到过高或者过低估计了信号的稀疏度...

396120

扫码关注云+社区

领取腾讯云代金券