开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

使用scikit进行特征选择-学习分类特征

使用scikit-learn进行特征选择是一种常见的机器学习任务，它可以帮助我们从原始数据中选择最具有预测能力的特征，以提高模型的性能和效率。

特征选择是指从原始特征集中选择一部分特征，以便在保持模型性能的同时减少特征的数量。这样做的好处包括降低计算成本、减少过拟合风险、提高模型的解释性等。

scikit-learn是一个流行的Python机器学习库，提供了丰富的特征选择方法。下面介绍几种常用的特征选择方法：

Filter方法：这种方法通过对每个特征进行评估和排序来选择特征。常见的评估指标包括互信息、卡方检验、相关系数等。scikit-learn中的SelectKBest和SelectPercentile函数可以实现这种方法。
Wrapper方法：这种方法将特征选择问题转化为一个子集搜索问题，通过尝试不同的特征子集来评估模型性能。常见的方法有递归特征消除（Recursive Feature Elimination，RFE）和正向选择（Forward Selection）。scikit-learn中的RFECV和SequentialFeatureSelector函数可以实现这种方法。
Embedded方法：这种方法将特征选择嵌入到模型训练过程中，通过学习模型的权重或系数来选择特征。常见的方法有L1正则化（L1 Regularization）和决策树特征重要性（Decision Tree Feature Importance）。scikit-learn中的Lasso和RandomForestClassifier/Regressor可以实现这种方法。

特征选择的应用场景非常广泛，例如文本分类、图像识别、信用评分等。在这些场景中，特征选择可以帮助我们提取最相关的特征，从而提高模型的准确性和泛化能力。

腾讯云提供了一系列与机器学习和人工智能相关的产品和服务，包括云服务器、云数据库、人工智能平台等。您可以通过腾讯云官方网站（https://cloud.tencent.com/）了解更多相关信息。

参考链接：

scikit-learn官方文档：https://scikit-learn.org/
SelectKBest函数文档：https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SelectKBest.html
SelectPercentile函数文档：https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SelectPercentile.html
RFECV函数文档：https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.RFECV.html
SequentialFeatureSelector函数文档：https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SequentialFeatureSelector.html
Lasso函数文档：https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Lasso.html
RandomForestClassifier文档：https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html

相关搜索:如何使用分类特征和非分类特征进行回归 scikit学习转换多个文本特征 scikit-学习线性回归中的分类(但数字)特征对同时具有连续和分类特征的数据进行特征选择？特征选择和分类变量使用tensorflow分类进行特征提取使用图像和其他特征进行分类使用套索进行R特征选择将scikit学习特征表示转换为LibSVM格式使用分类特征构建回归在进行特征选择时跟踪特征名称如何实现分类变量的特征选择？带有互信息的最小冗余最大相关性(mRMR)，用于使用scikit学习进行特征选择通过一组特征进行PCA，以Scikit-Learn Pipeline代替整个特征 Pytorch:使用nn.Embedding对分类特征进行编码特征选择与选择的回归/分类模型无关吗？R:如何使用分类特征和数字特征来度量差异使用多个特征训练sklearn分类器使用CV进行递归特征消除不会减少特征计数 SVM分类中的特征选择--怪异行为

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

基于Python的机器学习工具包：Scikit-learn

Scikit-learn是一个基于Python的机器学习工具包，旨在为用户提供简单而高效的工具来进行数据挖掘和数据分析。作为Python数据科学生态系统中最受欢迎的机器学习库之一，Scikit-learn提供了广泛的机器学习算法和工具，还包括数据预处理、特征选择、模型评估等功能。本文将详细介绍Scikit-learn库的特点、常见功能和应用场景，并通过具体案例演示其在Python数据分析中的具体应用。

01

关于Scikit-Learn你（也许）不知道的10件事

Scikit-learn是使用最广泛的Python机器学习库之一。它有标准化和简单的接口，用于数据预处理和模型训练、优化以及评估。

02

机器学习Tips：关于Scikit-Learn的 10 个小秘密

原文 | https://towardsdatascience.com/10-things-you-didnt-know-about-scikit-learn-cccc94c50e4f

03

解决机器学习问题有通法！看这一篇就够了！

大数据文摘作品作者：Abhishek Thakur 编译：Cathy，黄文畅，姜范波，寒小阳前言本文由Searchmetrics公司高级数据科学家Abhishek Thakur提供。一个中等水平的数据科学家每天都要处理大量的数据。一些人说超过60%到70%的时间都用于数据清理、数据处理及格式转化，以便于在之后应用机器学习模型。这篇文章的重点便在后者—— 应用机器学习模型（包括预处理的阶段）。此文讨论到的内容来源于我参加的过的数百次的机器学习竞赛。请大家注意这里讨论的方法是大体上适用的，当然还有很多被

04

集成特征选择

集成特征选择是融合集成学习思想和特征选择方法，它结合了多个特征选择器的输出，通常可以提高性能，使得用户不必局限于选择单一的方法。简而言之：

01

Scikit-learn

基于SciPy，目前开发者们针对不同的应用领域已经发展出了为数众多的分支版本，它们被统一称为Scikits，即SciPy工具包的意思。而在这些分支版本中，最有名，也是专门面向机器学习的一个就是Scikit-learn。 Scikit-learn项目最早由数据科学家 David Cournapeau 在 2007 年发起，需要NumPy和SciPy等其他包的支持，是Python语言中专门针对机器学习应用而发展起来的一款开源框架。和其他众多的开源项目一样，Scikit-learn目前主要由社区成员自发进行维护

03

Feature Selection For Machine Learning in Python (Python机器学习中的特征选择)

Feature Selection For Machine Learning in Python 原文作者：Jason Brownlee 原文地址：https://machinelearningmastery.com/feature-selection-machine-learning-python/ 译者微博：@从流域到海域译者博客：blog.csdn.net/solo95 Python机器学习中的特征选择您用来训练机器学习模型的数据特征(data features)对最终实现时能达到的性能

06

Python机器学习中的特征选择

原文地址：https://machinelearningmastery.com/feature-selection-machine-learning-python/

07

【Scikit-Learn 中文文档】特征选择 - 监督学习 - 用户指南 | ApacheCN

本文介绍了机器学习中的特征选择方法，包括基于过滤的方法、基于包装的方法、基于嵌入的方法、基于树的方法和基于统计的方法。还介绍了各种特征选择方法在机器学习中的应用，包括降维、分类、聚类和推荐系统。最后，还介绍了特征选择方法的未来研究方向和挑战。

08

Kaggle热门 | 用一个框架解决所有机器学习难题

Abhishek Thakur：数据科学家每天都要处理数据载入问题。有一些研究者称，自己有60%--70%的时间都花在了数据清洗、处理（筛选）和转换上，从而让机器学习模型能使用这些数据。本文关注的是第二部分，也就是数据在机器学习模型的应用上，其中包括预处理的步骤。　　本文讨论的几个pipelines是我所参加的上百个计算机比赛后的总结。需要强调的是，文章的相关讨论虽然是概括性的，却也是十分有用的，同时，文中所讨论的也涉及一些既有的、被专业人士采用的复杂方法。　　声明：我们使用Python。数据

08

Python数据建模-回归分析

主题数据建模我还是一次性将一些理论的知识整理完呗，大家可以选择性地看看就好，后续会找一些实例来练练。一、分类与预测分类与预测是预测问题的2种主要实现类型。分类指的是预测分类情况（离散属性），而预测则是建立连续值函数模型，预测给定自变量对应的因变量的值。 1. 常用预测与分类算法 1）回归分析确定预测属性（数值型）与其他变量间相互依赖的定量关系最常用的统计学方法，包括线性回归、非线性回归、logistic回归、岭回归、主成分回归、偏最小二乘回归。 2）决策树决策树采用自顶而下的递归方式，

09

决策树算法的原理是什么样的？

决策树算法是一种常用的机器学习算法，适用于处理分类和回归问题。在Python数据分析中，决策树算法被广泛应用于预测分析、特征选择和数据可视化等领域。本文将详细介绍决策树算法的原理、Python的实现方式以及相关的实用技术点。

02

深入Scikit-learn：掌握Python最强大的机器学习库

在人工智能大潮的推动下，机器学习作为一项核心技术，其重要性无需过多强调。然而，如何快速高效地开展机器学习实验与开发，则是许多科研工作者和工程师们面临的挑战。Python作为一种简洁易读、拥有丰富科学计算库的编程语言，已广泛应用于机器学习领域。而在Python的众多机器学习库中，Scikit-learn以其全面的功能、优良的性能和易用性，赢得了众多用户的喜爱。在本篇文章中，我们将深入探讨Scikit-learn的使用方法和内部机制，帮助读者更好地利用这一工具进行机器学习实验。

02

【干货】Kaggle热门 | 用一个框架解决所有机器学习难题

【新智元导读】本文是数据科学家Abhishek Thakur发表的Kaggle热门文章。作者总结了自己参加100多场机器学习竞赛的经验，主要从模型框架方面阐述了机器学习过程中可能会遇到的难题，并给出了自己的解决方案，他还列出了自己平时研究所使用的数据库、算法、机器学习框架等等，具有一定的参考价值。作者称：“文章几乎涵盖了机器学习所面临的所有问题。”他说得怎么样？欢迎留言评论，发表你的看法。本文在Linkedin上贴出后，被迅速转到Kaggle和Hacker News，并引起火热讨论。在Hacker New

数据科学相关的一些概念及适合初学者的框架

最近邻法是最简单的预测模型之一，它没有多少数学上的假设，也不要求任何复杂的处理，它所要求的仅仅是:

03

【特征工程】不容错过的 5 种特征选择的方法！

我们知道模型的性能会随着使用特征数量的增加而增加。但是，当超过峰值时，模型性能将会下降。这就是为什么我们只需要选择能够有效预测的特征的原因。

01

AI人工智能随机森林分类器的原理、优缺点、应用场景和实现方法

随机森林分类器（Random Forest Classifier）是一种常用的机器学习算法，它是基于决策树的一种集成学习方法。在人工智能（Artificial Intelligence，简称AI）领域中，随机森林分类器是一种高效的算法，可以用于许多应用领域，如医疗、金融、电商等。本文将详细介绍AI人工智能随机森林分类器的原理、优缺点、应用场景和实现方法。

00

算法研习：支持向量机算法基本原理分析

支持向量机（SVM）是一种监督学习算法，可用于分类和回归问题。支持向量机是最常用也是大家最熟悉的算法，你可能不懂其算法原理，但你绝对听说过这种算法。今天算法研习第三节就来说说关于向量机的基本思想，具体有以下五个问题。

02

【干货】随机森林的Python实现

【新智元导读】在机器学习中，随机森林是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定。随机森林几乎是任何预测类问题（甚至非线性问题）的首选。本文介绍了随机森林的原理、用途，以及用 Python 实现随机森林的方法。随机森林是一种高度通用的机器学习方法，广泛应用于市场营销、医疗保健、保险等各领域。它可用于模拟市场营销对客户获取、保持和流失的影响，或用于预测患者的患病风险和感病性。随机森林能够进行回归和分类。它能处理大量的特征，有助于预估哪些变量在建模的底层数据中很重要。本文介绍

05

Scikit-learn 更新至0.24版，这10个新特性你需要了解

自 2007 年发布以来，Scikit-learn 已经成为 Python 领域非常重要的机器学习库，支持分类、回归、降维和聚类四大机器学习算法，还包括了特征提取、数据处理和模型评估三大模块。

02

机器学习常用算法——逻辑回归

首先，逻辑回归是一个分类算法而不是一个回归算法，该算法可根据已知的一系列因变量估计离散数值（比方说二进制数值 0 或 1 ，是或否，真或假），它通过将数据拟合进一个逻辑函数来预估一个事件出现的概率。因为它预估的是概率，所以它的输出值大小在 0 和 1 之间（正如所预计的一样）。

03

特征选择三板斧

Feature Engineering，称之为特征工程，属于机器学习中数据预处理阶段的重要内容，细分为以下两大类内容

03

scikit-learn的五种机器学习方法使用案例(python 代码)

对于一些开始搞机器学习算法有害怕下手的小朋友，该如何快速入门，这让人挺挣扎的。在从事数据科学的人中，最常用的工具就是R和Python了，每个工具都有其利弊，但是Python在各方面都相对胜出一些，这是因为scikit-learn库实现了很多机器学习算法。加载数据我们假设输入时一个特征矩阵或者csv文件。首先，数据应该被载入内存中。 scikit-learn的实现使用了NumPy中的arrays，所以，我们要使用NumPy来载入csv文件。以下是从UCI机器学习数据仓库中下载的数据。 import

08

【Python环境】Python语言下的机器学习库

Python是最好的编程语言之一，在科学计算中用途广泛：计算机视觉、人工智能、数学、天文等。它同样适用于机器学习也是意料之中的事。当然，它也有些缺点；其中一个是工具和库过于分散。如果你是拥有unix思维（unix-minded）的人，你会觉得每个工具只做一件事并且把它做好是非常方便的。但是你也需要知道不同库和工具的优缺点，这样在构建系统时才能做出合理的决策。工具本身不能改善系统或产品，但是使用正确的工具，我们可以工作得更高效，生产率更高。因此了解正确的工具，对你的工作领域是非常重要的。这篇文章的目的就是

06

Python最有用的机器学习工具和库

Python是最好的编程语言之一，在科学计算中用途广泛：计算机视觉、人工智能、数学、天文等。它同样适用于机器学习也是意料之中的事。

05

【机器学习】Python语言下的机器学习库

Python是最好的编程语言之一，在科学计算中用途广泛：计算机视觉、人工智能、数学、天文等。它同样适用于机器学习也是意料之中的事。当然，它也有些缺点；其中一个是工具和库过于分散。如果你是拥有unix思维（unix-minded）的人，你会觉得每个工具只做一件事并且把它做好是非常方便的。但是你也需要知道不同库和工具的优缺点，这样在构建系统时才能做出合理的决策。工具本身不能改善系统或产品，但是使用正确的工具，我们可以工作得更高效，生产率更高。因此了解正确的工具，对你的工作领域是非常重要的。这篇文章的目的就是

大数据测试学习笔记之Python工具集

这是2018年度业余主要学习和研究的方向的笔记：大数据测试整个学习笔记以短文为主，记录一些关键信息和思考预计每周一篇短文进行记录，可能是理论、概念、技术、工具等等学习资料以IBM开发者社区、华为开发者社区以及搜索到的相关资料为主我的公众号：开源优测大数据测试学习笔记之Python工具集简介在本次笔记中主要汇总Python关于大数据处理的一些基础性工具，个人掌握这些工具是从事大数据处理和大数据测必备技能主要工具有以下（包括但不限于）： numpy pandas SciPy Scikit-L

06

爱(AI)与你同行系列"(1)：从哪三个方面入手做好特征选择工程？

今天我们聊一聊特征工程方面的知识，随着大数据时代的到来，特征工程发挥着越来越重要的作用。当数据预处理完成后，我们需要选择有意义的特征输入机器学习的算法和模型进行训练。简单说，就是发现对因变量y有明显影响作用的特征，通常称自变量x为特征，特征工程的目的是发现重要特征。一般来说，特征工程大体上可以分为三个方面，一是特征构造，二是特征生成，三是特征选择。

02

AI人工智能决策树分类器的原理、优缺点、应用场景和实现方法

决策树分类器（Decision Tree Classifier）是一种常用的机器学习算法，它被广泛应用于分类和回归问题中。在人工智能（Artificial Intelligence，简称AI）领域中，决策树分类器是一种简单而有效的算法，可以用于许多应用领域，如医疗、金融、电商等。本文将详细介绍AI人工智能决策树分类器的原理、优缺点、应用场景和实现方法。

00

2018年最受欢迎Python机器学习库介绍

Python是一种面向对象的解释型计算机程序设计语言，具有丰富和强大的库，再加上其简单、易学、速度快、开源免费、可移植性、可扩展性以及面向对象的特点，Python成为2017年最受欢迎的最受欢迎的编程语言！人工智能是当前最热门话题之一，机器学习技术是人工智能实现必备技能，Python编程语言含有最有用的机器学习工具和库，以下是Python开发工程师必知的十大机器学习库！一、Scikit-Learn 在机器学习和数据挖掘的应用中，Scikit-Learn是一个功能强大的Python包，我们

03

一文盘点AutoML 库，自动机器学习演讲摘要

Jeff Dean在ICML 2019上进行了有关AutoML的演讲，并将自动化分为4个级别：

02

机器学习：基于scikit-learn进行特征工程

今天给大家分享如何基于机器学习建模全能包scikit-learn进行特征工程feature-engineering。

01

解决sklearn.exceptions.NotFittedError: This StandardScaler instance is not fitted

在使用scikit-learn中的StandardScaler进行数据预处理时，有时会遇到NotFittedError错误。这个错误是由于没有对StandardScaler进行适当的拟合导致的。本篇文章将介绍如何解决这个问题。

01

独家 | 一文读懂特征工程

本文结构 1. 概述机器学习被广泛定义为“利用经验来改善计算机系统的自身性能”。事实上，“经验”在计算机中主要是以数据的形式存在的，因此数据是机器学习的前提和基础。数据来源多种多样，它可以是结构数据，如数值型、分类型，也可以是非结构数据，如文本、语音、图片、视频。对于所有机器学习模型，这些原始数据必须以特征的形式加入到机器学习模型当中，并进行一定的提取和筛选工作。所谓特征提取，就是逐条将原始数据转化为特征向量的形式，此过程涉及数据特征的量化表示；而特征筛选是在已提取特征的基础上，进一步对高维度和

08

K最近邻算法：简单高效的分类和回归方法（二）

在封装之前，我们需要在同级目录下准备一个my_knn文件夹以及在文件夹下准备一个my_knn.py文件

05

一个关于Scikit-Learn的简明介绍：Python机器学习库

如果你是一个Python程序员，或者你正在寻找一个牛逼的库，使你可以应用机器学习到生产系统上，那么你会要认真考虑的库就是scikit-learn。在这篇文章中，你会得到一个scikit-learn库的概述和有用的参考。

04

从入门到精通Python机器学习：scikit-learn实战指南

在数据科学和机器学习领域，Python以其简洁的语法和强大的库支持，成为了许多开发者和研究者的首选语言。而在众多Python机器学习库中，scikit-learn以其易用性、灵活性和强大的算法集合，成为了最受欢迎的库之一。本文将深入探讨scikit-learn的原理和应用，并通过项目案例展示其在实际问题解决中的强大能力。

02

"爱(AI)与你同行系列"(1)：从哪三个方面入手做好特征选择工程？

今天我们聊一聊特征工程方面的知识，随着大数据时代的到来，特征工程发挥着越来越重要的作用。当数据预处理完成后，我们需要选择有意义的特征输入机器学习的算法和模型进行训练。简单说，就是发现对因变量y有明显影响作用的特征，通常称自变量x为特征，特征工程的目的是发现重要特征。一般来说，特征工程大体上可以分为三个方面，一是特征构造，二是特征生成，三是特征选择。

01

独家 | 一文盘点AutoML 库（附PPT等链接）

Jeff Dean在ICML 2019上进行了有关AutoML的演讲，并将自动化分为4个级别：

02

使用python+机器学习方法进行情感分析(详细步骤)

不是有词典匹配的方法了吗？怎么还搞多个机器学习方法。因为词典方法和机器学习方法各有千秋。机器学习的方法精确度更高，因为词典匹配会由于语义表达的丰富性而出现很大误差，而机器学习方法不会。而且它可使用的场景更多样。无论是主客观分类还是正负面情感分类，机器学习都可以完成任务。而无需像词典匹配那样要深入到词语、句子、语法这些层面。而词典方法适用的语料范围更广，无论是手机、电脑这些商品，还是书评、影评这些语料，都可以适用。但机器学习则极度依赖语料，把手机语料训练出来的的分类器拿去给书评分类，那是注定要失败的。

如何在机器学习竞赛中更胜一筹？

机器学习很复杂。你可能会遇到一个令你无从下手的数据集，特别是当你处于机器学习的初期。在这篇文章中，你将学到一些基本的关于建立机器学习模型的技巧，大多数人都从中获得经验。这些技巧由Marios Mic

07

Scikit-learn玩得很熟了？这些功能你都知道吗？

大数据文摘作品编译：汪小七、笪洁琼、Aileen 分享一些Scikit-learn程序包里鲜有人知的遗珠功能。 Scikit-learn是Python所有的机器学习程序包中，你必须掌握的最重要的一个包，它包含各种分类算法，回归算法和聚类算法，其中包括支持向量机、随机森林、梯度提升、k均值和基于密度的聚类算法（DBSCAN），且旨在与Python数值库NumPy和科学库SciPy进行相互配合。它通过一个接口，提供了一系列的有监督和无监督算法。此库希望在生产中使用时，能具有很好的稳健性和支撑性，所以它的着重

07

特征选择与提取最全总结之过滤法

特征抽取是数据挖掘任务最为重要的一个环节，一般而言，它对最终结果的影响要高过数据挖掘算法本身。

02

特征选择：8 种常见的特征过滤法

特征抽取是数据挖掘任务最为重要的一个环节，一般而言，它对最终结果的影响要高过数据挖掘算法本身。

09

Scikit-Learn的简介：Python机器学习库

如果你是一名Python程序员，或者你正在寻找一个强大的库，可以将机器学习运用到实际系统中，那么你要认真考虑一下scikit-learn。

07

随机森林算法入门(python)

随机森林是一个非常灵活的机器学习方法，从市场营销到医疗保险有着众多的应用。它可以用于市场营销对客户获取和存留建模或预测病人的疾病风险和易感性。

02

【机器学习】机器学习基础概念与初步探索

综上所述：监督学习、无监督学习与强化学习各有其特点和优势，适用于不同的应用场景。在实际应用中，我们需要根据具体问题和数据特点来选择合适的机器学习类型。

01

Python机器学习库:Scikit-Learn简介

如果你是一名Python程序员，并且你正在寻找一个强大的库将机器学习引入你的项目，那么你可以考虑使用Scikit-Learn库。

Anaconda配置机器学习库scikit-learn

本文介绍在Anaconda环境中，安装Python语言scikit-learn模块的方法。

01

Python中的时序分析工具包推荐（1）

时间序列分析是一类经典问题，常见的场景需求包括时序预测、时序分裂、时序聚类、异常检测等。作为一名算法工程师，当调包遇上时间序列，有哪些好用的工具包呢？本篇首先介绍3个：tsfresh、tslearn、sktime。

02

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭