如何在sklearn管道中同时使用SMOTE和特征选择？_如何修复特征联合和管道中的元组对象错误(使用sklearn时)？ - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

特征选择

特征选择特征选择概述Filter 过滤法方差选择法相关系数法卡方检验互信息法Wrapper 包装法稳定性选择(Stability Selection)递归特征消除特征值排序选择Embedded 嵌入法线性模型正则化树模型类别标签不平衡处理欠采样过采样加权处理

03

特征工程最后一个要点 : 特征预处理

地址:https://www.cnblogs.com/pinard/p/9093890.html

03

您找到你想要的搜索结果了吗？

是的

没有找到

特征工程之特征预处理

在前面我们分别讨论了特征工程中的特征选择与特征表达，本文我们来讨论特征预处理的相关问题。主要包括特征的归一化和标准化，异常特征样本清洗与样本数据不平衡问题的处理。

04

译文 | 在使用过采样或欠采样处理类别不均衡数据后，如何正确做交叉验证？

最近读的一篇英文博客，讲的很不错，于是便抽空翻译成了中文。 [关于我在这篇文章中使用的术语可以在 Physionet （http://www.physionet.org/pn6/tpehgdb/）网站中找到。本篇博客中用到的代码可以在 github（https://github.com/marcoalt/Physionet-EHG-imbalanced-data）中找到] 几个星期前我阅读了一篇交叉验证的技术文档（Cross Validation Done Wrong）（http://www.alfred

06

【Scikit-Learn 中文文档】特征选择 - 监督学习 - 用户指南 | ApacheCN

本文介绍了机器学习中的特征选择方法，包括基于过滤的方法、基于包装的方法、基于嵌入的方法、基于树的方法和基于统计的方法。还介绍了各种特征选择方法在机器学习中的应用，包括降维、分类、聚类和推荐系统。最后，还介绍了特征选择方法的未来研究方向和挑战。

08

聊一聊sklearn顶层设计

scikit-learn 是基于 Python 语言的机器学习工具。它有如下特点：

03

从金融时序到图像识别：基于深度CNN的股票量化策略（附代码）

本文基于一篇题为《Algorithmic Financial Trading with Deep Convolutional Neural Networks: Time Series to Image Conversion Approach》的研究论文：

04

【干货】在Python中构建可部署的ML分类器

【导读】本文是机器学习爱好者 Sambit Mahapatra 撰写的一篇技术博文，利用Python设计一个二分类器，详细讨论了模型中的三个主要过程：处理不平衡数据、调整参数、保存模型和部署模型。文中

Scikit-learn 核心开发人员专访：建立机器学习工作流最容易犯这2点错误

本文是一篇对 Scikit-learn 开发者的专访，原载于 towardsdatascience，我们对其进行了编译整理，采访内容如下文。

03

机器学习——信用卡反欺诈案例

导入类库 1 import numpy as np 2 import pandas as pd 3 from pandas import Series, DataFrame 4 import matplotlib.pyplot as plt 5 from sklearn.preprocessing import StandardScaler 6 from imblearn.over_sampling import SMOTE 7 from sklearn.ensemble import Gra

02

Scikit-learn 核心开发人员专访：建立机器学习工作流最容易犯这2点错误

本文是一篇对 Scikit-learn 开发者的专访，原载于 towardsdatascience，我们对其进行了编译整理，采访内容如下文。

01

文末福利｜特征工程与数据预处理的四个高级技巧

用于创建新特征，检测异常值，处理不平衡数据和估算缺失值的技术可以说，开发机器学习模型的两个最重要的步骤是特征工程和预处理。特征工程包括特征的创建，而预处理涉及清理数据。

04

特征选择

过滤式是过滤式的方法先对数据集进行特征选择，然后再训练学习器，特征选择过程与后续学习器无关，也就是说我们先用特征选择过程对初始特征进行“过滤”，再用过滤后的特征来训练模型。

03

如何在机器学习竞赛中更胜一筹？

机器学习很复杂。你可能会遇到一个令你无从下手的数据集，特别是当你处于机器学习的初期。在这篇文章中，你将学到一些基本的关于建立机器学习模型的技巧，大多数人都从中获得经验。这些技巧由Marios Mic

07

机器学习中的特征选择

总第98篇本篇讲解一些特征工程部分的特征选择(feature_selection),主要包括以下几方面：特征选择是什么为什么要做特征选择特征选择的基本原则特征选择的方法及实现特征选择是什么特征选择也称特征子集选择，是从现有的m个特征中选出对机器学习有用的n个特征(n<=m)，以此降低特征维度减少计算量，同时也使模型效果达到最优。为什么要做特征选择在实际业务中，用于模型中的特征维度往往很高，几万维，有的一些CTR预估中维度高达上亿维，维度过高会增大模型计算复杂度，但是在这么多维数据中，并

05

带你了解sklearn中特征工程的几个使用方法

数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。根据特征使用方案，有计划地获取、处理和监控数据和特征的工作称之为特征工程,目的是最大限度地从原始数据中提取特征以供算法和模型使用。

02

sklearn中的这些特征工程技术都掌握了吗？

数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。根据特征使用方案，有计划地获取、处理和监控数据和特征的工作称之为特征工程,目的是最大限度地从原始数据中提取特征以供算法和模型使用。

01

特征选择

特征选择是特征工程里的一个重要问题，其目标是寻找最优特征子集。特征选择能剔除不相关(irrelevant)或冗余(redundant )的特征，从而达到减少特征个数，提高模型精确度，减少运行时间的目的。另一方面，选取出真正相关的特征简化模型，协助理解数据产生的过程。并且常能听到“数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已”，由此可见其重要性。但是它几乎很少出现于机器学习书本里面的某一章。然而在机器学习方面的成功很大程度上在于如果使用特征工程。

04

使用sklearn做特征工程

目录 1 特征工程是什么？ 2 数据预处理　　2.1 无量纲化　　　　2.1.1 标准化　　　　2.1.2 区间缩放法　　　　2.1.3 标准化与归一化的区别　　2.2 对定量特征二值化　　2.3 对定性特征哑编码　　2.4 缺失值计算　　2.5 数据变换　　2.6 回顾 3 特征选择　　3.1 Filter 　　　　3.1.1 方差选择法　　　　3.1.2 相关系数法　　　　3.1.3 卡方检验　　　　3.1.4 互信息法　　3.2 Wrapper 　　　　3.2.1 递归特征

05

特征工程之Scikit-learn

目录 1 特征工程是什么？ 2 数据预处理　　2.1 无量纲化　　　　2.1.1 标准化　　　　2.1.2 区间缩放法　　　　2.1.3 标准化与归一化的区别　　2.2 对定量特征二值化　　2.3 对定性特征哑编码　　2.4 缺失值计算　　2.5 数据变换　　2.6 回顾 3 特征选择　　3.1 Filter 　　　　3.1.1 方差选择法　　　　3.1.2 相关系数法　　　　3.1.3 卡方检验　　　　3.1.4 互信息法　　3.2 Wrapper 　　　　3.2.1 递归特征

07

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭