开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

pd.get_dummies(df，columns=[ 'x‘])只是再次创建与虚拟列相同的列’x‘

pd.get_dummies(df, columns=['x'])是一个Pandas库中的函数，用于将指定的列进行独热编码（One-Hot Encoding）处理。

独热编码是一种常用的特征工程方法，用于将具有离散取值的特征转换为二进制向量表示，以便机器学习算法能够更好地处理这些特征。在独热编码中，每个可能的取值都被表示为一个独立的二进制特征，其中只有一个特征为1，其余特征为0。

这个函数的参数df是一个DataFrame对象，表示要进行独热编码的数据集。columns参数是一个列表，指定要进行独热编码的列名。

该函数的返回结果是一个新的DataFrame对象，其中包含了原始数据集df中的所有列，以及根据指定的列进行独热编码生成的虚拟列。

优势：

独热编码能够将离散特征转换为机器学习算法更容易理解和处理的形式。
独热编码能够消除离散特征之间的大小关系，避免机器学习算法错误地认为某些特征之间存在顺序关系。
独热编码能够解决离散特征取值之间的距离问题，使得特征之间的距离计算更加合理。

应用场景：

机器学习任务中，特别是分类任务，需要将离散特征转换为可供算法处理的形式。
处理具有多个离散取值的特征，如性别、地区、职业等。

腾讯云相关产品推荐：腾讯云提供了多个与云计算相关的产品和服务，以下是一些相关产品的介绍链接：

云服务器（CVM）：https://cloud.tencent.com/product/cvm
云数据库 MySQL 版（CDB）：https://cloud.tencent.com/product/cdb
人工智能平台（AI Lab）：https://cloud.tencent.com/product/ailab
云存储（COS）：https://cloud.tencent.com/product/cos
区块链服务（Tencent Blockchain）：https://cloud.tencent.com/product/tencent-blockchain

请注意，以上链接仅供参考，具体的产品选择应根据实际需求进行评估和决策。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

pandas.get_dummies 的用法

get_dummies 是利用pandas实现one hot encode的方式。详细参数请查看官方文档

04

Pandas 2.2 中文官方教程和指南（十四）

pandas 提供了用于操作Series和DataFrame的方法，以改变数据的表示形式，以便进行进一步的数据处理或数据汇总。

01

房价数据转换和清洗

下载链接：https://pan.baidu.com/s/16D5hw-XBEQnwtsf4fDJ8xw 密码：e1fg

02

Pandas实现哑变量

哑变量又叫做虚拟变量，虚设变量或者名义变量，是人为设定的用于将分类变量引入回归模型中的方法。比如学历、职业、性别等分类变量的数据是不能量化的，通过构造0和1的哑变量可以考察定性因素（分类变量）对因变量的影响。

03

Pandas高级教程之:Dataframe的重排和旋转

使用Pandas的pivot方法可以将DF进行旋转变换，本文将会详细讲解pivot的秘密。

02

房价数据转换和清洗2

下载链接：https://pan.baidu.com/s/16D5hw-XBEQnwtsf4fDJ8xw 密码：e1fg

01

机器学习归一化特征编码

因为对于大多数的机器学习算法和优化算法来说，将特征值缩放到相同区间可以使得获取性能更好的模型。就梯度下降算法而言，例如有两个不同的特征，第一个特征的取值范围为1——10，第二个特征的取值范围为1——10000。在梯度下降算法中，代价函数为最小平方误差函数，所以在使用梯度下降算法的时候，算法会明显的偏向于第二个特征，因为它的取值范围更大。在比如，k近邻算法，它使用的是欧式距离，也会导致其偏向于第二个特征。对于决策树和随机森林以及XGboost算法而言，特征缩放对于它们没有什么影响。

01

Python数据分析模块 | pandas做数据分析(二):常用预处理操作

在数据分析和机器学习的一些任务里面,对于数据集的某些列或者行丢弃，以及数据集之间的合并操作是非常常见的. 1、合并操作 pandas.merge pandas.merge(left, right, how=’inner’, on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=(‘_x’, ‘_y’), copy=True, indicator=False) 作用:通过执

06

sklearn中多种编码方式——category_encoders（one-hot多种用法）

离散型编码的Python库，里面封装了十几种（包括文中的所有方法）对于离散型特征的编码方法，接口接近于Sklearn通用接口，非常实用可以使用多种不同的编码技术把类别变量转换为数值型变量，并且符合sklearn模式的转换。

02

经典中的经典--泰坦尼克号的乘客生存预测

数据分析/挖掘是以概率论、线性代数、统计学、信息论为基础，根据之前接触到的数据挖掘流程，可定义为：数据准备-->数据探索--> 数据预处理-->特征工程-->模型建立-->模型评估，其中数据探索、数据预处理、特征工程针对某一属性同时进行。

03

数据分析之Pandas变形操作总结

pandas 是一个强大的分析结构化数据的工具集；它的使用基础是Numpy（提供高性能的矩阵运算）；用于数据挖掘和数据分析，同时也提供数据清洗功能。

02

python 逻辑回归_python实现逻辑回归

logistic回归又称logistic回归分析，是一种广义的线性回归分析模型，常用于数据挖掘，疾病自动诊断，经济预测等领域。逻辑回归为发生概率除以没有发生概率再取对数，且因变量为二分类的分类变量或某事件的发生率。

00

python数据预处理之将类别数据转换为数值的方法

有时候不得不处理一些非数值类别的数据，嗯，今天要说的就是面对这些数据该如何处理。

03

15个基本且常用Pandas代码片段

Pandas提供了强大的数据操作和分析功能，是数据科学的日常基本工具。在本文中，我们将介绍最常用的15个Pandas代码片段。这些片段将帮助简化数据分析任务，从数据集中提取有价值的见解。

01

为你的机器学习模型创建API服务

当调包侠们训练好一个模型后，下一步要做的就是与业务开发组同学们进行代码对接，以便这些‘AI大脑’们可以顺利的被使用。然而往往要面临不同编程语言的挑战，例如很常见的是调包侠们用Python训练模型，开发同学用Java写业务代码，这时候，Api就作为一种解决方案被使用。

02

3大树模型实战乳腺癌预测分类

本文从特征的探索分析出发，经过特征工程和样本均衡性处理，使用决策树、随机森林、梯度提升树对一份女性乳腺癌的数据集进行分析和预测建模。

03

数据科学和人工智能技术笔记三、数据预处理

EllipticEnvelope假设数据是正态分布的，并且基于该假设，在数据周围“绘制”椭圆，将椭圆内的任何观测分类为正常（标记为1），并将椭圆外的任何观测分类为异常值（标记为-1）。这种方法的一个主要限制是，需要指定一个contamination参数，该参数是异常观测值的比例，这是我们不知道的值。

02

Pandas属性数值化方法

离散特征的编码分为两种情况： 1、离散特征的取值之间没有大小的意义，比如color：[red,blue],那么就使用one-hot编码 2、离散特征的取值有大小的意义，比如size:[X,XL,XXL],那么就使用数值的映射{X:1,XL:2,XXL:3} 使用pandas可以很方便的对离散型特征进行one-hot编码

03

Kaggle Titanic 生存预测比赛超完整笔记（中）

一直想在Kaggle上参加一次比赛，奈何被各种事情所拖累。为了熟悉一下比赛的流程和对数据建模有个较为直观的认识，断断续续用一段时间做了Kaggle上的入门比赛：Titanic: Machine Learning from Disaster。总的来说收获还算是挺大的吧。本来想的是只简单的做一下，在整个进行的过程中发现有很多好的Kernels以及数据分析的流程和方法，但是却鲜有比较清晰直观的流程和较为全面的分析方法。所以，本着自己强迫症的精神，同时也算对这次小比赛的一些方式方法以及绘图分析技巧做一个较为系统的

06

机器学习| 第三周：数据表示与特征工程

到目前为止，表示分类变量最常用的方法就是使用 one-hot 编码（one-hot-encoding）或 N 取一编码（one-out-of-N encoding），也叫虚拟变量（dummy variable）。虚拟变量背后的思想是将一个分类变量替换为一个或多个新特征，新特征取值为 0 和 1 。如下图，是用来预测某个人的收入是大于 50K 还是小于 50K 的部分数据集。其中，只有 age 和 hour-per-week 特征是数值数据，其他则为非数值数据，编码就是要对这些非数值数据进行数值编码。将数据转换为分类变量的 one-hot 编码有两种方法：一种是使用 pandas，一种是使用 scikit-learn 。 pandas 使用起来会简单一点，故本文使用的是 pandas 方法。

02

使用Python线性回归预测Steam游戏的打折的幅度

上篇文章我们解决了Steam是否打折的问题，这篇文章我们要解决的是到底打折幅度有多少，这里我们就不能使用分类模型，而需要使用回归的模型了。

03

机器学习特征数据预处理

关于特征值离散化的相关内容下面直接进行举例，主要是标签处理、特征处理和OneHot。

03

LightGBM大战XGBoost，谁将夺得桂冠？

如果你是一个机器学习社区的活跃成员，你一定知道 **提升机器**（Boosting Machine）以及它们的能力。提升机器从AdaBoost发展到目前最流行的XGBoost。XGBoost实际上已经成为赢得在Kaggle比赛中公认的算法。这很简单，因为他极其强大。但是，如果数据量极其的大，XGBoost也需要花费很长的时间去训练。

03

pandas进阶

pandas使用get_dummies进行one-hot编码 import pandas as pd df = pd.DataFrame([ ['green', 'M', 10.1, 'class1'], ['red', 'L', 13.5, 'class2'], ['blue', 'XL', 15.3, 'class1']]) df.columns = ['color', 'size', 'prize', '

01

# LightGBM大战XGBoost，谁将夺得桂冠？

如果你是一个机器学习社区的活跃成员，你一定知道提升机器（Boosting Machine）以及它们的能力。提升机器从AdaBoost发展到目前最流行的XGBoost。XGBoost实际上已经成为赢得在Kaggle比赛中公认的算法。这很简单，因为他极其强大。但是，如果数据量极其的大，XGBoost也需要花费很长的时间去训练。

04

50个超强的Pandas操作！！

首先给出一个示例数据，是一些用户的账号信息，基于这些数据，这里给出最常用，最重要的50个案例。

01

LightGBM大战XGBoost，谁将夺得桂冠？

如果你是一个机器学习社区的活跃成员，你一定知道 **提升机器**（Boosting Machine）以及它们的能力。提升机器从AdaBoost发展到目前最流行的XGBoost。XGBoost实际上已经成为赢得在Kaggle比赛中公认的算法。这很简单，因为他极其强大。但是，如果数据量极其的大，XGBoost也需要花费很长的时间去训练。

03

Kaggle泰坦尼克号船难--逻辑回归预测生存率

（三）需要的库：numpy + pandas + matplotlib + sklearn Win 10安装numpy、pandas、scipy、matplotlib和sklearn Win 10系统matplotlib中文无法显示的解决方案

04

机器学习入门数据集--2.波士顿房价

sklearn有一个较小的房价数据集，特征有13个维度。而这个在数据集中，特征维度是79，本文用了2种模型对数据进行处理，线性回归模型和随机森林；用了2种模型评判方法R2和MSE。通过实验数据表明，随机森林模型的效果更好，一种原因是随机森林的Bag模型有抗过拟合效果更好，另一方面房价特征较多，决策树模型可以得到更好的结果。数据展示波士顿房价数据集，sklearn中可以下载已经做好预处理的数据集。 import sklearn import numpy as np from sklearn.data

02

还对样本不平衡一筹莫展？来看看这个案例吧！

机器学习中样本不平衡，怎么办？中详细介绍了何谓样本不平衡，样本不平衡处理策略与常用方法。还包含分类模型评价指标。感兴趣或者需要的小伙伴们可以跳转查看。

03

再见了！Pandas！！

先把pandas的官网给出来，有找不到的问题，直接官网查找：https://pandas.pydata.org/

01

Pandas入门操作

pandas中的一些入门操作 Pandas导入 import pandas as pd import numpy as np 创建DataFram # 手动穿件数据集 df = pd.DataFrame([ [1001,'Mike',20], [1002,'Bob',21], [1003,'Alice',22], ]) # 从磁盘导入数据集 df = pd.read_excel('c:/Users/58212/Desktop/house_info_00

02

Python下数值型与字符型类别变量独热编码（One-hot Encoding）实现

在数据处理与分析领域，数值型与字符型类别变量的编码是不可或缺的预处理操作。本文基于Python下OneHotEncoder与pd.get_dummies两种方法，对机器学习中最优的编码方法——独热编码加以实现。

03

经典永不过时的句子_网红的成功案例分析

本周给大家分享的数据分析案例是泰坦尼克号幸存者预测的项目，没记错的话，这应该是很多朋友写在简历上的项目经历。如果你目前正在找工作，自身缺少项目经历并且想要充实项目经历的话，可以考虑一下这个项目！

02

15个高效的Pandas代码片段

Python的Pandas库是数据科学家必备的基础工具，在本文中，我们将整理15个高级Pandas代码片段，这些代码片段将帮助你简化数据分析任务，并从数据集中提取有价值的见解。

02

循环编码:时间序列中周期性特征的一种常用编码方式

在深度学习或神经网络中，"循环编码"（Cyclical Encoding）是一种编码技术，其特点是能够捕捉输入或特征中的周期性或循环模式。这种编码方法常用于处理具有周期性行为的任务，比如时间序列预测或理解展示周期性特征的序列。

01

python 数据分析基础 day19－使用statsmodels进行逻辑回归

今天是读《python数据分析基础》的第19天，读书笔记内容为使用statsmodels进行逻辑回归。以下代码将按数据清洗、训练模型、得出测试集的预测值这三个步骤展示逻辑回归模型的使用。注： 1.数据来源于https://github.com/cbrownley/foundations-for-analytics-with-python/tree/master/statistics/churn.csv 2.使用statsmodels构建逻辑回归模型之前，需要手动为自变量添加常数项 #使用

07

收藏 | 提高数据处理效率的 Pandas 函数方法

作者：俊欣来源：关于数据分析与可视化前言大家好，这里是俊欣，今天和大家来分享几个Pandas方法可以有效地帮助我们在数据分析与数据清洗过程当中提高效率，加快工作的进程，希望大家看了之后会有收获。首先导入模块和读取数据，这回用到的数据集中有各种各样类型的数据,链接为：https://www.kaggle.com/dgomonov/new-york-city-airbnb-open-data import pandas as pd df = pd.read_csv("AB_NYC_2019.csv")

02

泰坦尼克号生还率预测

首先要把 xls 文件中的数据读进来，使用 pandas 库的 read_excel()：

02

python开发：特征工程代码模版（一）

作为一个算法工程师，我们接的业务需求不会比数据分析挖掘工程师少，作为一个爱偷懒的人，总机械重复的完成一样的预处理工作，我是不能忍的，所以在最近几天，我正在完善一些常规的、通用的预处理的code，方便我们以后在每次分析之前直接import快速搞定，省的每次都要去做一样的事情。

02

Python数据挖掘｜银行信用卡客户流失预测(kaggle)

越来越多的客户不再使用信用卡服务，银行的经理对此感到不安。如果有人能为他们预测哪些客户即将流失，他们将不胜感激，因为这样他们可以主动向客户提供更好的服务，并挽回这些即将流失的客户。

06

kaggle示例1—研究生录取判断问题

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/haluoluo211/article/details/78767380

02

二手车价格预测 | 构建AI模型并部署Web应用 ⛵

一份来自『RESEARCH AND MARKETS』的二手车报告预计，从 2022 年到 2030 年，全球二手车市场将以 6.1% 的复合年增长率增长，到 2030 年达到 2.67 万亿美元。人工智能技术的广泛使用增加了车主和买家之间的透明度，提升了购买体验，极大地推动了二手车市场的增长。

05

11个常见的分类特征的编码技术

器学习算法只接受数值输入，所以如果我们遇到分类特征的时候都会对分类特征进行编码，本文总结了常见的11个分类变量编码方法。

03

Pandas-31.通用方法-get_dummy

和factorize方法作用类似，但是会将拥有不同值的列转化为0/1的one-hot编码（Convert categorical variable into dummy/indicator variables）. *用于少量值反复出现，而且离散特征的取值之间没有大小的意义，比如color：[red,blue],那么就使用one-hot编码离散特征的取值有大小的意义，比如size:[X,XL,XXL],那么就使用数值的映射{X:1,XL:2,XXL:3}

04

Python数据分析之数据预处理（数据清洗、数据合并、数据重塑、数据转换）学习笔记

参考链接： Python | pandas 合并merge，联接join和级联concat

00

数据预处理之One-Hot

前面一节我们讲了机器学习过程中的特征工程处理，那么这一节是不是该到数据预处理了呢，对头！

02

Tensorflow实现将标签变为one-hot形式

pandas中get_dummies()函数可以将字段进行编码，转换为01形式，其中prefix可以为每个新展开的列名添加前缀。

02

Pandas进阶之数据规整化

---- 概述在Pandas基本使用简单了介绍了一下Pandas的基本使用和用法，大家如果没有一点基础的同学可以先看一下那篇文章。今天我们来讲解一下Pandas的高级用法。 Numpy基本用法在讲解Pandas高级特性之前，我们先来学习一下Numpy。Numpy是高性能计算和数据分析的基础包，一种ndarray的多维数组对象并且是一个同构的数据多维容器。创建和操作一个多维数组，我们来看一下简单的代码片段。 arr = np.arange(10,dtype=np.float32) # np.zero,n

03

泰坦尼克号之生存预测(1)

上一节一起学习了one-hot编码，那么本节主要偏重实践，一起践行one-hot！

02

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭