开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

如何使用get_dummies从现有列创建新列

使用get_dummies函数可以从现有列创建新列。get_dummies函数是pandas库中的一个函数，用于将分类变量转换为虚拟变量。它将分类变量的每个取值都转换为一个新的二进制变量，并将其赋予0或1的值。

使用get_dummies函数的语法如下：

pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False, dtype=None)

参数说明：

data：要进行转换的数据，可以是Series、DataFrame或者是数组。
prefix：新列的前缀，可以是字符串或者是字符串列表。默认为None。
prefix_sep：前缀与原始列名之间的分隔符，默认为'_'。
dummy_na：是否为NaN值创建一个虚拟变量列，默认为False。
columns：要进行转换的列名列表，默认为None，表示对所有列进行转换。
sparse：是否使用稀疏矩阵表示结果，默认为False。
drop_first：是否删除第一个虚拟变量列，默认为False。
dtype：指定结果的数据类型，默认为np.uint8。

使用get_dummies函数可以实现以下功能：

将分类变量转换为虚拟变量，方便进行机器学习等任务的处理。
创建新的列，每个取值对应一个新的二进制变量。
可以指定前缀和前缀分隔符，方便对新列进行命名。
可以选择是否为NaN值创建一个虚拟变量列。
可以选择是否使用稀疏矩阵表示结果，节省内存空间。
可以选择是否删除第一个虚拟变量列，避免多重共线性问题。

使用get_dummies函数的应用场景包括但不限于：

数据预处理：将分类变量转换为虚拟变量，方便进行机器学习任务的特征工程。
数据分析：对分类变量进行统计分析，比如计算不同类别的频数、占比等。
数据可视化：将分类变量转换为虚拟变量后，可以更方便地进行可视化展示。
特征工程：将分类变量转换为虚拟变量后，可以作为模型的输入特征。

腾讯云提供了云计算相关的产品和服务，其中与数据处理和分析相关的产品包括腾讯云数据万象（COS）、腾讯云数据库（TencentDB）等。具体产品介绍和链接地址如下：

腾讯云数据万象（COS）：腾讯云对象存储（Cloud Object Storage，简称COS）是一种存储海量文件的分布式存储服务，支持图片、音视频、文档等多种文件类型的存储和处理。它提供了丰富的数据处理功能，包括图像处理、音视频处理、内容审核等。了解更多信息，请访问：腾讯云数据万象（COS）
腾讯云数据库（TencentDB）：腾讯云数据库（TencentDB）是一种高性能、可扩展、全托管的云数据库服务，支持多种数据库引擎，包括云原生数据库TDSQL、云数据库MySQL、云数据库MariaDB、云数据库PostgreSQL、云数据库Redis等。它提供了丰富的功能和工具，方便用户进行数据存储、查询、分析等操作。了解更多信息，请访问：腾讯云数据库（TencentDB）

以上是关于如何使用get_dummies从现有列创建新列的完善且全面的答案。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

pandas.get_dummies 的用法

get_dummies 是利用pandas实现one hot encode的方式。详细参数请查看官方文档

04

Python数据分析之数据预处理（数据清洗、数据合并、数据重塑、数据转换）学习笔记

参考链接： Python | pandas 合并merge，联接join和级联concat

00

Pandas高级教程之:Dataframe的重排和旋转

使用Pandas的pivot方法可以将DF进行旋转变换，本文将会详细讲解pivot的秘密。

02

如何在 Python 中将分类特征转换为数字特征？

在机器学习中，数据有不同的类型，包括数字、分类和文本数据。分类要素是采用一组有限值（如颜色、性别或国家/地区）的特征。但是，大多数机器学习算法都需要数字特征作为输入，这意味着我们需要在训练模型之前将分类特征转换为数字特征。

02

机器学习| 第三周：数据表示与特征工程

到目前为止，表示分类变量最常用的方法就是使用 one-hot 编码（one-hot-encoding）或 N 取一编码（one-out-of-N encoding），也叫虚拟变量（dummy variable）。虚拟变量背后的思想是将一个分类变量替换为一个或多个新特征，新特征取值为 0 和 1 。如下图，是用来预测某个人的收入是大于 50K 还是小于 50K 的部分数据集。其中，只有 age 和 hour-per-week 特征是数值数据，其他则为非数值数据，编码就是要对这些非数值数据进行数值编码。将数据转换为分类变量的 one-hot 编码有两种方法：一种是使用 pandas，一种是使用 scikit-learn 。 pandas 使用起来会简单一点，故本文使用的是 pandas 方法。

02

关于sklearn独热编码二.字符串型类别变量

from sklearn.preprocessing import LabelEncoder

02

sklearn中多种编码方式——category_encoders（one-hot多种用法）

离散型编码的Python库，里面封装了十几种（包括文中的所有方法）对于离散型特征的编码方法，接口接近于Sklearn通用接口，非常实用可以使用多种不同的编码技术把类别变量转换为数值型变量，并且符合sklearn模式的转换。

02

机器学习特征数据预处理

关于特征值离散化的相关内容下面直接进行举例，主要是标签处理、特征处理和OneHot。

03

一文了解类别型特征的编码方法

一般特征可以分为两类特征，连续型和离散型特征，而离散型特征既有是数值型的，也有是类别型特征，也可以说是字符型，比如说性别，是男还是女；职业，可以是程序员，产品经理，教师等等。

03

干货：4个小技巧助你搞定缺失、混乱的数据（附实例代码）

导读：数据工作者经常会遇到各种状况，比如你收集到的数据并不像你期待的那样完整、干净。此前我们讲解了用OpenRefine搞定数据清洗，本文进一步探讨用pandas和NumPy插补缺失数据并将数据规范化、标准化。

03

机器学习归一化特征编码

因为对于大多数的机器学习算法和优化算法来说，将特征值缩放到相同区间可以使得获取性能更好的模型。就梯度下降算法而言，例如有两个不同的特征，第一个特征的取值范围为1——10，第二个特征的取值范围为1——10000。在梯度下降算法中，代价函数为最小平方误差函数，所以在使用梯度下降算法的时候，算法会明显的偏向于第二个特征，因为它的取值范围更大。在比如，k近邻算法，它使用的是欧式距离，也会导致其偏向于第二个特征。对于决策树和随机森林以及XGboost算法而言，特征缩放对于它们没有什么影响。

01

Pandas-31.通用方法-get_dummy

和factorize方法作用类似，但是会将拥有不同值的列转化为0/1的one-hot编码（Convert categorical variable into dummy/indicator variables）. *用于少量值反复出现，而且离散特征的取值之间没有大小的意义，比如color：[red,blue],那么就使用one-hot编码离散特征的取值有大小的意义，比如size:[X,XL,XXL],那么就使用数值的映射{X:1,XL:2,XXL:3}

04

Pandas分类数据和顺序数据转换为标志变量

#导入pandas库 import pandas as pd #OneHotEncoder用来将数值型类别变量转换为0-1的标志性变量 #LabelEncoder用来将字符串型变量转换为数值型变量 from sklearn.preprocessing import OneHotEncoder,LabelEncoder #生成数据 df=pd.DataFrame({'id':[321313,246852,447902], 'sex':['male','Female','Fe

04

Python中的虚拟变量(dummy variables)

虚拟变量(dummy variables) 虚拟变量，也叫哑变量和离散特征编码，可用来表示分类变量、非数量因素可能产生的影响。 ① 离散特征的取值之间有大小的意义例如：尺寸(L、XL、XXL) 离散特征的取值有大小意义的处理函数map pandas.Series.map(dict) 参数 dict:映射的字典 ② 离散特征的取值之间没有大小的意义 pandas.get_dummies 例如：颜色(Red,Blue,Green) 处理函数： get_dummies(data,prefix=None,pref

08

python数据预处理之将类别数据转换为数值的方法

有时候不得不处理一些非数值类别的数据，嗯，今天要说的就是面对这些数据该如何处理。

03

Pandas中的get_dummy()函数案例实战分享

前几天在Python最强王者交流群【WYM】问了一个Pandas处理的问题，提问截图如下：

02

特征锦囊：如何对类别变量进行独热编码？

很多时候我们需要对类别变量进行独热编码，然后才可以作为入参给模型使用，独热的方式有很多种，这里介绍一个常用的方法 get_dummies吧，这个方法可以让类别变量按照枚举值生成N个（N为枚举值数量）新字段，都是0-1的变量值。

03

Pandas中的get_dummy()函数案例实战分享

前几天在Python最强王者交流群【WYM】问了一个Pandas处理的问题，提问截图如下：

01

统计师的Python日记【第八天：数据清洗（2）文本处理】

本文是【统计师的Python日记】第8天的日记回顾一下：第1天学习了Python的基本页面、操作，以及几种主要的容器类型。第2天学习了python的函数、循环和条件、类。第3天了解了Numpy这个工具库。第4、5两天掌握了Pandas这个库的基本用法。第6天学习了数据的合并堆叠。第7天开始学习数据清洗，着手学会了重复值删除、异常值处理、替换、创建哑变量等技能。原文复习（点击查看）：第1天：谁来给我讲讲Python？第2天：再接着介绍一下Python呗【第3天：Numpy你好】【第

06

初学者使用Pandas的特征工程

Pandas是用于Python编程语言的开源高级数据分析和处理库。使用pandas，可以轻松加载，准备，操作和分析数据。它是用于数据分析操作的最优选和广泛使用的库之一。

03

算法工程师-特征工程类岗位面试题目

1) DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)函数作用：删除含有空值的行或列

04

Pandas 2.2 中文官方教程和指南（十四）

pandas 提供了用于操作Series和DataFrame的方法，以改变数据的表示形式，以便进行进一步的数据处理或数据汇总。

01

Pandas属性数值化方法

离散特征的编码分为两种情况： 1、离散特征的取值之间没有大小的意义，比如color：[red,blue],那么就使用one-hot编码 2、离散特征的取值有大小的意义，比如size:[X,XL,XXL],那么就使用数值的映射{X:1,XL:2,XXL:3} 使用pandas可以很方便的对离散型特征进行one-hot编码

03

房价数据转换和清洗

下载链接：https://pan.baidu.com/s/16D5hw-XBEQnwtsf4fDJ8xw 密码：e1fg

02

建模过程中分类变量的处理（笔记一）

自己最浅显的理解：数学建模是基于数学表达式，数学表达式只认数字（连续变量），不认字符（分类变量）；那么如何将我们收集到的数据中的字符转换成数字，科学家起了一个比较高端的名字叫做特征工程（feature engineering）比如这一小节中使用到的示例数据：1994年美国成年人的收入，此数据集的任务是预测一名工人的收入是高于50,000美元还是低于50,000美元。数据集中的变量包括：

01

Pandas中的数据转换[细节]

Pandas中的axis参数=0时，永远表示的是处理方向而不是聚合方向，当axis='index'或=0时，对列迭代对行聚合，行即为跨列，axis=1同理 💥

01

小案例(六)：预测小偷行为（python）

案件回顾杂货店屡遭贼杂货店遭小偷情况严重现有8个月内，每天的失窃纪录偷窃者有老顾客家属和学生，店主希望能防患于未然（问题：失窃是否有规律？怎样运用规律堤防盗贼？）时间序列分析将数据存储

07

清洗数据，我习惯用这 7 步！

数据清洗 (data cleaning) 是机器学习和深度学习进入算法步前的一项重要任务，我平时比较习惯使用的 7 个步骤，总结如下：

05

机器学习笔记——哑变量处理

在机器学习的特征处理环节，免不了需要用到类别型特征，这类特征进入模型的方式与一般数值型变量有所不同。

03

房价数据转换和清洗2

下载链接：https://pan.baidu.com/s/16D5hw-XBEQnwtsf4fDJ8xw 密码：e1fg

01

在pandas中使用pipe()提升代码可读性

我们在利用pandas开展数据分析时，应尽量避免过于碎片化的组织代码，尤其是创建出过多不必要的中间变量，既浪费了内存，又带来了关于变量命名的麻烦，更不利于整体分析过程代码的可读性，因此以流水线方式组织代码非常有必要。

01

【Python基础】在pandas中使用pipe()提升代码可读性

我们在利用pandas开展数据分析时，应尽量避免过于「碎片化」的组织代码，尤其是创建出过多不必要的「中间变量」，既浪费了「内存」，又带来了关于变量命名的麻烦，更不利于整体分析过程代码的可读性，因此以流水线方式组织代码非常有必要。

03

【说站】python数据离散化是什么

1、连续属性的离散化就是将连续属性的值域上，将值域划分为若干个离散的区间，最后用不同的符号或整数值代表落在每个子区间的属性值。

03

在pandas中使用pipe()提升代码可读性

我们在利用pandas开展数据分析时，应尽量避免过于「碎片化」的组织代码，尤其是创建出过多不必要的「中间变量」，既浪费了「内存」，又带来了关于变量命名的麻烦，更不利于整体分析过程代码的可读性，因此以流水线方式组织代码非常有必要。

03

《利用Python进行数据分析·第2版》第7章数据清洗和准备7.1 处理缺失数据7.2 数据转换7.3 字符串操作7.4 总结

在数据分析和建模的过程中，相当多的时间要用在数据准备上：加载、清理、转换以及重塑。这些工作会占到分析师时间的80%或更多。有时，存储在文件和数据库中的数据的格式不适合某个特定的任务。许多研究者都选择使用通用编程语言（如Python、Perl、R或Java）或UNIX文本处理工具（如sed或awk）对数据格式进行专门处理。幸运的是，pandas和内置的Python标准库提供了一组高级的、灵活的、快速的工具，可以让你轻松地将数据规变为想要的格式。如果你发现了一种本书或pandas库中没有的数据操作方式，请尽管

09

数据分析之Pandas变形操作总结

pandas 是一个强大的分析结构化数据的工具集；它的使用基础是Numpy（提供高性能的矩阵运算）；用于数据挖掘和数据分析，同时也提供数据清洗功能。

02

数据预处理的 10 个小技能，附 Pandas 实现

数据预处理常用的处理步骤，包括找出异常值、处理缺失值、过滤不合适值、去掉重复行、分箱、分组、排名、category转数值等，下面使用 pandas 解决这些最常见的预处理任务。

01

Pandas-11. 文本操作

Pandas-11. 文本操作以如下代码作为例子： s = pd.Series(['Tom ', ' William Rick', 'John', 'Alber@t']) lower() 将Series/Index中的字符串转换为小写 upper() 将Series/Index中的字符串转换为答谢 len() 计算字符串长度 strip() 从Series/Index中的字符串中两侧删除空白字符 split() 用给定的模式拆分字符串 cat(sep=' ') 用给定的模式连接Series/I

03

泰坦尼克号生还率预测

首先要把 xls 文件中的数据读进来，使用 pandas 库的 read_excel()：

02

pandas进阶

pandas使用get_dummies进行one-hot编码 import pandas as pd df = pd.DataFrame([ ['green', 'M', 10.1, 'class1'], ['red', 'L', 13.5, 'class2'], ['blue', 'XL', 15.3, 'class1']]) df.columns = ['color', 'size', 'prize', '

01

Kaggle入门之预测房价

先给出本次参赛的地址House Prices: Advanced Regression Techniques

04

50个Pandas的奇淫技巧:向量化字符串，玩转文本处理

对于文本数据的处理(清洗)，是现实工作中的数据时不可或缺的功能，在这一节中,我们将介绍Pandas的字符串操作。Python内置一系列强大的字符串处理方法，但这些方法只能处理单个字符串，处理一个序列的字符串时，需要用到for循环。

06

【Kaggle】Intro to Machine Learning 第一次提交 Titanic

各个 tab 下可以查看数据Data、代码编写Notebooks、讨论、排名、比赛规则、队伍

01

什么是机器学习中类别数据的转换？

数据预处理一直机器学习项目中最耗时间的工作，我们常常会遇到一些非数值数据，比如城市建筑物的商用类别、餐馆的菜系类别、手机中app的用途类别等等，这些数据并没有数值含义，无大小之分，仅仅是分类不同。

02

数据科学 IPython 笔记本 7.13 向量化字符串操作

Python 的一个优点是它在处理和操作字符串数据方面相对容易。Pandas 构建于此之上，并提供了一套全面的向量化字符串操作，它们成为处理（阅读“清理”部分）实际数据时所需的重要部分。在本节中，我们将介绍一些 Pandas 字符串操作，然后使用它们来部分清理从互联网收集的，非常混乱的食谱数据集。

02

数据预处理-对类别数据的处理方法

参数: -indices: A Tensor of indices. -depth: A scalar defining the depth of the one hot dimension. -on_value: A scalar defining the value to fill in output when indices[j] = i. (default: 1) -off_value: A scalar defining the value to fill in output when indices[j] != i. (default: 0) -axis: The axis to fill (default: -1, a new inner-most axis). -dtype: The data type of the output tensor.

02

100天搞定机器学习|Day15 朴素贝叶斯

托马斯·贝叶斯 (Thomas Bayes),英国神学家、数学家、数理统计学家和哲学家，1702年出生于英国伦敦，做过神甫；1742年成为英国皇家学会会员；1763年4月7日逝世。贝叶斯曾是对概率论与统计的早期发展有重大影响的两位（贝叶斯和布莱斯·帕斯卡Blaise Pascal）人物之一。

04

Pandas实现哑变量

哑变量又叫做虚拟变量，虚设变量或者名义变量，是人为设定的用于将分类变量引入回归模型中的方法。比如学历、职业、性别等分类变量的数据是不能量化的，通过构造0和1的哑变量可以考察定性因素（分类变量）对因变量的影响。

03

kaggle示例1—研究生录取判断问题

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/haluoluo211/article/details/78767380

02

数据分析 ——— pandas基础（三）

接着之前的文章，在这里我们来看一些利用pandas处理文本数据，利用索引，loc, iloc,ix，属性选取数据

02

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭