Pandas -值来自另一列的get_dummies

Pandas是一个基于Python的开源数据分析和数据处理工具库。它提供了简单且高效的数据结构，如Series和DataFrame，用于处理和分析结构化数据。

根据题目所述，题目是关于使用Pandas中的get_dummies方法将值来自另一列的数据进行独热编码。

首先，get_dummies是Pandas库中的一个函数，用于将分类变量进行独热编码。独热编码是一种将分类变量转换为二进制向量表示的技术，使得模型可以更好地理解和处理这些分类数据。

在Pandas中使用get_dummies方法可以完成以下操作：

将指定列中的分类变量进行独热编码。
生成新的DataFrame，其中包含原始数据和编码后的二进制向量列。
根据分类变量的唯一值创建新的列，并将原始数据中的值映射到对应的列上。

get_dummies方法具有以下参数：

data：需要进行独热编码的DataFrame或Series。
columns：指定需要进行编码的列名，如果不指定则默认对所有分类变量进行编码。
prefix：指定生成的列名的前缀。
prefix_sep：指定生成的列名前缀与原始列名之间的分隔符。
dummy_na：是否为缺失值创建额外的列，默认为False。

下面是一个示例使用get_dummies方法的代码：

import pandas as pd

# 创建一个DataFrame
data = pd.DataFrame({'category': ['A', 'B', 'A', 'C', 'B']})

# 对'category'列进行独热编码
encoded_data = pd.get_dummies(data['category'], prefix='category')

# 将编码结果与原始数据合并
result = pd.concat([data, encoded_data], axis=1)

print(result)

输出结果如下：

  category  category_A  category_B  category_C
0        A           1           0           0
1        B           0           1           0
2        A           1           0           0
3        C           0           0           1
4        B           0           1           0

这段代码的功能是将原始数据中的'category'列进行独热编码，并将编码结果与原始数据合并。最终生成的DataFrame包含原始数据和编码后的三个二进制向量列。其中，原始数据的'category'列被映射到对应的列上。

推荐的腾讯云相关产品：在腾讯云上进行数据分析和处理，可以使用腾讯云的云服务器、弹性MapReduce（EMR）等产品。具体可以参考腾讯云的相关产品文档：

以上是关于Pandas中get_dummies方法的概念、分类、优势、应用场景以及推荐的腾讯云产品的介绍。希望能对您有所帮助！

如何将返回的单热编码列合并到原始数据帧中？

、、、、

我有一个包含21个不同列的banking_dataframe，其中一个是目标，其中10个是数字特征，10个是分类特征。我已经使用pandas的get_dummies方法将分类数据转换为one-hot编码。返回的dataframe有74列。现在，我想将编码的数据帧与原始数据帧合并，这样我的最终数据就应该有一个分类列的热编码值，但数据帧的原始大小是21列</e

浏览 2提问于2019-08-01得票数 0

3回答

Pandas -值来自另一列的get_dummies

、、

列Mfr Number是一种分类数据类型。我希望对其执行get_dummies或热编码，但如果新列来自该行，我希望它填充来自quantity列的值，而不是用1填充该列。所有其他新的“虚拟对象”在该行上应该保持为0。这个是可能的吗？

浏览 13提问于2019-03-21得票数 3

回答已采纳

4回答

熊猫一种热编码:将频率较低的类别捆绑在一起

、、、

我正在对一个包含大约18个不同类型值的分类列进行一次热编码。我只想为那些值创建新列，这些值显示的值超过某个阈值(假设为1%)，并创建另一个名为other values的列，该列的值为1如果值不是那些频繁的值。我在用Pandas和Sci-kit学习。我已经探索过熊猫g

浏览 5提问于2017-04-10得票数 6

回答已采纳

4回答

在熊猫中用多个值的列创建假人

、、、

我正在寻找一种pythonic的方法来处理以下问题。现在，我需要处理这件事。一个列，让我们称之为“标签”，具有类似于['A', 'B', 'C',

浏览 1提问于2013-09-19得票数 37

回答已采纳

1回答

ValueError:在将决策树的要素转换为整数后，无法将字符串转换为浮点型

、

) dtree.fit(car_df, y) 然而，我得到了一个错误：ValueError: could not convert string to float: 'buying'‘购买’是数据集中的第一个分类特征

浏览 222提问于2021-03-29得票数 0

1回答

熊猫-只有特定的价值才能得到假人。

、、

我有一个由10000行组成的Pandas系列，其中填充了一个字母，从A到Z。但是，我想使用Pandas get_dummies为A、B和C创建虚拟数据帧。我该怎么做？我不希望获得列中所有行值的虚拟值，然后选择特定的列，因为该列包含其他冗余数据，这些数据最终会导致内存错误。

浏览 2提问于2015-11-03得票数 8

回答已采纳

2回答

如何让熊猫get_dummies发出N-1个变量来避免共线性？

、、、

pandas.get_dummies为每个类别值发出一个伪变量。有没有什么自动的，简单的方法让它只创建N-1个虚拟变量？(随意去掉一个“基线”变量)？需要避免数据集中的共线性。

浏览 0提问于2015-07-19得票数 21

回答已采纳

1回答

机器学习中的分类属性预处理

、、、、

numpy.unique() vs Pandas.get_dummies() numpy.unique()将数据转换为所有K类的数组，并将每个值的索引作为新列返回，而get_dummies()只创建具有(0,1)值的k列。将分类数据转换为数字的哪种方法最适合机器学习，以及为什么?

浏览 0提问于2018-02-24得票数 0

回答已采纳

1回答

如何在一个热点表示中转换整个熊猫数据帧？

、、

我希望所有的列都是热编码的，而不需要列出列，或者一个一个地应用热编码。我知道如何在一列之后另一列做。 📷

浏览 0提问于2019-03-12得票数 0

回答已采纳

1回答

使用另一列的值创建虚拟变量

、

我知道熊猫有一个get_dummies()函数。我要做的不仅仅是给它放一个1/0的值，还要为它使用来自另一列的值。b 35 b 5我想把它变成：1 1 0 03 0 3 05 0 5 0如果虚拟变量的值来自B列，则ID是标识的</em

浏览 3提问于2020-03-07得票数 2

回答已采纳

1回答

如何利用Pandas* get_dummies对预测数据进行预测？*

在3个分类列上使用Pandas get_dummies来获得一个热编码的Dataframe之后，我已经训练了一个Perceptron模型(并取得了一些成功)。现在我想预测一个新的观察结果，它不是热编码。有任何方法记录get_dummies列映射来重用它吗？

浏览 2提问于2018-05-31得票数 5

回答已采纳

1回答

将分类数值数据编码到不同的列

、、

我是数据科学和机器学习的新手。我有一个有三个值0,1,2的列，我想用前缀predict_将这3个值编码成3个不同的列。我尝试过get_dummies和label编码器，但它不起作用 import pandas as pdle = LabelE

浏览 13提问于2019-09-17得票数 0

回答已采纳

1回答

Pandas/Scikit -在创建特征向量时应用稀疏PCA

、、、、

我计划使用Pandas get_dummies()生成一个70000行150000列的大型稀疏矩阵，但是我得到了一个MemoryError。我如何在这个稀疏矩阵上应用PCA来降维？

浏览 1提问于2015-11-06得票数 0

2回答

在python pandas中将分类属性转换为多个属性

、

例如，性别属性将被转换为两个属性，"Genre=M“和"Genre=F"，I需要两个列Male和Female，分配对应于该属性存在与否的二进制值

浏览 0提问于2019-02-23得票数 1

1回答

如何编码具有大量值的CATEGORICAL_COLUMNS？

、、、

我正在使用Tensorflow、python、Pandas创建一个类似于此的logistic回归模型。我使用的不是MNist数据集，而是我自己的数据集。我使用Pandas创建数据格式，将nulls替换为填充it函数，然后使用from_tensor_slices将其转换为张量数据集。我有很多CATEGORICAL_COLUMNS，我正在使用get_dummies来做OneHotEncoding (和LabelEncoding一起)。但问题是，我的分类列有很大的<

浏览 2提问于2020-03-30得票数 0

回答已采纳

2回答

sklearn LabelEncoder和pd.get_dummies有什么不同？

、、

我想知道sklearn LabelEncoder和pandas get_dummies之间的区别。为什么人们会选择LabelEncoder而不是get_dummies。使用一种方法比使用另一种方法有什么优势？劣势？

浏览 0提问于2016-07-17得票数 17

回答已采纳

1回答

需要帮助创建使用另一列中的值而不是'1‘的伪伪变量

、、、

该函数与get_dummies()在pandas中的工作方式几乎完全相同，只有一个主要区别:对于创建的所有伪变量，我需要A列中的值，其中值应为1。<code>A1</code> 我正在处理具有大量类别的相当大的数据。我尝试过在数据集上使用get_dummies()，然后使用df.mask将所有的1都改为df.A，但是这非常慢(大约10分钟)。

浏览 11提问于2019-03-27得票数 0

回答已采纳

2回答

str.split()返回的熊猫排序列表

、、、、

给定类型为str的Pandas，我希望对str.split返回的结果进行排序。我想到了像s.str.split(',').sort()这样的东西。然而，我在Pandas中找不到这类功能。还有其他想法吗？另一个想法是使用函数get_dummies，然后重新设置列，最后执行类似于join_dummies的操作。但是，我找不到这样一个函数join_dummies。

浏览 3提问于2016-05-02得票数 4

回答已采纳

1回答

Pandas get_dummies()限制。不转换所有列

、、

我的数据中有6列。其中2种具有约3K的独特值。当我对整个dataframe或这两个列使用get_dummies()时，返回的是与3k值完全相同的列。get_dummies无法伪造更大的列。有些列确实有一个热编码，但大型列却没有。我相信这也是在这里讨论的</em

浏览 4提问于2016-09-14得票数 4

回答已采纳

1回答

OneHotEncoder更改名称列

、、、

我使用OneHotencoder将分类列转换为数值数据，但算法更改了列的名称。如何保存相同的名称列？(我使用python 3)>>> import pandas >>> ar = numpy.array([['yassine', 1], ['jack',7], ['ahmed',4]]) >>

浏览 1提问于2019-04-10得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Pandas -值来自另一列的get_dummies

相关·内容

如何将返回的单热编码列合并到原始数据帧中？

Pandas -值来自另一列的get_dummies

熊猫一种热编码:将频率较低的类别捆绑在一起

在熊猫中用多个值的列创建假人

ValueError:在将决策树的要素转换为整数后，无法将字符串转换为浮点型

熊猫-只有特定的价值才能得到假人。

如何让熊猫get_dummies发出N-1个变量来避免共线性？

机器学习中的分类属性预处理

如何在一个热点表示中转换整个熊猫数据帧？

使用另一列的值创建虚拟变量

如何利用Pandas* get_dummies对预测数据进行预测？*

将分类数值数据编码到不同的列

Pandas/Scikit -在创建特征向量时应用稀疏PCA

在python pandas中将分类属性转换为多个属性

如何编码具有大量值的CATEGORICAL_COLUMNS？

sklearn LabelEncoder和pd.get_dummies有什么不同？

需要帮助创建使用另一列中的值而不是'1‘的伪伪变量

str.split()返回的熊猫排序列表

Pandas get_dummies()限制。不转换所有列

OneHotEncoder更改名称列

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐