使用OneHotEncoder后，在Pandas dataframe中添加encoder.categores_作为列名

在Pandas dataframe中使用OneHotEncoder后，可以通过以下步骤将encoder.categories_添加为列名：

导入所需的库和模块：

import pandas as pd
from sklearn.preprocessing import OneHotEncoder

创建一个示例的Pandas dataframe：

data = {'category': ['A', 'B', 'C', 'A', 'B']}
df = pd.DataFrame(data)

实例化OneHotEncoder对象并进行fit_transform操作：

encoder = OneHotEncoder()
encoded_data = encoder.fit_transform(df[['category']])

获取encoder.categories_中的类别列表：

categories = encoder.categories_[0]

将encoder.categories_作为列名添加到Pandas dataframe中：

df_encoded = pd.DataFrame(encoded_data.toarray(), columns=categories)
df_final = pd.concat([df, df_encoded], axis=1)

最终，df_final将是一个包含原始数据列和使用OneHotEncoder编码后的新列的Pandas dataframe。其中，新列的列名将使用encoder.categories_中的类别列表。

关于OneHotEncoder的概念、分类、优势和应用场景，以及腾讯云相关产品和产品介绍链接地址，可以参考腾讯云的文档和官方网站。

相关·内容

关于数据挖掘的问题之经典案例

接着读取数据集，将其转换为 DataFrame 对象 df。将 df 中每个交易的商品项聚合成一个列表，存储到 transactions 列表中。...其中，header=0 表示第一行为列名，sep=‘,’ 表示使用逗号作为分隔符。...groupby 方法，按照'Transaction'这一列进行分组，并将'Item'这一列变成列表形式，然后将每个数据项添加到 transactions 列表中。...使用train_test_split函数将数据集划分为训练集和测试集。这里将数据集的20%作为测试集，并设置随机种子为0，以保证每次运行结果的一致性。...使用之前fit过的OneHotEncoder对象oh_enc对输入数据进行编码，并将其转化为DataFrame格式方便后续的操作。

1301 0

AI开发最大升级：Pandas与Scikit-Learn合并，新工作流程更简单强大！

接下来，让我们看看这些新添加的功能是如何处理Pandas DataFrame中的字符串列的。 Kaggle住房数据集 Kaggle最早的机器学习竞赛题目之一是《住房价格：先进的回归技术》。...Scikit-Learn最初不是为了直接与Pandas整合而建的。所有的Pandas对象都在内部转换成NumPy数组，并且在转换后总是返回NumPy数组。...当调用transform时，它使用每个列的这个存储平均值来填充缺失值并返回转换后的数组。 OneHotEncoder原理是类似的。在fit方法中，它会找到每个列的所有唯一值，并再次存储这些值。...我们可以创建一个最终流程，并添加机器学习模型作为最终的估算器。这个流程的第一步就是我们上文刚刚完成的整个转换过程。我们在本文开始处设定y表示售价。...中数字列和类别列相交处的列在pipeline中使用转换器上文构建的转换器可以作为流程的一部分。

3.6K3 0

7个Pandas数据分析高级技巧

1 用df.groupby ().iter ()分析数据样本与Excel相比，在Jupyter Notebook中逐行或逐组地查看数据集通常比较困难。...3 多重chain 一旦你理解了可以使用链接方法组合多个操作，Pandas就变得非常有趣。链接基本上是在相同的代码“行”中添加操作。...以下是我们一直在重复使用的可视化结果（避免重新造轮子）： pd.DataFrame({ 'variable': variables, 'coefficient': model.coef_...7 使用.to clipboard()粘贴数据到Excel中如果你是Excel的忠实用户，尽管Pandas有许多选项，但是通过最少的编码很难获得类似的输出水平。...然后在Excel中使用Ctrl + V将数据粘贴到当前电子表格中。

1.6K3 1

Python下数值型与字符型类别变量独热编码（One-hot Encoding）实现

import pandas as pd from sklearn.preprocessing import OneHotEncoder 其中，OneHotEncoder是我们实现独热编码的关键模块。...在老版本的sklearn中，我们可以借助categorical_features=[x]参数来实现这一功能，但是新版本sklearn取消了这一参数。...我们将test_data_1中的'SoilType'列作为索引，从而仅仅对该列数据加以独热编码。...再将经过独热编码处理后的63列加上。 test_data_1.join(ohe_column) ? 大功告成！但是这里还有一个问题，我们经过独热编码所得的列名称始以数字来命名的，非常不方便。...最终结果中，列名称可以说是非常醒目，同时，共有65列数据，自动删除了原本的'SoilType'列，实现了“独热编码”“新列重命名”与“原始列删除”，可谓一举三得，简直是太方便啦~ References

3K3 0

一文了解类别型特征的编码方法

import DictVectorizer from sklearn.preprocessing import LabelEncoder, OneHotEncoder 接着加载数据： # 定义数据的列名称...安装方法也很简单： pip install pandas_profiling 使用方法也很简单，用 pandas读取数据后，直接输入下列代码： df.profile_report() 显示的结果如下，概览如下所示...加载数据后，这里我们仅关注类别型特征，也就是 object 类型的特征，这里可以有两种方法来获取：方法1:采用 pandas 提供的方法 select_dtypes: df2 = df.select_dtypes...第二种，就是将该列特征转化为 category 特征，然后再用编码得到的作为数据即可： ?...Pandas 的 get_dummies 首先介绍第一种--Pandas 的 get_dummies，这个方法使用非常简单了： ?

1.2K3 1

【Python】已解决：FutureWarning: Function get_feature_names is deprecated； get_feature_names is deprecated

代码片段：假设你在进行特征工程时，使用了OneHotEncoder对分类变量进行编码，并试图获取编码后的特征名： from sklearn.preprocessing import OneHotEncoder...1.0中被标记为弃用（deprecated），并将在1.2版本中移除。...实战场景：假设你有一个包含分类变量的数据集，需要使用OneHotEncoder进行编码并获取编码后的特征名： import pandas as pd from sklearn.preprocessing...，还能获取编码后的特征名并以DataFrame格式展示结果。...使用最新的方法：在官方文档中查找并使用最新推荐的方法，避免使用已弃用的方法。代码注释和文档：在代码中添加注释，说明使用某些方法的原因，特别是在方法即将被弃用时。

1091 0

5 个冷门而有趣的pandas操作

__iter__() 分析数据样本在Jupyter Notebook中通常很难像使用Excel一样难逐行或逐个组地浏览数据集。...一个非常有用的技巧是使用 generator 生成器和Ctrl + Enter组合，而不是我们常规的Shift + Enter运行整个单元格。这样做就可以很方便地迭代查看同一单元格中的不同样本了。...但其实也有更灵活的方法，不通过使用.to_excel方法，也能导出来。pandas还有一个功能是.to_clipboard(index = False)，它可以将数据复制到剪贴板。...然后，我就可以在正在操作的Excel中直接Ctrl + V将数据粘贴到当前电子表格中，也是另外一种选择。 5、tqdm 处理大数据集时，数据处理会花费很多时间。...from tqdm import notebook notebook.tqdm().pandas() import之后，pandas的dataframe就有了新的方法。

8183 0

关于sklearn独热编码二.字符串型类别变量

方法二直接用 LabelBinarizer() 进行二值化 eg. testdata = pd.DataFrame({'pet': ['cat','dog','dog','fish'] 然而要注意的是...，无论 LabelEncoder() 还是 LabelBinarizer()，他们在 sklearn 中的设计初衷，都是为了解决标签 y 的离散化，而非输入 X，所以他们的输入被限定为 1-D array...---- 另一种解决方案其实如果我们跳出 scikit-learn，在 pandas 中可以很好地解决这个问题，用 pandas 自带的get_dummies函数即可 get_dummies的优势在于...: 本身就是 pandas 的模块，所以对 DataFrame 类型兼容很好不管你列是数值型还是字符串型，都可以进行二值化编码能够根据指令，自动生成二值化编码后的变量名这么看来，我们找到最完美的解决方案了...，但毕竟不是 sklearn 里的transformer类型，所以得到的结果得手动输入到 sklearn 里的相应模块，也无法像 sklearn 的transformer一样可以输入到pipeline中

1.5K2 0

机器学习特征数据预处理

标签处理特征处理 scikit-learn 特征处理 scikit LabelEncoder scikit DictVectorizer scikit OneHotEncoder pandas...(X, columns=dvec.get_feature_names()) scikit OneHotEncoder OneHotEncoder 必须使用整数作为输入，所以得先预处理一下 color_le...Pandas库中同样有类似的操作，使用get_dummies也可以得到相应的特征 import pandas as pd df = pd.DataFrame([ ['green...类标签（1、2、3）列在第一列中，列2-14对应13个不同的属性（特征）： Alcohol Malic acid from sklearn.datasets import load_wine wine...Malic Acid') ax[a].legend(loc='upper left') ax[a].grid() plt.tight_layout() plt.show() 在机器学习中

1K3 0

在机器学习中处理大量数据！

的特性：分布式：可以分布在多台机器上进行并行处理弹性：计算过程中内存不够时，它会和磁盘进行数据交换基于内存：可以全部或部分缓存在内存中只读：不能修改，只能通过转换操作生成新的 RDD 2.Pandas...一样操作数据集我们看看数据集： cols = df.columns #和pandas一样看列名 df.printSchema() root |-- age: integer (nullable =...='string'] 对于类别变量我们需要进行编码，在pyspark中提供了StringIndexer, OneHotEncoder, VectorAssembler特征编码模式： from pyspark.ml...： import pandas as pd pd.DataFrame(df.take(20), columns = df.columns) image.png 通过pandas发现，好像还有较多字符串变量...spark通过封装成pyspark后使用难度降低了很多，而且pyspark的ML包提供了基本的机器学习模型，可以直接使用，模型的使用方法和sklearn比较相似，因此学习成本较低。

2.3K3 0

Pandas分类数据和顺序数据转换为标志变量

#导入pandas库 import pandas as pd #OneHotEncoder用来将数值型类别变量转换为0-1的标志性变量 #LabelEncoder用来将字符串型变量转换为数值型变量 from...sklearn.preprocessing import OneHotEncoder,LabelEncoder #生成数据 df=pd.DataFrame({'id':[321313,246852,447902...(df_new2)),axis=1) #重新组合为新数据框 print(df_all) #打印输出转换后的数据框 id 0 1 2 3 4 5 6...246852 1.0 0.0 0.0 1.0 0.0 0.0 1.0 0.0 2 447902 1.0 0.0 0.0 0.0 1.0 0.0 0.0 1.0 # 使用...pandas的get_dummies做标志转换 df_new3 = pd.get_dummies(raw_convert_data) df_all2 = pd.concat((id_data, pd.DataFrame

7684 0

Python人工智能：基于sklearn的数据预处理方法总结

在sklearn中我们可以使用preprocessing.MinMaxScaler方法来实现数据的归一化处理。...在sklearn中我们可以使用preprocessing.StandardScaler方法来实现数据的标准化处理。...且在sklearn中除了专门处理文字的算法，在使用fit时需要导入数值型数据。因此，在使用sklearn的机器学习算法时，通常需要对非数值型数据进行编码，以实现将文字型数据转换为数值型数据。...Sex_Embarked_New], axis=1 ) train_data.drop(["Sex", "Embarked"], axis=1, inplace=True) # 查看性别属性与登船港口的类别名，将其作为列名...Sex_col_names = enc_sex.get_feature_names() Embarked_col_names = enc_embark.get_feature_names() # 修改新添加的列的列名

1.7K1 0

预测分析 · 员工满意度预测

import matplotlib.pyplot as plt plt.rcParams['figure.facecolor']=(1,1,1,1) # pycharm 绘图白底，看得清坐标 import pandas...import train_test_split,cross_val_score from sklearn.metrics import * from sklearn.preprocessing import OneHotEncoder...可以看出 id 跟满意度，没有特别强的关系，可以不作为特征 3....numpy 数组，转成 pandas 的 DataFrame num_X_train_scale = pd.DataFrame(num_X_train_data) # 特征列名称也要重新填上 num_X_train_scale.columns...特征淹没，一般存在与线性模型中；树模型，各个特征不同时使用，可能真不存在特征淹没问题

1.1K2 0

Pandas知识点-添加操作append

在Pandas中，append()方法用于将一个或多个DataFrame或Series添加到DataFrame中。append()方法也可以用于合并操作，本文介绍append()方法的用法。...append()方法也可以在DataFrame中添加Series。...设置ignore_index参数为True会重设结果的行索引，这样添加的Series作为结果中的一行，会自动生成行索引。...指定Series的name参数，这样Series将以name参数作为行索引添加到DataFrame中。...合并时根据指定的连接列(或行索引)和连接方式来匹配两个DataFrame的行。可以在结果中设置相同列名的后缀和显示连接列是否在两个DataFrame中都存在。

4.7K3 0

Pandas实现哑变量

Pandas哑变量生成哑变量又叫做虚拟变量，虚设变量或者名义变量，是人为设定的用于将分类变量引入回归模型中的方法。...哑变量一般在回归的相关模型中经常使用。在虚拟变量的设置中：表示的基础类型、肯定类型取值为1；如果是比较类型，否定类型则取值为0。在实际的数据处理中，通过独热码one-hot来实现哑变量。...Pandas中的get_dummies函数能够实现此功能。...get_dummies使用 pandas.get_dummies(data, # 待处理数据 prefix=None, #...()使用官网案例 enc = OneHotEncoder() enc.fit([[0,0,3], [1,1,0], [0,2,1], [1,0,2

3603 0

机器学习笔记——哑变量处理

这种哑变量的编码过程在R和Python中的有成熟的方案，而无需我们手动进行编码，使用成熟的编码方案可以提升特征处理的过程。 R语言哑变量处理： data(iris) ?...注意这里编码结果是全量输出，即类别型特征的每一个类别都有一个编码后的特征。...方案二——pandas中的get_dummies方法：可以看到sk-learn中的OneHotEncoder方法必须保证处理的输入值是array，而且只能处理数值型（也就是数字编码之后的类别变量），无法直接处理仔字符型变量...pandas中的get_dummies方法提供了非常简单高效的哑变量处理方案，只有短短的一句代码即可。...方法一——：caret包中的dummyVars函数方案二——：pandas中的get_dummies方法欢迎大家一起学习，一起进步！

3.1K3 0

机器学习归一化特征编码

在梯度下降算法中，代价函数为最小平方误差函数，所以在使用梯度下降算法的时候，算法会明显的偏向于第二个特征，因为它的取值范围更大。在比如，k近邻算法，它使用的是欧式距离，也会导致其偏向于第二个特征。...\n独热编码后的 DataFrame:") print(df_dummies) 原始 DataFrame: Color 0 Red 1 Blue 2 Green...对于独热编码的过程，我们可以通过pd.get_dummies函数实现，也可以通过sklearn中OneHotEncoder评估器（转化器）来实现。 ...此时就需要将OneHotEncoder中drop参数调整为’if_binary’，以表示跳过二分类离散变量列 sklearn中逻辑回归的参数解释 C 惩罚系数 penalty 正则化项相比原始损失函数...，正则化后的损失函数有两处发生了变化，其一是在原损失函数基础上乘以了系数C，其二则是加入了正则化项。

841 0

pandas库的简单介绍（2）

3.1 DataFrame的构建 DataFrame有多种构建方式，最常见的是利用等长度的列表或字典构建（例如从excel或txt中读取文件就是DataFrame类型）。...另外一个构建的方式是字典嵌套字典构造DataFrame数据；嵌套字典赋给DataFrame，pandas会把字典的键作为列，内部字典的键作为索引。...（*2）指定列顺序和索引列、删除、增加列指定列的顺序可以在声明DataFrame时就指定，通过添加columns参数指定列顺序，通过添加index参数指定以哪个列作为索引；移除列可以用del frame...method方法可选参数允许我们使用ffill等方法在重建索引时插值，ffill方法会将值前项填充；bfill是后向填充。...在DataFrame中，reindex可以改变行索引、列索引，当仅传入一个序列，会默认重建行索引。

2.3K1 0

pandas

版本太高解决方法，使用openpyxl打开xlsx文件 df = pd.read_excel('鄱阳湖水文资料.xlsx',engine='openpyxl') 2、pandas索引问题在Python...df.to_excel("dates.xlsx") 向pandas中插入数据如果想忽略行索引插入，又不想缺失数据与添加NaN值，建议使用 df['column_name'].values得出的是...] = value instead 问题：当向列表中增加一列时，需要先将变量复制一份，再添加才可以 a=a.copy() a['column01']= column pandas添加索引列名称...在我们使用append合并时，可能会弹出这个错误，这个问题就是pandas版本问题，高版本的pandas将append换成了-append results = results.append(temp,..._append(temp, ignore_index=True) pandas数据转置与矩阵相同，在 Pandas 中，我们可以使用 .transpose() 方法或 .T 属性来转置我们的DataFrame

1201 0

Pandas DataFrame创建方法大全

创建Pandas数据帧的六种方法如下：创建空DataFrame 手工创建DataFrame 使用List创建DataFrame 使用Dict创建DataFrme 使用Excel文件创建DataFrame...2、手工创建Pandas DataFrame 接下来让我们看看如何使用pd.DataFrame手工创建一个Pandas数据帧： df = pd.DataFrame(data=['Apple','Banana...由于我们没有定义数据帧的列名，因此Pandas默认使用序号作为列名。...那么如果要添加一个Quantity列来表示水果数量该怎么做？...由于列名为Fruits、Quantity和Color，因此对应的字典也应当有这几个键，而每一行的值则对应字典中的键值，字典应该是如下的结构： fruits_dict = { 'Fruits':['Apple

5.8K2 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云