在Scikit Model运行OneHotEncoding后如何检索原始变量

在Scikit-learn中，OneHotEncoding是一种常用的特征编码方法，用于将离散型变量转换为机器学习算法可以处理的数值型变量。该方法将每个离散型变量的每个可能取值都转换为一个新的二进制特征，其中只有一个特征为1，表示该样本的原始变量取值为该特征对应的取值，其他特征都为0。

在使用OneHotEncoding后，我们可以通过以下步骤来检索原始变量：

首先，获取OneHotEncoder对象中的编码规则。可以使用get_feature_names_out()方法来获取每个特征的名称。
然后，根据编码规则，找到原始变量对应的特征名称。

下面是一个示例代码：

from sklearn.preprocessing import OneHotEncoder

# 假设有一个离散型变量data，包含多个样本
data = [['red'], ['green'], ['blue'], ['red'], ['green']]

# 创建OneHotEncoder对象
encoder = OneHotEncoder()

# 对data进行编码
encoded_data = encoder.fit_transform(data)

# 获取编码后的特征名称
feature_names = encoder.get_feature_names_out()

# 假设我们想检索第3个样本的原始变量
sample_index = 2

# 找到原始变量对应的特征名称
original_variable = feature_names[encoded_data.indices[encoded_data.indptr[sample_index]:encoded_data.indptr[sample_index + 1]]]

print(original_variable)

在上述示例中，我们首先创建了一个OneHotEncoder对象，并使用fit_transform()方法对数据进行编码。然后，使用get_feature_names_out()方法获取编码后的特征名称。最后，我们选择要检索的样本索引，并通过索引操作找到原始变量对应的特征名称。

需要注意的是，由于OneHotEncoder编码后的特征是稀疏矩阵表示的，因此需要使用indices和indptr属性来定位每个样本的特征索引范围。

对于腾讯云相关产品，可以使用腾讯云机器学习平台（Tencent Machine Learning Platform，TMLP）来进行模型训练和部署。TMLP提供了丰富的机器学习算法和工具，可以方便地进行特征编码和模型训练。具体产品介绍和链接地址可以参考腾讯云官方网站。

ValueError: feature_names的长度，177与特征数不匹配，6

ValueError: feature_names的长度，177与特征数不匹配，6 dt = rf.estimators_[0] dot_data = StringIO() export_graphviz(dt, out_file=dot_data, feature_names=X) (graph, ) = graph_from_dot_data(dot_data.getvalue()) Image(graph.create_png())

浏览 2提问于2019-09-29得票数 0

2回答

把假人带回到分类

、

我有一个名为X的df，如下所示： Index Class Family 1 Mid 12 2 Low 6 3 High 5 4 Low 2 使用以下代码将其创建为虚拟变量： from sklearn.preprocessing import OneHotEncoder import pandas as pd ohe = OneHotEncoder() X_object = X.select_dtypes('object') ohe.fit(X_object) codes = ohe.transform(X_

浏览 1提问于2021-08-03得票数 1

回答已采纳

1回答

不是Scikit fit_transform、ColumnTransformer和OneHotEncoder用于编码分类数据的目的，那么为什么要对数值使用它呢

、、、

我在搜索机器学习示例以供查看和理解时，偶然发现了这个示例：https://www.kaggle.com/saulalquicira/model-evaluation-using-cross-val-score-and-kfold 我理解代码中的所有内容，除了这一部分： labelencoder_X = LabelEncoder() X[:,2] = labelencoder_X.fit_transform(X[:,2]) ct = ColumnTransformer([("cp", OneHotEncoder(), [2])], remainder = 'pas

浏览 19提问于2021-07-16得票数 1

回答已采纳

1回答

形状不匹配:如果类别是一个数组，它必须是形状的(n_features，)

、、、

下面是我尝试执行的代码，它使用虚拟值对我的数据集的第一列的值进行编码。 import numpy as py import matplotlib.pyplot as plt import pandas as pd DataSet = pd.read_csv('Data.csv') x=DataSet.iloc[:, :-1].values y=DataSet.iloc[:,3].values from sklearn.impute import SimpleImputer imputer=SimpleImputer(missing_values=py.nan,strat

浏览 2提问于2020-06-29得票数 0

1回答

使用分类数据作为要素/目标，而不对其进行编码

我最近发现了一种模型，可以根据叶子的大小对爱尔兰花进行分类。有3种类型的花作为目标(因变量)。据我所知，分类数据应该进行编码，以便在机器学习中使用。然而，在该模型中，数据是直接使用的，而不需要编码过程。有人能解释一下什么时候使用编码吗？提前谢谢你！

浏览 0提问于2020-07-16得票数 0

1回答

将系数向量赋值给学习Lasso的特征

、、、

我正在运行一个拉索在一个数据集的科学知识学习。下面是我的设计矩阵(X)的样子： Year Country SW NY.GDP.DEFL.KD.ZG.1 NY.GDP.PCAP.KD.ZG NY.GDP.DEFL.KD.ZG NE.IMP.GNFS.ZS NY.GDP.DISC.CN FS.AST.PRVT.GD.ZS FS.AST.DOMS.GD.ZS NY.GDS.TOTL.ZS NY.GDP.DISC.KN NY.GDP.NGAS.RT.ZS NY.GDP.PETR.RT.ZS NY.GDP.COAL.RT.ZS NY.GDP.MINR.

浏览 2提问于2015-04-24得票数 1

1回答

将标签转换为one-hot编码

、、

因此，我正在学习使用虹膜数据集的one-hot编码 iris = load_iris() X = iris['data'] # the complete data -2D Y = iris['target'] # 1-D only the 150 rows names = iris['target_names'] #['setosa','versicolor','viginica'] feature_names = iris['feature_names']# [sl,sw,pl,

浏览 6提问于2020-05-06得票数 0

2回答

OneHotEncoding变换解释

、、

我正试图通过python和scikit来理解onehotencoding过程的输出--学习。我相信我有一个热编码的想法。即，将离散值转换为具有“on”值的扩展特征向量，以识别分类的隶属度。也许我搞错了，这让我很困惑，但这就是我的理解。所以，从这里的文档来看：我看到以下例子： >>> from sklearn.preprocessing import OneHotEncoder >>> enc = OneHotEncoder() >>> enc.fit([[0, 0, 3], [1, 1, 0], [0, 2, 1], [1, 0, 2]

浏览 0提问于2016-12-27得票数 0

回答已采纳

3回答

热点编码器的categorical_features是用来做什么的？

、

因此，我使用一个热编码器对数据中的分类特征之一进行编码，但我无法理解其中的一个参数。你们能帮帮我吗，它是用来做什么的。参数为: categorical_features= from sklearn.preprocessing import OneHotEncoder onehotencoder = OneHotEncoder(categorical_features= [0]) X = onehotencoder.fit_transform(X).toarray()

浏览 0提问于2019-05-23得票数 2

1回答

科学学习中OneHotEncoder和KNNImpute的循环循环

、、、

我正在处理一个非常简单的数据集。它在分类和数值特性上都有一些缺失的值。正因为如此，我正试图使用sklearn.preprocessing.KNNImpute来得到我所能得到的最精确的估算。但是，当我运行以下代码时： imputer = KNNImputer(n_neighbors=120) imputer.fit_transform(x_train) 我得到了错误：ValueError: could not convert string to float: 'Private' 这是有道理的，它显然不能处理分类数据。但是，当我尝试运行OneHotEncoder时： encode

浏览 8提问于2020-07-13得票数 2

回答已采纳

1回答

连续和范畴数据的回归

、

我还是机器学习领域的初学者。假设有这样的简单数据： +--------+--------+-----------------+ | Age | Gender | Mortality Rates | +--------+--------+-----------------+ | 0 | Male | 0.01 | | 30 | Female | 0.2 | | 80 | Male | 30 | +--------+--------+-----------------+ 为了获得按年龄划

浏览 1提问于2015-05-18得票数 0

回答已采纳

1回答

我必须对训练和测试数据集分别进行一次热编码吗？

、、、

我正在处理一个分类问题，我已经将我的数据分成了训练集和测试集。我只有很少的分类列(大约4-6列)，我正在考虑使用pd.get_dummies将我的分类值转换为OneHotEncoding。我的问题是，对于训练和测试拆分，我必须单独执行OneHotEncoding吗？如果是这样的话，我想我最好使用sklearn OneHotEncoder，因为它支持拟合和变换方法，对吧？

浏览 1提问于2019-04-05得票数 7

回答已采纳

2回答

如何在python中使用HashingVectorizer获取特性名称？

、

我想要制作一个二维二进制数组(n_samples，n_features)，其中每个示例都是一个文本字符串，每个特性都是一个单词(Unigram)。问题是样本数为350000，特征数为40000，但我的内存大小仅为4GB。使用CountVectorizer后，我会收到内存错误。那么，还有其他方法(比如迷你批次)来做这件事吗？如果我使用HashingVectorizer，那么如何获得feature_names？也就是说，哪个列对应于哪个特性？，因为get_feature_names()方法在HashingVectorizer中不可用。

浏览 1提问于2014-04-04得票数 5

1回答

编码或映射

对于如何处理机器学习算法中的分类数据，我有点困惑。我在互联网上发现了一些方法，包括:只编码、编码和OneHotEncoding，以及与数字1、2、3等的映射。有人能帮助我理解什么时候使用这些方法吗？

浏览 0提问于2020-07-26得票数 0

回答已采纳

1回答

active_features_属性( OneHotEncoder )

、

我是机器学习的新手，我正在努力理解OneHotEncoder的作用。我可以将它与其他事物(如LabelEncoder )区分开来。特别是，我发现关于active_features_的文档特别令人困惑。 feature_indices_的文档中也提到了这一点。 feature_indices_：形状数组(n_features，) 特征范围的索引。将原始数据中的特性i映射到从feature_indices_i到feature_indices_的特性。这是什么意思，这面具是干什么用的？谢谢!

浏览 2提问于2015-11-08得票数 3

回答已采纳

2回答

使用python解释一个onehotencoder

、、、、

我是第一次接触scikit-learn库，并且一直在尝试使用它来预测股票价格。我浏览了它的文档，被他们解释OneHotEncoder()的部分卡住了。下面是他们使用的代码： >>> from sklearn.preprocessing import OneHotEncoder >>> enc = OneHotEncoder() >>> enc.fit([[0, 0, 3], [1, 1, 0], [0, 2, 1], [1, 0, 2]]) OneHotEncoder(categorical_features='all'

浏览 0提问于2017-03-11得票数 11

回答已采纳

2回答

离散值回归？

、、、

我是机器学习/统计算法方面的新手，但我使用过一些简单的分类器和回归。鉴于我的知识有限，我想就我是否走上正确的方向发表一些意见。我的问题是:考虑到数据库中最相似的项目的已知价格，我希望对输入项的价格进行最佳预测。起初，这听起来像是回归问题，但我的特性是离散的和连续的。例如，产品制造/模型是离散的，而制造年份是连续的吗？现在，我正在考虑通过欧几里得距离找到x最近的匹配，然后加权平均+以某种方式确保一定的特征匹配(就像项目模型类型)。谢谢。

浏览 0提问于2018-12-20得票数 4

4回答

get_dummies (Pandas)和OneHotEncoder (Scikit-learn)之间的优缺点是什么？

、、、、

我正在学习不同的方法来将分类变量转换为机器学习分类器的数值。我遇到了pd.get_dummies方法和sklearn.preprocessing.OneHotEncoder()，我想看看它们在性能和用法方面有何不同。我找到了一个关于如何在上使用OneHotEncoder()的教程，因为sklearn文档对此功能帮助不大。我有一种感觉，我没有这样做，correctly...but 能否解释一下在pd.dummies sklearn.preprocessing.OneHotEncoder() 上使用 OneHotEncoder() 的优缺点，反之亦然？我知道OneHotEncoder()提供了一

浏览 90提问于2016-04-15得票数 116

回答已采纳

1回答

PySpark- OneHotEncoding

、、、

这可能有点天真，但我只是从PySpark和Spark开始。请帮助我理解Pyspark中的一个热门技术。我正在尝试对其中一列执行OneHotEncoding。在一次热编码之后，dataframe模式添加了avector。但是要应用机器学习算法，应该是将单个列添加到现有的数据框中，其中每一列代表一个类别，而不是向量类型的列。如何验证OneHotEncoding。我的代码： stringIndexer = StringIndexer(inputCol="business_type", outputCol="business_type_Index")

浏览 0提问于2016-09-29得票数 0

1回答