比较单一热编码列标题和预测标签

在机器学习和数据分析中，"单一热编码列标题"和"预测标签"是两个不同的概念，它们在数据处理和模型训练中扮演着不同的角色。

单一热编码列标题

基础概念： 单一热编码（One-Hot Encoding）是一种将分类变量转换为数值形式的方法，以便机器学习算法能够处理这些变量。在单一热编码中，每个分类值都被转换为一个二进制向量，其中只有一个元素为1，其余元素为0。

优势：

使得分类数据可以被数值算法处理。
避免了引入任何隐含的顺序关系，因为每个类别都是独立的。

类型：

标准单一热编码：每个类别生成一个新的二进制列。
稀疏矩阵表示：对于大量类别的情况，可以使用稀疏矩阵来节省存储空间。

应用场景：

当数据集中的分类变量有多个类别时。
在构建分类模型时，需要对分类特征进行预处理。

预测标签

基础概念： 预测标签是指在机器学习模型中，我们希望模型预测的目标变量的值。它是模型的输出，通常是我们感兴趣的结果或决策依据。

优势：

直接反映了模型的预测目标，便于评估模型性能。
可以用于监督学习算法，指导模型学习如何从特征中预测标签。

类型：

分类标签：用于分类任务，通常是离散值。
回归标签：用于回归任务，通常是连续值。

应用场景：

在分类问题中，预测标签可能是某个类别的标识。
在回归问题中，预测标签可能是某个数值，如房价、温度等。

比较和联系

为什么会有这样的区分？ 这种区分主要是因为在机器学习的数据处理和模型训练过程中，我们需要明确哪些是输入特征（经过编码处理的分类变量），哪些是我们想要预测的目标变量。

如何解决相关问题？

在数据预处理阶段，正确地对分类变量进行单一热编码。
在模型训练时，确保将编码后的特征作为输入，将预测标签作为输出进行训练。
使用适当的评估指标来衡量模型在预测标签上的性能。

示例代码

以下是一个使用Python中的pandas库进行单一热编码的简单示例：

import pandas as pd

# 假设有一个DataFrame df，其中有一个分类列 'category'
df = pd.DataFrame({'category': ['A', 'B', 'A', 'C']})

# 进行单一热编码
df_encoded = pd.get_dummies(df, columns=['category'], prefix='category')

print(df_encoded)

输出将会是：

   category_A  category_B  category_C
0           1           0           0
1           0           1           0
2           1           0           0
3           0           0           1

在这个例子中，'category'列被转换为了三个新的二进制列，每个列对应一个类别。这样的编码可以作为机器学习模型的输入特征。而预测标签则是模型需要学习的另一个独立变量，它可以是这个DataFrame中的另一列，或者是完全不同的数据集。

比较单一热编码列标题和预测标签

、、

我有3个单热编码的列，其中标题名称是标签，以及一个预测列preds，其中标签被预测(见下图)。我想通过比较preds中的标签和1编码的列头来计算预测的性能。 ? 在这个例子中，我只有20%的预测正确。有没有在熊猫身上做到这一点的快速方法？

浏览 12提问于2020-03-30得票数 1

回答已采纳

2回答

如何改变张量的形状？

、、

(32，10)跟踪(最近一次调用)在53输出=模型中的torch.Size(32).forward(图像) 54打印(output.shape，labels.shape) -> 55损失=标准(输出，标签_VariableFunctions.broadcast_tensors(tensors) 53 54整个代码附在下面。

浏览 5提问于2020-06-15得票数 1

1回答

我们什么时候对特征进行缩放，是否应该对编码的特征进行标记？

、

因此，我试图建立一个线性回归模型来预测汽车价格，我有以下数据集：数据集print(r2) R2值为84.8%，而如果我也缩放标签编码特征此外，使用该模型对测试数据的预测值也导致了负价格，而且大多数价格都没有很好地预测，预测数据

浏览 0提问于2020-06-08得票数 2

1回答

如何在scitkit模型中拟合一个热编码类

、

我用一个热编码器对类进行编码。但是，当我尝试相同的，我得到了糟糕的输入形状错误。在sklearn回归中是否可以使用一个热编码值？

浏览 3提问于2019-04-26得票数 0

回答已采纳

1回答

Keras "Tanh Activation“函数--编辑:隐藏层

、、、、

我想知道如果输入(功能和目标类)是以1-hot编码的形式给出的，它是如何工作的？keras (在内部管理)激活函数的负输出以将它们与类标签(以一热编码形式)进行比较--仅表示0和1(没有"-"ive值) 谢谢!

浏览 0提问于2018-03-09得票数 0

1回答

如何使用sklearn从单热编码标签返回到单列？

、、

我使用模型对一些数据进行了预测，得到了这样的结果。 [[0 0 0 ... 0 0 1] [0 0 0 ... 0 0 0] [0 0 0 ... 0 0 1] [0 0 0 ... 0 0 0]] 它们基本上是目标列的一热编码标签。现在我想以某种方式返回到原始值的单个列。我使用这些代码行进行编码。我怎样才能回到sinle专栏？

浏览 20提问于2019-05-23得票数 2

回答已采纳

1回答

当使用scikit的分类器-学习多类问题时，是否需要用一种热编码对标签进行编码？例如，我有3个类，在将这些数据输入不同的分类器以进行培训时，简单地将它们标记为0、1和2。据我所知，它似乎运转正常。但是，有什么理由不推荐这种基本编码吗？有些算法，如随机森林，本机处理分类值。对于logistic回归、多层感知器、高斯朴素Bayes和随机森林等方法，如果我没有弄错的话，这些方法似乎是本机处理分类值。这个评估是正确的吗？谁的科学知识-学习的分类器不处理这些输入本地和影响的序号

浏览 1提问于2018-07-25得票数 3

回答已采纳

1回答

TensorFlow in_top_k评估输入论证

我正在学习中的教程，并试图更改模型的评估方法(在底部)。我想得到一个前5名的评估，并尝试使用以下代码：但是，这会产生以下错误： topFiver = tf.nn.in_top_k(pred, y, 5, name=None) File "/usr/local/lib/python2.7/dist-packages/tensorflow/python/ops/gen_nn_ops.

浏览 4提问于2016-03-18得票数 11

回答已采纳

3回答

编码日期时间特性..。标签还是热的？

、

我正在处理出租车预订预测问题，在这个问题上，我需要使用日期时间方面，如小时、日、周等来进行预测。因为我需要为这个目的做分类编码。有人能帮我找出哪一个使用标签编码器或热编码器吗？我尝试过进行标签编码，但对于这样的序号数据，首选的是一种编码。任何帮助都将不胜感激。

浏览 0提问于2021-04-26得票数 0

1回答

Tensorflow:如何为罐装估计器定义一个单一的功能列

我的单热编码似乎在训练中不正确地有三维(我认为它应该有2)，这会导致OOM。如何不正确地构造单一热点功能列？input_from_feature_columns/input_layer/air_store_id_indicator/one_hot = OneHot]] 我尝试在我的DNNRegressor中定义一个单一热点特性列(key='id', num_buckets=df_train['id'].uniqu

浏览 1提问于2017-12-14得票数 0

回答已采纳

1回答

有线电视新闻网的许多输出

、、、

我有一个100列的数据集(类别一热编码)和一列文本数据(简单句子)，我想要建立一个神经网络来环绕380.000输出标签。我不知道我能做什么。我在想一个CNN，里面有嵌入层，然后是很多密集的层。

浏览 0提问于2019-01-15得票数 2

回答已采纳

1回答

在热编码向量上用地面真实概率与地面真相实现交叉熵函数

、、、、

嗨，我在Py火炬中遇到了一个文档，它以两种方式实现交叉熵损失函数：loss = nn.CrossEntropyLoss()target = torch.empty(3, dtype=torch.long).random_(5)output.backward() input

浏览 11提问于2022-02-23得票数 0

1回答

为什么我们要在语言建模中进行一次性编码？

、、、

有人能解释一下为什么one-hot编码在语言建模中很好吗？(特别是在深度学习方面)提前谢谢你！

浏览 1提问于2018-05-04得票数 1

2回答

我们是否需要对测试和训练数据集进行预处理？

、、、

我得到了两个数据集，在测试和培训数据集中都有缺失的值。我是否也需要对test.csv进行预处理，还是只对train.csv进行预处理？

浏览 0提问于2021-10-17得票数 3

2回答

在分类问题中，我能用数字代替分类数据吗？

、、、、

我正在处理的分类数据有9个类和这么多的特性。很明显，类是绝对的，也有一些特性。我用一热编码技术把分类数据转换成数字.问题是，与其为每个类有8或9个列，每个类都有一个二进制值，我是否可以只拥有一个类标签列，但是值从0到8，其中0代表第一个类，8个代表最后一个类？如果这样做有效，我是否可以对功能列做同样的操作？注意:类标签和特性中的数据都是名义的，而不是序号的。

浏览 0提问于2021-12-28得票数 1

1回答

如何利用神经网络识别分类中哪个预测属于哪个id？

、、

我的数据集中有属性、标签列和id列。Label列由1和0组成。我试图预测每个人的疾病，但我不得不放弃id列作为训练模型。我需要用CNN和LSTM来比较结果。我需要得到预测概率和预测标签。我如何得到每个id的预测？

浏览 5提问于2022-09-02得票数 -1

回答已采纳

1回答

为什么MXNet报告不正确的验证准确性？

-5, eval_metric="acc",在运行带有评估标签因此，我故意将评估标签更改为1200，改为2200，发现程序仍在报告83~86%的准确性(起初我认为这只是巧合，尝试了几个不同的评估标签，但仍然得到了相似的结果)。我在节目中犯了什么错误？

浏览 2提问于2017-08-21得票数 0

回答已采纳

2回答

catboost支持one-hot编码吗？

我有一个单热编码的标签。我想用它们来训练和预测catboost分类器。然而，当我进行拟合时，它给了我一个错误，说标签的每行不允许有多个整数值。那么catboost不允许对标签进行一次性编码吗？

浏览 3提问于2017-08-12得票数 0

1回答

为什么我的预测在用TensorFlow进行图像分割时失败了？

、、、、

为什么我的代码输出这样的任意预测映射，而不是或多或少类似于相应的地面真相注释图像的东西？

浏览 0提问于2019-04-01得票数 1

1回答

在keras中使用SparseCategoricalCrossEntropy loss进行多类分类时，实际的类标签是什么？

、、、

但我想从预测中检索实际的类标签。基本上，如果我有5个类(N_CLASSES=5)，那么我就有5列，每列都包含类的概率。但是我不知道哪个列属于哪个实际的标签。如何检索实际的类标签？例如，如果我的实际类标签是1.03，2.07，-2.09，-974,366，那么从shape (None，5)的输出中，我如何知道哪一列代表哪个类？注意:由于内存问题，我不能使用CategoricalCrossEntropy并传入单热<em

浏览 66提问于2021-10-20得票数 3

点击加载更多