一种对未观察到的级别的字符列表进行热编码

、

我正在尝试创建一个字符列表的一个热编码(ohe)，允许未观察到的级别。indices to 1-hot encoded numpy array和Finding the index of an item given a list containing it in Python的答案，以下是我想要的： # example data # this is the full list including unobserved

浏览 18提问于2019-10-14得票数 0

回答已采纳

1回答

标签编码是否足以输出标签？

、、、、

对于序数特性，使用标签编码是有意义的。但是对于分类特征，我们使用了一个热编码。但这些是输入特性的约定。但是对于输出变量，如果输出标签是绝对的，是否需要使用一种热编码？或者我也可以使用标签编码？哪一种更好？我正在训练一个水果分类器，有120个班。我使用ResNet50模型作为特征提取器对ImageNet进行预训练，并使用这些特性训练Logistic回归分类器(转移

浏览 0提问于2020-05-11得票数 2

回答已采纳

1回答

如何从csv文件输入进行一次热编码

、、、

让我们调用一个数值列'num'和一个字符串列'col'。我想做以下几点：如果输入在字典列表中，这是很容易做到的</em

浏览 6提问于2016-09-02得票数 3

3回答

字符串分类特征的一种热编码

、、、

我正在尝试对一个普通数据集执行一个热编码。data = [['a', 'dog', 'red']使用Scikit-Learn对这些数据进行预处理的最佳方法是什么？在第一反应中，你会看到科学学习的。但是一个热编码器不支持字符串作为特性，它

浏览 8提问于2016-01-30得票数 37

2回答

一个功能太多的热编码(~ 10,000)

我正在建立一个模型来预测特定员工的休假和病假。我正在考虑使用员工id作为一个功能来训练模型。有些用户有明显的模式，例如周一连续几周休假。另一方面，我觉得我没有足够的资料，让每个雇员都有一个模型，特别是如果他们最近被雇用了。经过一番研究，似乎唯一对员工身份有意义的编码就是“一个热</em

浏览 0提问于2019-07-21得票数 3

回答已采纳

2回答

提供输入标签的单热编码标签

、、

我试图应用一个热编码的熊猫数据，但我不能给出一个类别的论点。我的想法是在类别和编码之间进行对应，例如：Y = pd.get_dummies(data['Article_Topic_1']).values 例如，Y将是类别'A'的[0,0,1]，但我想规定'A'的

浏览 1提问于2019-12-09得票数 1

回答已采纳

2回答

一种热编码分类特征-只限于稀疏形式

、、、

我有一个具有int和绝对特性的dataframe。分类特性有两种类型:数字和字符串。由于dataframe是巨大的，具有很高的基数，所以我只想将它转

浏览 0提问于2017-03-28得票数 4

回答已采纳

1回答

如何使用子字符串匹配或正则表达式将字符串类型Target变量编码为数字类型

、、、、

我使用CTU-13数据集，包括13种检测僵尸网络的场景.在这里，目标变量标签是一个字符串类型变量。标签编码对这个变量，简单地创建大约52-60个独特的数值，数字不同的情况下。但我观察到，如果可以使用子字符串匹配或正则表达式进行标签编码，那么我们可以简单地对3个数字进行编码。然后问题将是三级分类(三级)问题。然后绘制ROC，auc

浏览 2提问于2019-11-04得票数 0

回答已采纳

3回答

是否需要对此数据集进行热编码？

、、、、

下面是来自UCI数据存储库的数据集。我想要建立一个回归模型，将血小板计数作为因变量(Y)，其余作为特性/输入。我的问题是：在建立回归模型之前，应该对这些变量进行“一次热编码”吗？，我还观察到值在不同的范围内，所以在应用回归模型之前，我是否应该缩放数据集？。

浏览 4提问于2020-07-06得票数 1

2回答

Pandas中的自定义虚拟编码

、、

我有一个带有事件数据的数据。我有两栏:一级和二级。第一栏和第二栏均载有标签列表(例如，“有趣的活动”、“舞会”)。singing', 'dance']我想对数据进行虚拟编码</

浏览 2提问于2017-10-24得票数 0

回答已采纳

1回答

忽略GLM中的h2o因子

当您对分类变量进行一次性编码时，通常会在建模之前删除其中一个变量。这样，您就没有一个与其他特性线性相关的冗余特性。是否有一种方法可以指定不应该用于拟合的范畴变量的级别？：“我们强烈建议避免对任意级别的分类列进行一次热编码，因为这样做效率很低，对于习惯于为其他框架手动扩展分类变量的用户来说尤其如此。

浏览 4提问于2018-02-23得票数 1

回答已采纳

1回答

1-热编码验证数据

、、

我有一个单一热编码的特征矩阵，其中特征是训练数据的子串。我只有一个包含rows = samples, columns = substrings (one-hot-encoded)的最终数据帧。现在我想对一组新的数据进行一次热编码。数据由rows = samples, columns = String组成，我需要检查每个样本的字符串是否包含任何子字符串(特性)，并

浏览 15提问于2020-07-10得票数 0

回答已采纳

1回答

对于相同输入特征的不同目标标签编码，随机Forrest Sklearn给出了不同的精度。

、、、

我用滑雪随机福雷斯特来训练我的模型。使用模型的相同输入特性，我尝试首先使用label_binarize传递目标标签，以创建目标标签的一个热编码，然后尝试使用label_encoder对目标标签进行编码。在这两种情况下，我得到了不同的准确性分数。有什么特别的原因导致这种情况发生，因为我只是使用另一种方法来编码标签，而不更改任何输入特性。

浏览 0提问于2020-05-17得票数 2

回答已采纳

2回答

一类变量的单热向量表示与标签编码

我的数据集中有一个字符串类型的分类变量。我需要把它转换成数值，以便进一步处理。我知道表示分类数据的标准方法是使用一种热编码。但这将把变量的每个条目转换为一个向量。sklearn的LabelEncoder将每个条目转换为标量值。我意识到这是一个非常天真，可能也很愚蠢的问题，但哪种表达方式更常用，是否有理由产生这种偏见？

浏览 0提问于2016-01-13得票数 3

2回答

随机森林分类器中的单热编码

、、

是否需要对python中的随机森林分类器进行一次热编码？我想从逻辑上理解，随机林中是否可以用标签编码来处理分类特性，而不是单热编码。

浏览 4提问于2021-01-14得票数 0

1回答

如何有效地减少一个热编码的分类值的维数？

、、、

因此，我最初的方法是用一个表示其类别的热向量对每个x进行编码。所以，我的问题是，用低维向量表示类别的</e

浏览 0提问于2023-02-28得票数 0

1回答

树与非树(knn)方法中的一个热编码目标变量

、、、、

我正在学习标签编码器，一个热编码等应用于数据集，通过KNN和XGBoost类型树进行分类。但是，对于目标变量是否应该是一个热编码变量，我感到有点困惑。在我的例子中，我有一个500x10大小的dataframe，最后一列是目标(用于预测) country列，而其余的499列包含浮点值。....... 40.1 Germany8.1 ......... 98,7

浏览 0提问于2021-04-19得票数 1

1回答

学习标签编码器:如何保持批间的映射？

、

为了准备我的数据集，我将需要对许多特性进行一次热编码，之后我将获得超过15,000个特性。第二批可能有巴黎，伦敦。但最终，我需要让巴黎、东京、罗马、伦敦同时映射成一个编码。假设我不能

浏览 3提问于2017-05-15得票数 0

回答已采纳

1回答

如何将Pandas Dataframe中的字符串转换为列表或字符数组？

、、、、

我有一个名为data的dataframe，其中的一个列包含字符串。我想从字符串中提取字符，因为我的目标是对它们进行一次热编码，并使这些字符可用于分类。包含字符串的列存储在预测器中，如下所示：印刷的</e

浏览 4提问于2020-05-17得票数 3

回答已采纳

2回答

随机森林分类中字符串标称变量权值的标签编码

、、、、

我想要构建一个随机森林分类器，它将获取关于投诉的分类输入特性并确定投诉类型。'Incident Zip', 'Street Name', 所有这些特性都是名义变量(分类)，我需要将字符串变量转换为浮点变量我不愿意使用一个热标签编码，因为一些功能有超过1000个类别，进一步的计算可能超出我的笔记本电

浏览 3提问于2020-12-16得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

标签编码是否足以输出标签？

如何从csv文件输入进行一次热编码

字符串分类特征的一种热编码

一个功能太多的热编码(~ 10,000)

提供输入标签的单热编码标签

一种热编码分类特征-只限于稀疏形式

如何使用子字符串匹配或正则表达式将字符串类型Target变量编码为数字类型

是否需要对此数据集进行热编码？

Pandas中的自定义虚拟编码

忽略GLM中的h2o因子

1-热编码验证数据

对于相同输入特征的不同目标标签编码，随机Forrest Sklearn给出了不同的精度。

一类变量的单热向量表示与标签编码

随机森林分类器中的单热编码

如何有效地减少一个热编码的分类值的维数？

树与非树(knn)方法中的一个热编码目标变量

学习标签编码器:如何保持批间的映射？

如何将Pandas Dataframe中的字符串转换为列表或字符数组？

随机森林分类中字符串标称变量权值的标签编码

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐