R中一组列的热编码_pandas数据帧中一列热编码列的统计_增加R中时间序列中一个热编码变量的“位深度” - 腾讯云开发者社区

r、dataframe、machine-learning、one-hot-encoding、dummy-variable

我正在尝试对R中的df列的子集进行热编码，一种热门编码是将分类变量转换为可提供给ML算法的形式的过程，以便通过将该列中的每个字符串将字符串列转换为二进制列来更好地进行预测。假设我们有一个如下的df： mes work_location birth_place 01/01/2000 China

浏览 45提问于2020-10-29得票数 0

回答已采纳

1回答

多因素ggplot2多行

r、ggplot2、factors

我目前正在写我的硕士论文，我正在努力解决如何用多行多因素在R中绘制一个ggplot。我的数据是这样的总结:我想让温度排序(冷，温暖，热)在y轴和x轴每周(第1，2，3周).12)每个参与者的颜色为红色组1和蓝色组2。我没有得到

浏览 0提问于2020-03-11得票数 0

回答已采纳

1回答

避免虚拟变量陷阱和神经网络

neural-network、regression、one-hot-encoding

我知道在训练机器学习算法之前，分类数据应该是一个热编码。对于多元线性回归，我还需要排除其中一个编码变量，以避免所谓的虚拟变量陷阱。例:如果我有“大小”：“小”、“中”、“大”的分类特征，那么在一个热编码中，我会有如下内容： 0 1 02999 因此，为了避免虚拟变量陷阱，我需要删除3列中的任何一列，例如，

浏览 9提问于2017-11-04得票数 11

回答已采纳

1回答

Word2vec在使用隔离林时编码医疗程序

r、unsupervised-learning、anomaly-detection、outlier、isolation-forest

我计划在R(孤独包)中使用隔离森林来识别我的数据中的离群医疗声明。我的每一行数据代表了每一个供应商在过去12个月中使用的一组药物。在我的数据集中大约有700+独特的药物，使用带有各种数值特性的单一热编码会导致数据中列数的减少。作为对一种热编码的替代，我阅读了关于使用word2vec将“单词”或在我的<

浏览 0提问于2022-02-01得票数 0

2回答

一个hot编码只有6个类的28个不同国家的列

python、pandas、data-science

我有一个数据集，其中一列“Country”有28个不同的国家。我需要首先‘标签编码’的列，然后‘一个热编码’它只有6个标签:前5个最频繁的国家:美国，中国，日本，法国，加拿大和第6个标签是‘其他’的任何其他国家在列中

浏览 22提问于2020-04-12得票数 0

2回答

将大量的分类变量编码为输入数据

machine-learning、neural-network

当您处理数百个类别时，一个热编码听起来并不是一个好主意，例如一个数据集，其中一个列是“名字”。对这类数据进行编码的最佳方法是什么？

浏览 4提问于2016-02-15得票数 1

回答已采纳

2回答

总是在执行一次热编码之后删除第一列？

machine-learning、dataset、feature-selection、categorical-data、encoding

由于其中一列可以完全从其他列生成，因此保留这一额外列不会为建模过程添加任何新的信息，因此，在执行一次热编码之后始终删除第一列是否是一种好做法，而不管所选择的算法是什么？

浏览 0提问于2018-02-27得票数 8

2回答

如何将2列转换为目标指示符

python、pandas

我有一个模拟熊猫数据，由4列(x，y，颜色，标记)。我想把颜色，标记列组合成一个列，它有一个对应于每个不同颜色标记对的数字。我试过在网上搜索，但找不到像这样的问题。我已经尝试引入get_dummies熊猫呼叫，但我不希望在一个热编码中的数字，我想要一个更快的方法，然后转换为一个热编码，然后转换成我的目标指数。例如： 0

浏览 2提问于2020-08-01得票数 0

回答已采纳

2回答

R中一列的热图

r、dataframe、ggplot2、plot、heatmap

我有一个与每个单元格相关联的分数的dataframe，并且在我的dataframe的一列中得到了聚类结果(与分数无关)：type value cell2 1 0.5 24 1 0.5 46 1 0.3 6 我想制作一个热图，用一列表示单元格，样本按顺序排列，颜色代表分数(值)。目前，我已

浏览 4提问于2022-08-15得票数 0

回答已采纳

1回答

如何从sparklyr中的交叉验证器中获得最佳模型的特征重要性？

r、random-forest、sparklyr

我能够在sparklyr中训练随机森林交叉验证器，但无法找到获得最佳模型的特性重要性的方法。如果我训练一个简单的随机森林模型，我可以使用：feature_imp <- ml_tree_feature_importance(fit)> cv_model <- ml_fit(cv, df_training) > feature_imp <- ml

浏览 1提问于2018-06-19得票数 2

回答已采纳

2回答

当训练数据没有得到所有预期的类别时，如何处理分类数据？

python、machine-learning、categorical-data

我的数据有一个名为level的特性，数据可能有级别( -1，0-1，2，3)，但我的数据现在只有2级0和-1。我用python进行二进制分类。如何对所有级别进行一次热编码？处理这个问题的正确方法是什么？我可以将所有级别都包括在测试数据中吗？还是应该只使用两个级别？

浏览 1提问于2018-01-31得票数 0

回答已采纳

1回答

Scikit中的特征选择-混合变量类型的学习计数器问题

python、scikit-learn、data-science、feature-selection

因为存在连续变量和范畴变量的混合，所以当我对我有两个问题的范畴进行编码时，我遇到了一些问题：我不打算包括预处理，但它所做的只是推

浏览 6提问于2020-07-19得票数 0

2回答

如何识别数据帧中的一个热编码列

python、pandas、numpy、data-cleaning、one-hot-encoding

在熊猫数据帧中，有多个具有二进制值的二进制特征列，其挑战是确定哪一列有一个热标签/值(哪一列可以是一个热编码向量的一部分)，以及哪一列是一个独立的特征，而不是一个热编码标签/向量的一部分。我需要清理和预处理的数据如下所示： Rows v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 Label

浏览 0提问于2020-07-31得票数 2

回答已采纳

1回答

基于树的方法如何处理缺少的特征列？

decision-trees、xgboost、one-hot-encoding、dummy-variables

全, 我已经培训了一个使用xgboost的模型。其中一些特征是一种热编码的货币，例如，它要么是英镑，要么是美元。似乎当我输出特征重要性时，英镑和美元分别排在第7位。现在我想用这个模型来预测澳大利亚国家是否有违约者，但是这些国家的货币是澳元。因此，当我应用我的特性工程时，它将创建一个列和一次热编码。由于我的模型没有AUD作为一个功能，它如何处理的功能，已经看不见？我对此不太清楚

浏览 0提问于2020-11-02得票数 0

1回答

R中一列数据的热图

现在我有一列数据，超过500行。City = c("New York", "LA", "DC", "Boston", "Chicago"),我想要构建一个热图我能否将该列拆分为多个列并创建heatmap。提前感谢！

浏览 2提问于2017-06-26得票数 4

回答已采纳

2回答

为几个热编码列(所有组合)创建行，以便通过模型得分。

python、pandas

我从下面这个简化的示例开始我的需求： 'dg1_2':[0, 1], 'dg2我有两个热编码组dg1和dg2。这显然是简化的，dg1和dg2可以包含不同的列数。(1) 我想要创建所有可能的组合给one_observation，这样对于每个<

浏览 1提问于2022-02-19得票数 2

回答已采纳

1回答

R中列列表的单-热编码

r、one-hot-encoding、contingency

我有一张交叉分类表，如下所示：我的目标是创建这个表的一个热编码。因此，必须有24行，其结果为1(患有心脏病)，“从不”列为1，所有其他列为0。结果为1的35行，“偶尔”为1，其他所有行为0。诸若此类。最后，如果你好奇的话，这张表是艾伦·阿莱斯蒂的“分类数据

浏览 5提问于2022-04-08得票数 -1

1回答

pandas数据帧中一列热编码列的统计

python、pandas、dataframe

这些列表示表示一个热编码值的列featureA(它可以有三个唯一的值。)同样，它也有两个标题为featureB_1和featureB_2分别。这些列表示featureB(它可以有两个不同的值。)1, 1, 0, 0, 1, 1],} df1 = pd.DataFrame(dictt) 由于采用了一种热编码，因此上述数据帧中的

浏览 27提问于2021-02-19得票数 5

回答已采纳

4回答

熊猫get_dummies多栏

python、pandas

我有一个包含多个列的数据集，我希望对其进行一个热编码。但是，我不希望对每个列都进行编码，因为所述列与所述项相关。我想要的是使用所有列的一组虚拟变量。请参阅我的代码以获得更好的解释。0 1 0 1 0然而，我

浏览 0提问于2018-08-26得票数 11

回答已采纳

3回答

如何才能给一个熊猫数据帧添加一个随机的热编码熊猫的值？例如，给定三个新列，我希望在其中一行中随机分配一个True值，在其他行中随机分配一个False值。[True, False], df.shape[0]) batch['C'] = np.random.choice([True, False], df.shape[0]) 然而，这种方法并没有给我一个热编码的版本(在三行中只有一个可能是真的)，你知道如何正确地创建

浏览 11提问于2021-03-19得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云