一个热编码仅影响R配方中的变量_增加R中时间序列中一个热编码变量的“位深度” - 腾讯云开发者社区

、

我有一个这样的数据帧df height age dept44 8 B58 34C 我只想对因子变量进行一次热编码(只有dept是一个因子)。并得到这样的警告：警告消息:以下变量不是因子向量，将被忽略：height、age ohe <- df %>% re

浏览 12提问于2021-11-09得票数 1

回答已采纳

2回答

如何对序数变量进行编码？

使用序数变量，我可以执行一次热编码，以便在统计模型中使用。在我正在读的一些书中，我看到有序变量[a,b,c]的排序a<b<c编码如下1 1 0这里，矩阵各行中的额外1表示，例如，b对a有附加影响。110110111

浏览 1提问于2017-08-22得票数 0

1回答

基于日期时间的虚拟变量编码或周一至周五的单热编码( DolphinDB )

、

星期一到星期五是模型的自变量，但是为了消除1-5基元的影响，需要构造一个热编码或虚拟变量。

浏览 10提问于2022-04-21得票数 0

1回答

当有分类数据时，使用Sklearn随机森林进行特征选择不会给出预期的结果

、、、

我想使用SKlearn随机森林特征选择函数来了解影响我的自变量(TN污染物浓度)的关键因素是什么。我有一个分类变量-气候类型，有五种气候类型(温度-热，温度-干燥，温度暖，热带和干旱)，我知道气候类型对我的自变量有很大的影响，但是，当我使用一种热编码方法(通过pandas get_dummies)时，我发现这些气候类型(经过一次热编码</

浏览 44提问于2020-10-07得票数 2

1回答

如何使用yocto配方在目标板上设置环境变量？

、、

我想创建一个名为BOARD的环境变量，该变量被设置为Yocto配方中的物理板类型。在配方的实际安装过程中不会使用此变量。我还想修改HOME变量。这些变量需要在启动后可以在主板上访问。这样做最好的地方是什么？我尝试过使用export，但意识到此命令不会影响父shell。我读过有关修改dot.profile文件的内容，但我不想硬编码变量</

浏览 0提问于2019-07-13得票数 0

1回答

单热编码效果卡方检验吗？

、、

我正在为一个数据科学项目做一个特性选择，其中一个特性是一个高度基数的分类变量(对于上下文来说，它是国籍)。我知道卡方测试可以像我的测试那样处理多类特性，但我需要执行一个热编码(根据多类变量的值将多个变量划分为多个二进制变量)，才能将其输入到我的机器学习算法(spark )中。我的问题是，做一个

浏览 0提问于2022-05-16得票数 0

1回答

R:将dgCMatrix分解成训练矩阵和测试矩阵，用于XGBoost训练

、、、

首先，我是XGBoost的新手。原谅我的愚蠢。如何将dgCMatrix分解为两个矩阵(例如，训练和测试)？我的目标是使用这些矩阵进行XGBoost培训。当我使用一次热编码将所有的分类变量转换为数值变量时，我得到了dgCMatrix。我可以单独对训练数据集和测试数据集进行一次热编码吗？我尝试过dummyVars (从包插入符号)进行一次热编码，但我的</e

浏览 0提问于2016-09-05得票数 2

回答已采纳

1回答

模型中字符串(关键字/主题)的表示选项

、、、

在机器学习模型中表示关键字的所有可能方法是什么？一个热编码，使用静态索引。向量表示，使用嵌入层。在处理客户端(浏览器) ml时，我们遇到了一个特定的问题，需要将文本数据转换为模型可以使用的东西，而无需将其发送到服务器。编辑：(注释澄清)文本数据是从我们的脚本加载的页面中提取出来的，然后我们希望在浏览器上本地运行一个模型--使用页面中基于文本的</

浏览 0提问于2019-08-01得票数 1

1回答

XGBoost:测试数据中的特性可以是用于训练模型的特性的子集吗？

、

如果测试数据仅包含用于训练xgboost模型的特性子集，这是否是一个问题？我的所有预测变量(1除外)都是因素，所以在将其转换为xgb.DMatrix之前先进行一次热编码。因此，不同级别的因素变量成为特性，而我的测试并没有所有这些特性，只有一个子集。目前，当我在R中的测试数据上运行我的模型时，我遇到了一个错误：“存储在对象和新数据中的</

浏览 0提问于2019-06-14得票数 2

回答已采纳

2回答

编码“直方图箱”

、、、、

我目前正在处理一个回归问题，其中我有一个变量(x)的数据，以“直方图箱”的形式。例如，我可以有900-999,1500-1599等值范围，但是数据没有告诉你具体的值。我的问题是:在这种情况下，我是否应该把这个变量当作实值(可能取每个垃圾桶的中位数)？或者我应该把它作为分类数据来处理，每个100宽的bin代表一个单独的类别？如果我认为它是绝对的，什么是最好的

浏览 0提问于2021-09-04得票数 1

3回答

如何使用Python和Scikit进行线性回归学习使用一个热编码？

、、

我正在尝试使用线性回归结合python和scikitlearn来回答这个问题：“在给定用户人口统计信息的情况下，是否可以预测用户会话的长度？”我使用线性回归，因为用户会话长度是以毫秒为单位的，这是连续的。我对我所有的分类变量进行了热编码，包括性别、国家和年龄范围。我试着在这里阅读：我理解的输入是我的主

浏览 3提问于2016-12-26得票数 5

回答已采纳

1回答

Keras -使用具有多个分类变量的嵌入

、

如果我正确理解了嵌入矩阵的概念，它们的存在是为了提供一种比使用一种热编码更有效的方法来编码分类变量。似乎如果你有多个分类变量作为Keras模型的输入，你需要为每个分类变量使用一个单独的嵌入矩阵。但是，我找不到使用Keras提供的embedding类对多个分类变量使用嵌入的方法。文档中的示例仅展

浏览 5提问于2020-01-25得票数 3

1回答

我试图在数据集上使用线性回归，其中预测器是产品ID、权重、类型、Outlet_Establishment_Year等，目标变量是Item_Outlet_Sales。我用R-平方作为度量。我认为预测器有不同的单位，所以我需要对它们进行缩放。平方，得到0.57的结果： concat_data = pd.concat([X, Y], axis:', r2_score(Y_scaled, predicte

浏览 12提问于2022-10-29得票数 0

2回答

R与滑雪板中的随机森林

、、、、

非常方便的是，R中的RandomForest接受输入(X)的因素。如果从带有值(a，b，c)的因子变量中构建一个节点，将其分解为(a，c)和(b)，我假设这样做可以使构建树更容易。在sklearn中，我需要将所有内容编码为虚码(0,1)，以便丢失a、b、c向量之间的任何关系。我的解释正确吗?在滑雪板中有一种连接输入向量的方法吗？如果我将变量编码为( 0,1 ,

浏览 6提问于2017-08-10得票数 3

3回答

.fit()方法中的多个标签(Trainy)的热编码？

、、

我有一个移动价格分类数据集，其中我有20个特性和一个名为price_range的目标变量。我需要分类移动价格低，中等，高，非常高。错误:

浏览 0提问于2019-11-04得票数 0

回答已采纳

1回答

如何对tfdatasets r中的响应变量进行热编码？

、

我正在尝试在R中使用tfdatasets包，以便生成一个管道，该管道接受tibble/dataframe并输出一个热点编码的物种响应变量。如何使用tfdatasets转换响应变量(y)，以便将物种输出为一个热编码的物种？期望的输出为：杂色，刚毛，处女座 0，1，0 ...

浏览 10提问于2020-04-09得票数 1

2回答

为什么树组不需要一次热编码？

、、、、

我知道像随机森林和增强树这样的模型不需要对预测器级别进行一次热编码，但我并不真正理解为什么。如果树是在特征空间中分割的，那么是否存在固有的排序呢？这里一定有我遗漏的东西。让我更困惑的是，我遇到了我正在研究的一个问题，尝试在分类特性上使用一次热编码，而在R中使用xgboost将其转换为整数，使用一次热编码的泛化错误稍微好一些。然后我又取了一

浏览 0提问于2017-04-02得票数 8

回答已采纳

4回答

序数数据何时应该按顺序表示，什么时候用整数表示？

、、、

我正在做Kaggle竞赛房价:先进的回归技术来了解更多关于数据分析的知识。我想将多个模型应用于数据(正则化LR、随机森林、神经网络和集成方法)。Reg Regular IR2 Moderately Irregular我想知道是否应该保持这样的字段，或者是否应该将它们转换为整数(即给类别中的每个类一个类似于1、2、3或4的数字)。因为问题可能是‘这取决’，我希望你能给我一些更普遍

浏览 0提问于2018-08-18得票数 2

1回答

在excel中将数据分类为数字

、、、

我有一个大的数据集，我想把这些分类数据转换成二进制形式的数值，以便在R中执行k均值聚类，但是，我得到了一个值错误。这是我在excel表中输入的公式：=LEFT(B2，FIND(“"，B2,1)-1)。📷

浏览 0提问于2019-02-24得票数 0

1回答

处理包含多个非序数分类功能的Pandas数据帧

、、、

我目前正试图分析一个包含多个非序数分类特征和一个二进制目标变量的数据集。这张桌子看起来是这样的：| Col1 | ....50 | cat 450 | 1 |整个表是400.000行x15列，其中最后一列是目标变量我的第一反应是对所有的分类变量<

浏览 0提问于2020-06-03得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云