如何将变量的每个唯一组合迭代到具有变量的训练/测试集中，并添加到预先存在的模型变量中？

、、、

我找到了this answer，它告诉我如何获得每一种独特的组合--这很完美。但是我已经在我的模型中有了一组我想要的“基本”变量。这只是我需要遍历和添加的最后几个。我已经有一个函数，将采取所有的准确性，召回等措施，我需要并输出我的所有措施的数据帧。因此，我可以很容易地浏览这些列，看看哪个区域最好。所有的变量都在一个数据框中，所以我所要做的就是选择我想要的

浏览 2提问于2020-10-18得票数 0

1回答

如何使用哈希码作为其值设置索引列？

、、、

我正在尝试使用具有分类值(字符串值)的数据集来训练机器学习模型。然而，火花模型不能使用字符串值进行训练，因此我必须将它们转换或将它们索引为一个数值。然而，我发现Spark的唯一字符串转换器是StringIndexer，但是我发现这是非常不可靠的，因为它根据字符串的频率对string进行索引，并且不能保证在我的测试文件中字符串值的频率将保持不变。因

浏览 1提问于2017-07-31得票数 1

回答已采纳

2回答

如何将数据集分成两部分，同时确保它们在列中与分类变量保持平衡？

、、

我正在使用训练和测试数据集来测试一个估算模型的准确性。我正在运行的模型使用了一个分类变量。不幸的是，当我随机拆分数据集并在训练集上运行一个模型时，我无法估计测试数据集中存在的某些分类变量的系数。我想对数据进行分割，同时确保所有的分类变量都存在于培训和

浏览 1提问于2021-11-06得票数 0

1回答

一次热编码可用类别的一致性

、、、、

假设我有两个数据集，一个用于训练，一个用于预测。因此，变量X同时存在

浏览 1提问于2020-05-11得票数 1

1回答

不使用row.name组合数据集

、、

我从一个data.frame (或data_frame)开始，其中包含我的因变量Y变量、独立的X变量和一些"Z“变量--这是我在建模练习中不需要的额外列。我想做的是：将该数据集分解为随机训练和测试集；使用该模型对训练集和测试集

浏览 0提问于2015-02-28得票数 1

回答已采纳

2回答

图神经网络在不可见图拓扑上的推广失败

、、

我使用PytorchGeometric来训练一个用于节点回归问题的图形卷积网络(图模型是传感器网络中的物理现象；传感器网络实际上是分布在电网中的测量网络(功率、电流、电压)，而GNN的目标是预测图中的一些未测量变量训练曲线看上去很好，损失曲线收敛到一个很小的值，没有爆炸或消失的梯度。在训练集中有1000个不同

浏览 0提问于2021-06-10得票数 1

1回答

处理多个数据集的ML问题的方法是什么？

用不同参数、列和长度/宽度的多个数据集解决机器学习问题的方法是什么？其中只有一个有因变量。其余文件包含支持数据。

浏览 1提问于2018-11-28得票数 0

回答已采纳

1回答

如何解决Python中的开放集分类问题？

、、

目的是预测物种标签用于测试训练集中表示的样本，并预测属标签用于测试未表示在训练集中的样本。给定的数据变量如下所示： __：这是一个大小为16128的列向量。这个变量包含训练集中每个昆虫实例的属级标签。你可以把它们想象成树中叶节点的父节点，其中叶节点是物种，父节点是属。所有<e

浏览 1提问于2021-04-30得票数 0

1回答

Orange:如何确保相同的PCA同时应用于训练数据集和测试数据集？

在Orange中，我可以将数据集附加到PCA以进行降维。有没有一种方法可以在测试数据的训练数据上运行PCA转换？

浏览 72提问于2020-02-22得票数 0

回答已采纳

3回答

处理R中的不平衡数据-错误消息

、、

我正在尝试处理R中不平衡的数据集。我传递了训练和测试集的csv文件，我试图预测，但预测只对前10个实例运行。输出消息是:预测代码exit with value 1谢谢

浏览 1提问于2016-03-15得票数 0

1回答

scikit学习的训练-测试分离导致在训练数据中只有一个唯一值的特征

、、、

我正在尝试训练一个多元线性回归模型。我有一个名为'main‘的数据集。该数据集中类别变量很少。我简化了分类变量。假设虚拟后得到的列是A、B、C、D等。现在，当我试图在这个主数据集上运行训练测试拆分时，这样获得的训练数据集在其中一列中只有0值。我怎样才能克服这个问题。： df_train.columns[df_train.nunique() == 1] 结果是：Index

浏览 7提问于2019-01-24得票数 1

1回答

分割数据时如何处理ID变量以进行机器学习？

、、

特别是在基于home和one的变量中有一个重复，这样我就可以尝试将所有的事件数据放到一个也是唯一的一个观察中(例如= "average_speed_home“和"average_speed_away")我在几篇文章中读到，我应该保留这些变量用于数据分割，因为如果我不这样做，可能会产生偏差。但是，我拥有的ID变量并不是我在创建模型时真正想要包含的因素。具体来说，我在比赛中

浏览 0提问于2023-06-01得票数 0

1回答

由于特征不匹配而无法预测

、、、、

我使用sklearn创建一个基于xlsx文件的逻辑回归模型。我从dataset中删除了一些目标和冗余特性。现在，我想对文件的每一行进行预测，并希望根据新的xlsx文件获取标签。“x每个样本有37个特征；预期为44个” 出什么问题了？谢谢你的暗示。

浏览 0提问于2019-06-24得票数 0

回答已采纳

2回答

稀疏数据的logistic回归

、

我使用logistic回归模型进行一些预测分析。我们有大约25个预测变量和1个二元结果(Y/N)变量。我正在对结果为"Y“的概率进行建模。我的训练数据集中有400,000条记录，评分集中也有相同数量的记录。训练集中出现"Y“的概率为0.1%。SAS输出的模型的C统计量为0.97，这是非常好的

浏览 0提问于2014-03-05得票数 2

1回答

如何在字符串Javascript中增量变量

、、

基本上，我有一个.each循环，它迭代一些数据，并对数据集中的每个项附加一个span类到DOM。$('.selected_cont').append('<span class="' + classes + '"></span>'); 类只是上面的变量ive创造性的，它保存了我迭代的数据的

浏览 3提问于2016-04-12得票数 0

回答已采纳

1回答

按组处理/评分的随机森林

、、、、

我正试图用客户数据库建立一个预测模型。我有一个有3000名客户的数据集。每个客户在测试数据集中有300个观察和20个变量(包括因变量)。我还有一个分数数据集，它有50个观察数据集，其中包含19个变量(不包括因变量)，用于每个唯一的裁剪器ID。我将测试数据集放在一个单独的文件中，每个客户都通过一个唯一<

浏览 1提问于2014-03-23得票数 0

回答已采纳

1回答

Kaggle竞争:范畴变量

、、

在分类变量练习中，最后一部分是生成测试预测。我已经编写了以下代码，但得到了一个错误。我无法理解这个错误，为什么它说X有148个特征，随机森林期望155个特征。我的代码： # X_test.dropna(axis=0, inplace

浏览 11提问于2022-07-04得票数 -1

1回答

从验证精度到测试精度的显著下降

、、、、

我一直在执行这样的验证：根据我测试的模型

浏览 0提问于2019-08-11得票数 3

2回答

如何使用新(测试)数据重新创建相同的DocumentTermMatrix

、、、、

假设我有基于文本的训练数据和测试数据。更具体地说，我有两个数据集-训练和测试-它们都有一个列，其中包含文本，并对手头的工作感兴趣。我使用R中的tm package处理训练数据集中的text列。在删除空格、标点符号和停用词之后，我对语料库进行了词干处理，最后创建了一个1克的文档术语矩阵，其中包含每个文档中单词的

浏览 0提问于2013-05-19得票数 11

回答已采纳

1回答

Logistic回归训练集的功能

、

我试图创建一个函数来测试在训练集上开发的logistic回归模型。train <- filter(y, folds != i)我希望能够为不同的数据集使用公式。例如，如果我要把y作为一个响应变量，例如在与生俱来的to数据集中的“low”和x作为解释变量，例如“age", “race”，我将如何将这些参数实现<

浏览 3提问于2014-11-10得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何使用哈希码作为其值设置索引列？

如何将数据集分成两部分，同时确保它们在列中与分类变量保持平衡？

一次热编码可用类别的一致性

不使用row.name组合数据集

图神经网络在不可见图拓扑上的推广失败

处理多个数据集的ML问题的方法是什么？

如何解决Python中的开放集分类问题？

Orange:如何确保相同的PCA同时应用于训练数据集和测试数据集？

处理R中的不平衡数据-错误消息

scikit学习的训练-测试分离导致在训练数据中只有一个唯一值的特征

分割数据时如何处理ID变量以进行机器学习？

由于特征不匹配而无法预测

稀疏数据的logistic回归

如何在字符串Javascript中增量变量

按组处理/评分的随机森林

Kaggle竞争:范畴变量

从验证精度到测试精度的显著下降

如何使用新(测试)数据重新创建相同的DocumentTermMatrix

Logistic回归训练集的功能

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐