如何在R中测试预测变量的所有子集

、、

我想在r中以编程方式构建glms，类似于这里描述的(How to build and test multiple models in R)，除了测试所有可能的预测变量子集。因此，对于像这样的数据集，使用结果变量z data <- data.frame("z" = rnorm(20, 15, 3), "a&qu

浏览 13提问于2020-01-17得票数 0

3回答

计算R中向量的所有子集

我想写一个小函数，我可以用它在R中的逻辑回归中自动选择特征，以暴力的方式测试预测变量的所有子集，然后通过CV评估它们的分类性能。令人惊讶的是，我没有找到一个包来做这个“所有子集功能选择”，因此我想自己实现它。不幸的是，我有限的R知识使我无法编写一个循环来生成给定向量的<em

浏览 0提问于2013-06-05得票数 2

回答已采纳

1回答

XGBoost:测试数据中的特性可以是用于训练模型的特性的子集吗？

、

如果测试数据仅包含用于训练xgboost模型的特性子集，这是否是一个问题？我的所有预测变量(1除外)都是因素，所以在将其转换为xgb.DMatrix之前先进行一次热编码。因此，不同级别的因素变量成为特性，而我的测试并没有所有这些特性，只有一个子集。目前，当我在R中的测试数据上运行我的模型时，

浏览 0提问于2019-06-14得票数 2

回答已采纳

3回答

删除预测差的数据点是一种有效的方法吗？

、、、

最后我做的是对训练子集上的模型进行拟合，找出测试子集中预测误差最大的数据点，并删除这一个数据点。列车测试分割是随机进行的，因此偶然保留一些“坏”数据点的概率很低。“第一组”然后，整个过程在整个数据集上重复，减去第1组，最终，所有数据都应该被分成几组，在这些组中可以进行合理可靠的预测。以这种方式将所有数据分割成组后，我期望能够对特

浏览 0提问于2018-04-23得票数 4

1回答

正态回归和生存回归的预测限

、、、

我知道，我建立的普通ML模型无法很好地预测2009年后安装的管道的泄漏持续时间。我这么说的原因是因为我首先根据他们的“安装年”对数据进行了排序，然后做了一个训练测试拆分，看看它如何在预测测试数据集中发挥作用，我得到了%93R平方，但当我在火车测试拆分中关闭了混洗功能时(这意味着与正常的火车测试拆分不同，子集是随

浏览 0提问于2019-01-28得票数 0

1回答

具有多个二元变量的回归？

、

我是数据科学领域的新手，我正在尝试用R开发一个小程序，我想用它来预测香水(香水)。我已经创建了一个包含我自己的所有香水的数据集，其中我有一些属性作为列，比如酸橙、香草、鸢尾花等香水的注释。所有这些都是二元变量，我个人为每种香水都指定了一个0-10范围内的" like“连续值。如何使用所有这些二元变量对连续变量(如)进行回归。我想我必须使

浏览 3提问于2021-01-01得票数 0

1回答

在训练数据之前，对特征排序(多重)的显着性测试有哪些？

、、、

我想运行一些显着性测试来对每个特征进行排序，将其作为异常的一个显著特征。您能建议用Python对此进行一些重要的测试吗？

浏览 0提问于2020-03-01得票数 0

1回答

R中缺失因子的cv.glm问题

、、

我正在使用R中引导库的cv.glm交叉验证过程测试逻辑回归的性能。我的一些预测变量是因子。我可以在某些水平的因子变量不存在的观察值的子集上训练回归模型。如果这个模型后来被用于新的观察，包括预测变量的未知水平，那么它就不知道如何表现。因为在我看来这是一个基本的简历问题，我很惊

浏览 39提问于2013-06-06得票数 3

回答已采纳

1回答

我应该如何读取和使用数据从~40 for的csv时间序列预测？

、、、

我有一个~40 csv的csv文件，其中包含了2013-2016年出租车乘车情况的数据(大约)。我试图用它来预测2017年的收入。目前，我正在测试技术，如随机森林，xgboost和先知。由于内存限制，我只处理了一小部分数据，现在我需要使用所有可用数据进行预测。为了预测目的，阅读所有这些数据的最好方法是什么: dask是否符合这个目的？对于较小的子集，我使用熊猫，

浏览 0提问于2018-04-16得票数 1

回答已采纳

1回答

我应该使用什么作为基本(一级)分类器的训练数据？

、

我能不能把我所有的训练数据，训练他们的基本模型，然后把他们的结果，并使用他们的训练水平2模型？这是一个好的做法，还是应该采取不同的做法？

浏览 0提问于2020-01-12得票数 1

回答已采纳

1回答

缺少标准错误的测试

当我的预测器完美地预测我的因变量时，我如何在Stata进行假设检验？sysuse auto, clear gen value = 2*foreign*(price<

浏览 3提问于2015-09-28得票数 1

回答已采纳

1回答

我们使用全年的数据来预测一个特定的目标variable.The模型，就像数据- OneHot编码分类变量- MinMaxScaler - PCA (从15k中选择2000年组件的子集)- MLPRegressor但是，当我们进行ShuffleSplit交叉验证时，所有事情都很糟糕(r^2分数超过0.9，错误率也很低)，但是在现实生活中，他们不会使用相同格式的数据(例如，全年的数据)，而是使用那个月到

浏览 0提问于2020-02-12得票数 2

1回答

在lda分析过程中，我的数据代表有问题吗？

、

当我试图在R中的虹膜数据集的子集上运行lda时，我得到了一个错误，变量长度似乎不同，我不明白为什么？表中的错误(原始= ytest，预测= pred_class)：所有参数必须具有相同的长度 orlda = linDA(dtraino

浏览 0提问于2019-01-05得票数 0

回答已采纳

3回答

具有逗号分隔值的因变量的预测

、、

我从基因测试的调查结果中得到的数据如下：有关更多详细信息，请参见csv文件示例： https://drive.google.com/open?基于上面csv文件中的特性，我想要创建一个模型来帮助我预测“actionspost”值。然后为“actionspost”的每个唯一值创建数据集子集。这一次，因变量将不是actionspost，而是类似于“isactionpost2？”(是=1

浏览 0提问于2016-05-13得票数 0

1回答

计算预测连续值的准确度分数

、、

from sklearn.metrics import accuracy_score我相信这段代码将返回我们预测的准确性。然而，我正在比较连续值的预测值和实际值，我相信它们中的大多数不会完全相同。有人能建议我如何在连续变量的情况下衡量预测的

浏览 1提问于2018-03-05得票数 3

回答已采纳

1回答

通过穷举搜索在Python中实现子集回归

、

使用Python在线性回归中对x中预测y的变量的最佳子集执行穷举搜索的最佳方法是什么？例如，R有一个名为的包，它使用一种有效的分支定界算法来实现这一点。

浏览 1提问于2016-06-04得票数 0

1回答

建立具有多(8)个预测变量的负二项GLMM

我是R的新手，我正在尝试使用负二项GLMM创建模型。问题是，我有一个响应变量，我想测试8个预测变量的多重共线性。例如，当只有3个预测变量时，这似乎很容易，因为这意味着只有4种可能的组合。然而，我想知道在测试多重共线性时，是否有一种更容易的方法来为8个不同的预测变量设置所有可能的组合，而不是手动

浏览 14提问于2021-04-21得票数 1

2回答

根据R中循环中的循环数为数据帧生成变量名

、、

我已经通过使用0和1的随机生成器(各有50%的概率)向我的数据帧添加了一个变量。我使用这个变量将数据框子集到一个训练集和一个验证集，如果没有将记录分配给训练集，它就会被分配到验证集。通过使用这些子集，我能够估计模型的拟合程度(通过对验证集中的记录使用预测函数，并将它们与原始值进行比较)。我对优化模型的系数和预测结果与实际结果之间的KS检验结果感兴趣。我的<

浏览 4提问于2012-07-25得票数 0

回答已采纳

1回答

训练H2O模型时忽略ID变量

、、

如果有人能告诉我如何在创建(训练和测试模型)时将ID变量保留为指示变量而不是预测变量，那就太好了。我正在使用H2o到R。如果有人能回应他们的想法，我将非常感谢。

浏览 2提问于2018-02-01得票数 0

1回答

如何使用R中的循环在多个条件下设置矩阵的子集？

示例矩阵(输入) <code>C0</code>我想使用多个条件的集合来子集R中的一个矩阵-对于所有子集(S1和S2)的每一列(PH和PNH)，我必须计算香农多样性-所以我的问题是“如何在</

浏览 16提问于2018-12-19得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

计算R中向量的所有子集

XGBoost:测试数据中的特性可以是用于训练模型的特性的子集吗？

删除预测差的数据点是一种有效的方法吗？

正态回归和生存回归的预测限

具有多个二元变量的回归？

在训练数据之前，对特征排序(多重)的显着性测试有哪些？

R中缺失因子的cv.glm问题

我应该如何读取和使用数据从~40 for的csv时间序列预测？

我应该使用什么作为基本(一级)分类器的训练数据？

缺少标准错误的测试

用几个月的时间构造实验/训练数据

在lda分析过程中，我的数据代表有问题吗？

具有逗号分隔值的因变量的预测

计算预测连续值的准确度分数

通过穷举搜索在Python中实现子集回归

建立具有多(8)个预测变量的负二项GLMM

根据R中循环中的循环数为数据帧生成变量名

训练H2O模型时忽略ID变量

如何使用R中的循环在多个条件下设置矩阵的子集？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐