在h2o AutoML上检索保持数据集的交叉验证性能(AUC)_H2O AutoML错误测试/验证数据集有一个非分类列，该列在训练数据中是分类的 - 腾讯云开发者社区

python、machine-learning、cross-validation、h2o、automl

我正在使用默认的交叉验证(nfolds=5)通过h2o AutoML训练一个二进制分类模型。我需要获得每个坚持折叠的AUC得分，以便计算可变性。这是我使用的代码： h2o.init() prostate = h2o.import_file("https://h2o-public-test-data.s3.amazonaws.com/smalldatapredictors, response_col, train

浏览 13提问于2020-09-24得票数 3

回答已采纳

1回答

H2O Python:提取具有最高验证数据集的网格搜索模型

python、h2o

我正在使用H2O Python使用网格搜索构建一个随机森林模型。我在训练和验证中对数据进行分割，并使用k折叠交叉验证来选择网格搜索中的最佳模型。我能够用训练集上最好的MSE检索模型，但我想检索验证集上具有最高AUC的模型。我可以用Python编写所有代码，但我想知道是否有一种H2O<

浏览 2提问于2016-10-23得票数 2

回答已采纳

1回答

h2o.auc( perf，xval =TRUE) -这个调用返回什么？

h2o

我的代码如下perf <- h2o.performance(gbm.fit.hex , tr.hex) a = h2o.auc(perf , xval = TRUE) auc呼叫返回的是什么？它是在</em

浏览 0提问于2015-09-05得票数 0

回答已采纳

1回答

H2o交叉验证不对应于单列/测试

python、machine-learning、random-forest、h2o

我试图了解在H2o中交叉验证是如何工作的，当指定了传递'fold_column‘参数的折叠时。图书馆说： fold_column选项指定数据集中的列，该列包含每个观察的交叉验证折叠索引分配。我假设在每次交叉验证迭代中，使用带有fold_column =i的行作为测试集，其余的行用作列车集</

浏览 2提问于2020-07-28得票数 1

1回答

保留h2o.automl的交叉验证预测和折叠分配

r、cross-validation、h2o

我看不到设置参数的选项和用于h2o R包中的h2o.automl是否有其他方法可以访问h2o.automl()调用中使用的交叉验证数据集？之所以需要这样做，是因为模型中使用的响应变量是对数转换的，并且计算的交

浏览 4提问于2018-01-18得票数 4

回答已采纳

1回答

是否可以使用经过验证的模型对整个数据集进行预测？

r、validation、machine-learning、cross-validation、gbm

我们已经在大约15k行的数据集上运行了'gbm‘模型。我们已经直接实现了10折交叉验证，以提出一个交叉验证模型，我们正在使用该模型在同一数据集上再次进行预测。这导致了可能过拟合的模型约为0.99训练AUC和0.92cv AUC。预测AUC也很高，约为0.99。审查者要求我们使用坚持

浏览 1提问于2018-04-18得票数 2

1回答

在logistic回归中重复计算AUC是否有意义？

logistic-regression、auc、roc、validation

我有一个关于logistic回归模型和测试它的技巧的问题。我不太清楚我是否正确理解中华民国曲线是如何建立起来的。如果是第一种情况，是否有必要重复进行随机列车试验，并将曲线下的面积平均化？这会给模特的技能带来更多的确定性吗？谢谢。

浏览 0提问于2021-05-26得票数 0

2回答

不平衡分类问题的k-折叠CV估计测试AUC

machine-learning、classification、r、cross-validation、class-imbalance

我有一个不平衡的分类问题。然后，我使用R包ROSE同时对Dataset A中的多数类进行了欠采样，并对少数类进行了过采样。这产生了一个平衡集(Dataset C)，其行数与Dataset A一样多。我已经在数据集C和计算训练AUC上训练了我的模型。现在我想使用k倍<

浏览 0提问于2018-04-04得票数 1

1回答

R H20 -分层抽样和非I.D.交叉验证。行

r、cross-validation、h2o

我正在使用H2O来分析数据集，但我不知道如何正确地对数据集执行交叉验证。我有一个不平衡的数据集，所以我希望执行分层交叉验证(如果输出变量用于平衡每个分区上的组)。然而，最重要的是，我还有一个问题，就是我的许多行都是重复的(一种实现权重而不实际拥有权重的方法)。除了这个问题<e

浏览 2提问于2019-01-02得票数 0

回答已采纳

1回答

R glm -如何进行多重交叉验证

r、cross-validation

我有训练数据，我随机分成两部分：第

浏览 5提问于2014-05-14得票数 3

回答已采纳

1回答

从网格搜索中获取模型的cross_validation_holdout_predictions()

h2o

我正试图用一种不同的方式来计算性能，它现在是如何为模型内置的。 rrc[m.model_id] = m.cross_validation_holdout_predictions() 我可以用数据集上的模型运行预测，但我认为这个测试可能会有偏差，因为模型以

浏览 2提问于2017-09-16得票数 2

回答已采纳

1回答

h2o自动机auc系数低

python、h2o

我正在对具有3000个观察值(用于二进制分类)的数据运行H2O AutoML，默认值为10%。最佳模型的AUC非常低(在测试数据上为0.6)。我怎样才能最大化它？

浏览 1提问于2019-07-25得票数 0

1回答

从h2o中，是否有一种方法可以将N个文件夹交叉验证结果导出到数据文件中？

python、h2o、sparkling-water

我正在用H2O火花水建立GBM模型。我知道我们可以使用下面的代码查看N个文件夹的交叉验证结果：但是，是否有一种方法可以将每个文件夹的模型性能保存到数据帧中例如，将每个文件夹的AUC保存到数据框架中。

浏览 6提问于2018-11-01得票数 0

回答已采纳

1回答

h2o交叉验证预测中AUC值的解释总结

r、cross-validation、h2o、glm、auc

我注意到，在一些运行中： train=as.h2o(u) training_framecv迭代，在AUC的交叉验证度量摘要中存在NaNs。例如： print(mod@model$cross_validation_metrics_summary["auc",]) 交叉<e

浏览 89提问于2019-02-15得票数 0

回答已采纳

1回答

天蓝色ML中的K-折叠交叉验证

azure、azure-machine-learning-studio、automl、azure-auto-ml

目前，我正在使用使用sdk构建的azure管道来训练模型。我正试图在我的ml步骤中添加交叉验证。我注意到，您可以在配置autoML时将其添加到参数中。我的数据集由30%标签0和70%标签1组成。我的问题是，在执行交叉验证时，azure autoML是否分层数据？如果不是，在将其传递给a

浏览 3提问于2022-09-15得票数 0

1回答

XGBOOST missing_value特性降低了我的性能？

xgboost、missing-data、auc

我正在训练一个痛风病的xgboost模型，在我抽样的1:7病例控制比率的训练集上(在病例中丰富)。我有220个特性，我达到一个交叉验证的0.90的AUC。对于缺少的值，我使用了一个特殊的值-65336，我不告诉XGBOOST --我让它处理缺失的值，就像对待其他值一样。然后，我在一般人群中使用它，实际比率约为

浏览 0提问于2017-08-06得票数 1

1回答

排行榜性能中的automl* NaN*

h2o

我正在使用H2O.AI h2o.automl函数来执行一个标准的二进制分类问题。我使用的是CRAN上发布的最新包版本。我运行了以下代码：

浏览 0提问于2017-10-12得票数 0

1回答

尽管交叉验证结果非常成功，但对随机森林的过度拟合

python-2.7、random-forest、h2o

我在数据科学方面有一定的经验。我有9500个观测数据集和4500多个特征，其中大部分是高度相关的。下面简要介绍一下我尝试过的内容:我删除了少于6000个非NAs的列，并在至少有6000个非NAs的情况下计算了NAs及其相应列的中值。至于相关性，我只保留了最多与他人有0.7相关的特性。通过这样做，我将功能的数量减少到了750个左右。然后，我在随机森林的二进制分类任务

浏览 2提问于2017-11-13得票数 1

回答已采纳

1回答

h2o随机林的置信区间

r、random-forest、h2o

我注意到，有几个函数设计用于计算使用randomForest包构建的模型的置信区间，例如rfPredVar in RFinfer。我想知道是否有人知道像rfPredVar这样的函数可以计算使用h2o包构建的RF模型的置信区间。在此之前，非常感谢您。

浏览 1提问于2017-11-01得票数 2

1回答

在循环中运行H2O的Auto ML

r、loops、machine-learning、data-science、h2o

我试图在for循环中运行H2O的AutoML，但在每次迭代后保存结果都有问题。我的计划是为我的数据集中的每个组运行AutoML，并保存每个组的排行榜。我已经按组创建了子集数据集，所以基本上我想要做的是循环遍历h2o帧的列表，并为每个数据集构建自动机。= c("df

浏览 1提问于2018-04-24得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云