Scikit-learn:在超参数调整后对整个数据集使用交叉验证_在使用训练-测试拆分后，我是否应该用整个数据集重新训练模型，以找到最佳的超参数？_如何使用r中的插入程序包对最佳调整的超参数进行10折交叉验证，从而获得每个折叠的预测？ - 腾讯云开发者社区

、、、、

在训练数据集上交叉验证超参数网格后，SparkML的CrossValidator是否重新适合整个训练数据集？如果不是，它会从交叉验证的哪一部分中选择用于推断的bestModel？为此，CrossValidator是否使用最佳超参数在整个训练/交叉<

浏览 22提问于2021-03-23得票数 0

1回答

基于交叉验证的模型选择和超参数整定工作流程

、、

我一直试图教自己机器学习，并希望确保我对模型选择、超参数优化和交叉验证有正确的想法。对</em

浏览 0提问于2020-05-11得票数 -1

2回答

交叉验证问题

、、

我遇到了许多使用交叉验证的方法，对所附问题的回答是迄今为止对我最好的解释。我的两难处境是，现在我无法弄清楚如何使用Kfold验证：-超音波调谐？也是怎么回事？我不知道在交叉val之后该如何处理平均分数，如何处理这些褶皱，以及如何处理对k-1倍的列车数据进行训练的模型？

浏览 0提问于2019-10-21得票数 1

回答已采纳

2回答

培训集交叉验证后是否需要测试集？

、、、、

我想引用Aurelien的“与Scikit学习和TensorFlow一起进行机器学习的手”一书中的一段，关于在使用k-折叠交叉验证对训练集进行超参数调整之后对最终测试集的评估： “如果您进行了大量的超参数优化(因为您的系统最终对验证数据进行了很好的调整，并且在未知数据

浏览 0提问于2020-08-14得票数 1

回答已采纳

1回答

超参数的优化与交叉验证评估

、、

我很难掌握如何使用交叉验证进行超参数优化和评估的标准方法。我试着做10倍的简历。下列哪一种方法是正确的？所有数据都用于参数调整(例如，使用带有交叉验证的随机网格搜索)。这将返回最佳的超参数。然后，利用这些超参数构造了一个新的模型，它可以通过交叉验证(9倍的训练，1倍的测试)来评估，最后，我发

浏览 1提问于2020-04-21得票数 0

回答已采纳

1回答

Scikit-learn:在超参数调整后对整个数据集使用交叉验证

、

我正在使用scikit-learn中的决策树对垃圾邮件进行分类。在阅读了这里和其他地方的各种帖子后，我将初始数据集分为训练和测试，并使用交叉验证对训练集进行了超参数调整。在我的理解中，应该计算训练和测试的分数，以检查模型是否过拟合；考虑到测试集上的分数是好的，我可以排除这一点，并呈现从

浏览 10提问于2019-03-04得票数 0

1回答

交叉验证法在模型选择中的一些困惑

、

使用Xtrain，我执行k折叠交叉验证，在每个折叠内部使用来自Xtrain的索引验证模型。这个循环用于调优模型的超参数。我从不使用Xtest来选择超参数。我的理解正确吗？1)链接中的答案是：您可以使用整个集合上的交叉验证来构建最终的模型，选择超参数，然后使用优化的超

浏览 0提问于2018-07-18得票数 0

回答已采纳

1回答

LassoCV如何在scikit中学习分区数据？

、、、

我是执行线性回归使用拉索方法在雪橇。根据他们的指导，以及我在其他地方看到的，不只是对所有的培训数据进行交叉验证，而是建议将其划分为更传统的培训集/验证集分区。因此，拉索在训练集上进行训练，然后根据验证集交叉验证的结果对超参数α进行调整。最后，<e

浏览 3提问于2014-06-15得票数 8

回答已采纳

2回答

拉索回归怀疑

、、、

对于这个问题，我使用了线性回归，但是有一个建议的解决方案是用Lasso回归。然而，用户已经使用了列车功能。我不明白为什么要使用火车功能。是拉索的语法吗？岭回归也采用了类似的函数。

浏览 0提问于2018-06-24得票数 1

1回答

插入符号交叉验证中的预处理

、

对于需要澄清的数据预处理，我有一个问题。据我所知，当我们通过交叉验证来调优超参数和评估模型性能时，而不是对整个数据集进行预处理时，我们需要在交叉验证中这样做。换句话说，在交叉验证中，我们对训练褶皱进行预处理，然后使用相同的预处理参数对测试褶皱进行处理和预测。在下面的示例代码

浏览 0提问于2018-05-11得票数 5

1回答

参数选择和k-折叠交叉验证

、、、

我有一个数据集，需要对整个数据集进行交叉验证，例如，10倍的交叉验证。我想用径向基函数( RBF )核进行参数选择(RBF核有两个参数:C和γ)。通常，人们使用开发集来选择支持向量机的超参数，然后在开发集的基础上使用最优的超参数，并将其应用

浏览 2提问于2016-05-06得票数 2

1回答

在训练或验证分区上执行交叉验证以优化参数。

、、、

我有一个大的数据集，它被划分为三个块(训练-验证-测试)。我想要执行交叉验证( CV )，因为我有一个大的数据集，它将花费太长的时间来执行整个数据集的简历。什么是正确的分区来执行简历？我看过一些教程，它们只使用训练分割，而其他只使用验证分割，而其他则使用整个数据集。感谢您的任何澄清或帮助。

浏览 0提问于2018-09-25得票数 1

回答已采纳

1回答

何时使用交叉验证？

、、

Cross-validation 嗨，我正在使用Weka在我的MSc论文中部署机器学习模型。我已经注意到，当我在训练数据集中使用10倍交叉验证时，与在整个数据集上没有交叉验证的情况下训练模型相比，我得到了较低的评估指标，如果我在测试数据集上测试该模型时获得更好的性能，这将是有意义的，然而，它保持相同的性能例如，

浏览 0提问于2021-01-23得票数 0

1回答

我应该先执行train_test_split，然后执行GridSearchCV，然后执行K折叠交叉验证吗？

、、

我在GridSearchCV和K折叠交叉验证之间有很多混淆。我知道GridSearch只用于超参数优化，K折叠将我的数据分割成K折叠并在它们上迭代(cv值)。那么，我应该先将数据分割成训练集和验证集，然后将GridSearch应用于训练数据以获得“最佳参数”，然后使用从GridSearch获得的“最佳参数”对训练数据</

浏览 6提问于2021-06-27得票数 0

回答已采纳

1回答

您是否预测过交叉验证(gridsearchcv / KFold)后的测试数据，以及如何预测？

、、、、

我的数据集包含40个测量对象(MO)中每个对象的112个特征向量。共有4480个特征向量，平均分为4个类别，533个特征。(这里有更多关于的信息)在分割数据集(训练:34 MO，测试:6 MO)和减少特征数目之后，主要通过主成分分析( PCA )，我用KFold对不同模型的超参数进行了调整。问题：在评估时，是否有必要对列车和测试数据进行分割？我的教授说不行，交叉<e

浏览 3提问于2020-12-18得票数 0

回答已采纳

1回答

如何对大型数据集进行交叉验证和超参数调整？

、、、

我有一个csv文件的10+gb，我使用了pandas.read_csv()中可用的"chunksize“参数来读取和预处理数据，用于训练模型想要使用的在线学习方法之一。通常交叉验证和超参数整定是对整个训练数据集进行的，并使用最好的超参数来训练模型，但是在海量数据的情况下，如果我<em

浏览 9提问于2017-09-26得票数 1

回答已采纳

2回答

在交叉验证后对所有训练数据进行scikit-learn训练

、

我正在使用scikit-learn来训练分类器。我还希望进行交叉验证，但在交叉验证之后，我希望对整个数据集进行训练。编辑:我想用我所有的数据来训练具有最佳交叉验证分数的分类器。

浏览 1提问于2014-03-24得票数 2

1回答

超参数整定与交叉验证

、、、

我对交叉验证的正确使用有一些困惑。评估评估器的性能和可概括性。据我所知，这将是你将遵循的过程：使用交叉验证在训练集(GridSearchCV)上建立模型并调优超参数。使用测试<e

浏览 0提问于2019-10-11得票数 3

5回答

交叉验证和网格搜索有什么区别？

、、、

简单地说，交叉验证和网格搜索的区别是什么？网格搜索是如何工作的？我是不是应该先做交叉验证，然后再做网格搜索？

浏览 17提问于2013-10-12得票数 53

1回答

最终模型拟合-子集与整个训练数据

、、

如果我将整个可用培训数据的子集用于模型优化和超级参数选择，那么是否应该将最终模型与子集培训数据集或整个可用的培训数据相匹配？例如，如果我有1万个可用的样本，并且我将一个100 K的随机样本作为测试保留，而200 K的随机样本作为模型调优的训练数据集，那么用于在1) 200 K训练数据集上拟合最终模型的调优超级参数，还是2)900 K可用数据(不包

浏览 0提问于2020-06-24得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在选择最佳超参数组合后，SparkML CrossValidator是否重新适合完整的训练数据集？

基于交叉验证的模型选择和超参数整定工作流程

交叉验证问题

培训集交叉验证后是否需要测试集？

超参数的优化与交叉验证评估

Scikit-learn:在超参数调整后对整个数据集使用交叉验证

交叉验证法在模型选择中的一些困惑

LassoCV如何在scikit中学习分区数据？

拉索回归怀疑

插入符号交叉验证中的预处理

参数选择和k-折叠交叉验证

在训练或验证分区上执行交叉验证以优化参数。

何时使用交叉验证？

我应该先执行train_test_split，然后执行GridSearchCV，然后执行K折叠交叉验证吗？

您是否预测过交叉验证(gridsearchcv / KFold)后的测试数据，以及如何预测？

如何对大型数据集进行交叉验证和超参数调整？

在交叉验证后对所有训练数据进行scikit-learn训练

超参数整定与交叉验证

交叉验证和网格搜索有什么区别？

最终模型拟合-子集与整个训练数据

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐