交叉验证是否用于模型选择？

文章/答案/技术大牛

发布

1回答

r、machine-learning、cross-validation、r-caret、k-fold

例如，具有训练GLM模型的以下代码： glm_sens = train( data = ABT, method = "glm", metric = "Sens" ) 我预计这会训练几个模型，然后选择在灵敏度方面表现最好的模型</

浏览 15提问于2020-06-15得票数 1

1回答

在K折叠交叉验证之前或训练模型之后，是否需要首先训练模型？

machine-learning、cross-validation

我正在实现一个用于分类目的的神经网络，现在我遇到了交叉验证的麻烦。我的问题如下：我们是否需要首先训练模型，然后交叉验证它(K折叠)，或者我们首先交叉验证模型，然后选择在未知数据上表现良好的模型，然后训练它，谁能指导我整个过程是如何运行的，它正在变得混乱，因为如果训练是在之前或之后完成的

浏览 0提问于2020-04-23得票数 0

1回答

predict_proba如何与交叉验证一起工作？

scikit-learn、cross-validation、caret

当使用5倍交叉验证来创建模型时，创建了5个不同的模型.最后一种模式的选择可能有所不同： best-estimated (或其他标准)在5倍创建的模型或中建模，该模型在对所有数据集进行培训时创建。我知道交叉验证是用于模型检查，而不是用于建模。所以当在模型上使用predict_proba时，这个概率是如何定义的？你能分享一些论文或文章来讨论预测是如何在R中的插入符号和

浏览 1提问于2022-06-15得票数 0

1回答

我是否应该将我的数据分成培训/测试/验证集，并进行k-交叉验证？

validation、machine-learning

在评估推荐系统时，可以将其数据分成三部分:培训、验证和测试集。在这种情况下，培训集将用于从数据中学习推荐模型，而验证集将用于选择要使用的最佳模型或参数。然后，使用所选择的模型，用户可以使用测试集来评估其算法的性能。我已经找到了一个scikit学习交叉验证()的文档页面，它说，在使用k-折叠交叉验证时，不需要将数据分成三部分，而是只分为两部分:培训和测试。解决这个问

浏览 5提问于2017-04-05得票数 0

回答已采纳

1回答

cross_val_predict后新文档的分类

python、twitter、machine-learning、scikit-learn、classification

我正在使用Python的scikit-为这个模型学习。我手动编码1000条推文为“相关”或“不相关”。然后，以80%的人工编码数据作为训练数据，其余作为测试数据，运行支持向量机模型。我获得了很好的结果(预测精度~0.90)，但为了避免过度拟合，我决定对所有1000个手工编码的tweet进行交叉验证。下面是我的代码，在我的样本中已经获得tf矩阵的tweet之后。"target“是一个数组，列出了tweet是否被标记为”相关“或”不相关“。为了使用我的模型对其他9000条我没有手

浏览 15提问于2017-01-23得票数 2

回答已采纳

1回答

我们可以在CNN上使用验证损失和交叉验证吗？

machine-learning、python、cnn

验证损失用于避免训练集的过度拟合，交叉验证用于推广模型的结果。它们是否用于类似的目的或结果？如果没有，那么我如何同时使用验证损失和交叉验证结合在CNN上？

浏览 0提问于2020-05-03得票数 0

2回答

机器学习算法和交叉验证--最佳实践

machine-learning、python、regression

我还试图开始使用sklearn库实现一些用于回归的算法。我了解数据集，清理和准备，为这类数据集确定一套合适的算法。训练算法，查看性能，选择最优的算法。我有最佳的参数训练算法，我用这样的参数来训练算法。现在出现的问题是，我不知道该怎么办。我是否可以考虑用最好的参数来训练算法，同时执行交叉验证？或者让我在没有交叉验证的情况下训练算法？简而言之

浏览 0提问于2021-02-09得票数 0

回答已采纳

1回答

模型性能估计中交叉验证的有效性

machine-learning、cross-validation、model-evaluations

当应用交叉验证来估计预测模型的性能时，所报告的性能通常是所有验证折叠上的平均性能。由于在此过程中，创建了多个模型，必须选择一个模型作为实际用于预测真实世界样本的模型(例如在产品中)。我想知道，将验证性能报告为最终(选定)模型的估计性能是否真的有效(因为性能是使用在验证过程中创建的所有其他模型导出的，但在使用最终模型进行预测时不考

浏览 0提问于2019-09-07得票数 1

回答已采纳

1回答

H2O交叉验证所选择的折叠是否改变了所使用数据的百分比？

python、cross-validation、h2o、k-fold

H2O手册描述了如何分割数据以进行k-折叠交叉验证.给出的例子是一个5倍交叉验证。参见：，它声明： “前5种模型(交叉验证模型)建立在80%的培训数据基础上，而对于5种模型中的每一种，分别提供了不同的20%。”。如果选择了不同的折叠值，这些百分比会不会不同--例如，假设选择10作为折叠数，以下是否为真？‘前10个模型(交叉验证<

浏览 1提问于2020-05-04得票数 0

回答已采纳

2回答

为什么同时使用验证集和测试集？

machine-learning、neural-network、cross-validation

考虑一个神经网络：对于给定的数据集，我们将其划分为训练、验证和测试集。假设我们按照经典的60:20:20的比例来做，然后通过在验证集上检查网络来防止过度拟合。测试集上的错误不是和验证集有点相同吗?对于网络来说，它是一个看不见的数据，就像验证集一样，它们的数量也是相同的吗？相反，我们不能通过将测试集合并到它来增加训练集，以便我们有更多的培训数据和网络更好的训练，然后使用验证集来防止过度拟合吗？我们为什么不这么做呢？

浏览 0提问于2017-04-13得票数 36

回答已采纳

1回答

时间序列数据的模型参数选择

machine-learning

对于模型参数的选择，我们总是进行网格搜索和交叉验证，以检验哪些参数优于其他参数。对于一般的培训数据，比如，这是正确的，但是如果数据之间有时间关系，比如多天卖出或多天卖出，那么直接进行交叉验证是错误的吗？由于交叉验证将在训练数据中使用随机分裂的kFold，这意味着时间序列数据，最近几天的信息将用于旧日的训练。我的问题是，如何对时间序列数据进行参数选择或交叉验证？

浏览 3提问于2016-10-19得票数 0

回答已采纳

1回答

在选择最佳超参数组合后，SparkML CrossValidator是否重新适合完整的训练数据集？

apache-spark、pyspark、cross-validation、apache-spark-mllib、apache-spark-ml

在训练数据集上交叉验证超参数网格后，SparkML的CrossValidator是否重新适合整个训练数据集？如果不是，它会从交叉验证的哪一部分中选择用于推断的bestModel？为此，CrossValidator是否使用最佳超参数在整个训练/交叉验证数据集上重新训练，并使用重新拟合的模型进行推理？或者，bestModel用于推断所有交叉验证</e

浏览 22提问于2021-03-23得票数 0

1回答

用sklearn进行拟合和预测的K-折叠

python、tensorflow、keras、scikit-learn

是否有可能将k-折叠应用于模型的拟合和以后的预测？通过这样做，我们有效地用已有的1年数据对模型进行了培训，并确保模型适合于进行适当的预测。这是否可能，也许是一个更好的问题，这是预测数据的正确方法吗？

浏览 8提问于2022-04-06得票数 -1

1回答

如何在R中正确使用plsr()？

r、cross-validation

2)不分割任何数据，只需将模型拟合成完整的数据。既然validation = "CV"已经包括在内，并且它会自动应用10倍的简历，为什么模型会被纳入培训数据，而不是完整的数据呢？在这种情况下，列车数据不是再次被分割成训练和测试数据，10倍交叉验证自动应用吗？

浏览 4提问于2017-07-19得票数 0

回答已采纳

1回答

与GridSearchCV的工作混淆

python、machine-learning、scikit-learn

GridSearchCV实现了一种适合的方法，它执行n次交叉验证来确定最佳参数.在此之后，我们可以直接将最佳估计器应用于测试数据，使用predict() -遵循以下链接：- 它在这里说“模型是关于整个开发集的训练然而，我们只在这里应用了n倍交叉验证。分类器是否也在对整个数据进行训练？还是在应用预测时，只选择具有最佳参数的最佳训练估计器？

浏览 1提问于2014-11-16得票数 3

回答已采纳

1回答

如何在这些模型之间进行选择？

scikit-learn、regression、beginner

我有一个回归问题，所以我尝试了一些回归模型来选择最好的模型(基于RMSLE)，以下是结果：下面是所有的模型= ('LR'，LinearRegression()，(‘LR’，PolynomialFeaturesRandomForestRegressor()，('GBM'，GradientBoostingRegressor())，('XGB'，XGBRegressor())，('LGBM'，LGBMRegressor()) 我的问题是如何<e

浏览 0提问于2023-03-23得票数 1

1回答

validation_frame在H2O AutoML中的应用

h2o、automl

我想对K-1年进行培训，调整模型，并根据剩余的K年明确选择最好的模型。如果我关闭交叉验证(使用nfolds=0)以避免将年份随机混合到N个折叠中，并将K年的数据定义为validation_frame，那么我就没有创建集成(按照文档的预期)，这实际上是我所需要的。如果我使用交叉验证(默认的nfolds)并定义一个验证框架作为K年数据的话。y, training_frame=k-1_years, validation_frame=k_year) 然后，根据

浏览 3提问于2020-10-01得票数 2

回答已采纳

1回答

使用训练/测试集进行交叉验证

machine-learning

是否可以使用交叉验证和使用训练/测试集进行评估？我理解交叉验证和持久化评估，但我对是否将它们结合在一起感到困惑。

浏览 0提问于2011-10-27得票数 2

1回答

卡雷特交叉验证后，逐步选择。机制问题

r、logistic-regression、cross-validation、r-caret

说我有维数：[1] 5000 25 trace = F,代码工作正常，它返回一个0.86 ROC的模型我不确定，对于每个k变量的模型，逐步选择的是偏差最小的模型<

浏览 7提问于2022-02-01得票数 0

2回答

CNN模型的交叉验证技术

python、deep-learning、cnn、cross-validation

我在研究CNN的模型。和往常一样，我用批次和时代一起训练我的模型。当它完成训练和验证时，最后我使用一个测试集来衡量模型的性能并生成混淆矩阵。现在我想用交叉验证来训练我的模型。我可以实现它，但我脑海中有一些问题：2-如果我使用交叉验证，如何生成混淆矩阵？我是否可以将数据集拆分为训练/测试，然后在列车/<e

浏览 0提问于2019-03-22得票数 10

回答已采纳

点击加载更多