问偏差-方差权衡与模型评估
EN

Data Science用户

提问于 2022-04-14 19:26:49

回答 1查看 38关注 0票数 1

假设我们已经训练了一个模型(由它的超参数定义)，并使用某种性能度量(比如R^2)在测试集上对它进行了评估。如果我们现在在不同的训练数据上训练相同的模型(由它的超参数定义)，我们将得到(可能) R^2的不同值。

如果R^2依赖于训练集，那么我们将获得R^2平均值附近的正态分布。因此，为了更好地了解模型的性能，不应该将各种评估中的R^2平均化吗？另外，为什么在报告模型差异的性能时不包括？这不也是评估模型性能的一个重要因素吗？

我说的不是超参数调优。我假设我们知道超参数的最佳值，我们需要估计泛化误差。我的问题是，我们只是在测试集上评估一次。

发布于 2022-04-14 20:44:01

估计泛化误差的方差是有用的，最好是通过交叉验证 (而不是火车/测试拆分)来评估。数据应该被分割成褶皱，每个褶皱都应该使用相同的算法和超参数进行训练。然后，每个训练部分应该对其各自的验证部分进行评估。由于重复性质，可以估计泛化误差的“扩展”。

此外，R^2通常被认为不是评估泛化误差的适当度量，因为R^2依赖于训练数据的平均值。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/110026

复制

相似问题

问偏差-方差权衡与模型评估EN