假设我们已经训练了一个模型(由它的超参数定义),并使用某种性能度量(比如R^2)在测试集上对它进行了评估。如果我们现在在不同的训练数据上训练相同的模型(由它的超参数定义),我们将得到(可能) R^2的不同值。
如果R^2依赖于训练集,那么我们将获得R^2平均值附近的正态分布。因此,为了更好地了解模型的性能,不应该将各种评估中的R^2平均化吗?另外,为什么在报告模型差异的性能时不包括?这不也是评估模型性能的一个重要因素吗?
我说的不是超参数调优。我假设我们知道超参数的最佳值,我们需要估计泛化误差。我的问题是,我们只是在测试集上评估一次。
发布于 2022-04-14 20:44:01
估计泛化误差的方差是有用的,最好是通过交叉验证 (而不是火车/测试拆分)来评估。数据应该被分割成褶皱,每个褶皱都应该使用相同的算法和超参数进行训练。然后,每个训练部分应该对其各自的验证部分进行评估。由于重复性质,可以估计泛化误差的“扩展”。
此外,R^2通常被认为不是评估泛化误差的适当度量,因为R^2依赖于训练数据的平均值。
https://datascience.stackexchange.com/questions/110026
复制相似问题