我做过logistic回归。用我目前的模型,我的准确率是77%。我把我的训练集分为交叉验证集和训练集。绘制了一条学习曲线(训练实例图与训练集成本函数、交叉验证集成本函数)。我的学习曲线如下所示-
这说明了什么?由于这两条曲线的差别都很小--一个是(0.51 ),另一个是0.52),我的模型是有偏的,还是正确的?
发布于 2021-05-30 07:47:32
一般来说,学习曲线的“正常”形状(定义为“误差图与训练集的大小称为学习曲线”(1))是观察一个最初非常低的训练误差,表明模型几乎能够很好地学习少量的训练数据,而测试误差会很大。随着训练数据量的增加,训练误差也会增加,因为模型更难学习越来越复杂的数据。在某些时候,训练错误通常停止增加,因为数据复杂性,即数据中不同模式的数目,并没有进一步增加--即使添加了更多的数据。
相反,预期测试错误在开始时会很高,当训练数据和测试数据变得更相似时,测试错误就会减少(因为您添加了更多的培训数据)。也就是说,在开始时,模型覆盖(这是一个好消息,因为它意味着它能够学习数据)和后来的训练和测试错误理想地收敛。当训练和测试变得更加相似时,就会发生这种情况。
这可能与此类似(黑色水平线是Bayes错误) (1):
或者更复杂的模型(1)是这样的:
。
相反,当训练数据量较低时,即使不能捕捉到简单的模式,模型也可能产生这样的学习曲线(1):
第三个场景是一个非常复杂的模型,它显示了如下(1)这样的学习曲线:
与第一幅图相比,训练误差没有增加得那么快,因为更复杂的模型即使在数据复杂度增加的情况下也能对数据进行过拟合。但是,它也显示出一个很高的测试误差在开始和较大的数据之间的差距更大的火车和测试误差。
这个答案对您来说可能也很有趣。
参考资料:(1) 概率机器学习:游戏介绍第109-110页
https://datascience.stackexchange.com/questions/95029
复制相似问题