我希望以下摘录将提供一个洞察我的问题将是什么。这些是来自这里的。
然后,学习逐渐减缓。最后,在280年代前后,分类精度几乎停止了提高。后来的年代只是在280年代的精度值附近看到了小的随机波动。与之前的图表相比,与培训数据相关的成本继续平稳下降。如果我们只看这一成本,我们的模式似乎仍在“变得更好”。但测试精度的结果表明,改进是一种幻想。就像费米不喜欢的模型一样,我们的网络在800年后所学习的东西不再推广到测试数据中。所以这是没有用的学习。我们说网络是过度适应或过度训练超过时代280。
我们正在训练一个神经网络,训练数据的成本(训练数据)一直下降到400年代,但在280年代以后,分类精度变得静态(不存在一些随机波动),因此我们得出了训练数据后280的模型过度拟合的结论。
我们可以看到,测试数据的成本一直在提高,直到十五年左右,但在那之后,它实际上开始变得更糟,尽管培训数据的成本在继续改善。这是另一个迹象,表明我们的模型是过分合适的。然而,它带来了一个困惑,那就是我们应该把15时代还是280时代看作是过度适应开始主导学习的时刻?从实际的角度来看,我们真正关心的是提高测试数据的分类精度,而测试数据的成本只不过是分类精度的一个代名词。因此,在我们的神经网络中,把280年代看作是过度拟合的主导学习点是非常有意义的。
与以前的培训成本相比,我们现在将测试数据的成本与培训成本进行对比,而不是对测试数据进行分类。
然后,这本书继续解释为什么280是正确的时代,在过度装修已经开始。这就是我有问题的地方。我不能把我的头绕在这上面。
我们要求模型将成本降到最低,因此成本是它作为自己力量的度量来正确分类的度量。如果我们认为280是开始过度拟合的正确时期,我们是否在某种程度上创造了一个有偏见的模型,它虽然是对特定测试数据的更好的分类器,但却是低可信度的决策,因此更容易偏离测试数据上的结果?
发布于 2017-09-29 10:26:24
比方说,我们想根据学生的简历来预测她是否会获得面试机会。
现在,假设我们从10,000份简历及其结果的数据集中训练一个模型。
接下来,我们在原始数据集上尝试该模型,并对结果进行99%的精度…预测。哇!
但现在出现了坏消息。
当我们在一个新的(“看不见”的)简历数据集上运行模型时,我们只能得到50%的精度…。呃-哦!
我们的模型不能很好地从训练数据推广到看不见的数据。
这就是所谓的过度拟合,这是机器学习和数据科学中的一个常见问题。
我们可以通过观察相反的问题,即不合适,来更好地理解过度拟合。
当一个模型太简单时--由于功能太少或者正则化太多--就会发生欠拟合,这使得它在从数据集中学习时变得不灵活。
简单的学习者往往在他们的预测中有较小的差异,但对错误的结果有更多的偏见(参见:偏差-方差权衡)。
另一方面,复杂的学习者往往在预测上有更大的差异。
偏差和方差都是机器学习中预测误差的形式。
通常,我们可以减少偏差造成的误差,但结果可能会增加方差带来的误差,反之亦然。
这种太简单(高偏差)和太复杂(高方差)之间的权衡是统计和机器学习中的一个关键概念,它影响到所有有监督的学习算法。
发布于 2017-08-27 07:06:36
我学到的一些困难的方法是绘制学习曲线,我知道,这并不像编写机器学习代码本身那么有趣,但是视觉上理解正在发生的事情是非常重要的。
经验法则的定义是,当您的列车精度不断提高时,当您的验证精度停止提高(甚至开始变得更糟)时,就会发生过度拟合。
避免过度适应的最简单的方法是尽早停止训练(一旦事情看起来不好就停止训练),当然,作为最简单的解决方案是要付出代价的:这不是最好的解决方案。正规化和辍学是为适应而斗争的好工具,但这是另一回事:)
希望它能帮上忙
发布于 2017-09-28 20:37:05
正如您引用的消息来源所述,“测试数据的成本不过是分类准确性的一个代理。”你可能会问,为什么我们要使用代理,为什么不直接使用准确性呢?答案是,对于权重和偏差,您需要最小化成本函数。因此,它必须是权值和偏差的一个可微函数。精度不是一个可微函数,因此不能直接使用。但是,由于您最终关心的是准确性,正如您自己在上面所说明的(...please注意到,首先分类的准确率是100%,但是成本更高……),您根据测试集的准确性确定过拟合。
https://datascience.stackexchange.com/questions/19124
复制相似问题