文章/答案/技术大牛

发布

社区首页 >问答首页 >如何知道模型已经开始过火了？

问如何知道模型已经开始过火了？
EN

Data Science用户

提问于 2017-05-22 21:00:19

回答 4查看 11.6K关注 0票数 12

我希望以下摘录将提供一个洞察我的问题将是什么。这些是来自这里的。

然后，学习逐渐减缓。最后，在280年代前后，分类精度几乎停止了提高。后来的年代只是在280年代的精度值附近看到了小的随机波动。与之前的图表相比，与培训数据相关的成本继续平稳下降。如果我们只看这一成本，我们的模式似乎仍在“变得更好”。但测试精度的结果表明，改进是一种幻想。就像费米不喜欢的模型一样，我们的网络在800年后所学习的东西不再推广到测试数据中。所以这是没有用的学习。我们说网络是过度适应或过度训练超过时代280。

我们正在训练一个神经网络，训练数据的成本(训练数据)一直下降到400年代，但在280年代以后，分类精度变得静态(不存在一些随机波动)，因此我们得出了训练数据后280的模型过度拟合的结论。

我们可以看到，测试数据的成本一直在提高，直到十五年左右，但在那之后，它实际上开始变得更糟，尽管培训数据的成本在继续改善。这是另一个迹象，表明我们的模型是过分合适的。然而，它带来了一个困惑，那就是我们应该把15时代还是280时代看作是过度适应开始主导学习的时刻？从实际的角度来看，我们真正关心的是提高测试数据的分类精度，而测试数据的成本只不过是分类精度的一个代名词。因此，在我们的神经网络中，把280年代看作是过度拟合的主导学习点是非常有意义的。

与以前的培训成本相比，我们现在将测试数据的成本与培训成本进行对比，而不是对测试数据进行分类。

然后，这本书继续解释为什么280是正确的时代，在过度装修已经开始。这就是我有问题的地方。我不能把我的头绕在这上面。

我们要求模型将成本降到最低，因此成本是它作为自己力量的度量来正确分类的度量。如果我们认为280是开始过度拟合的正确时期，我们是否在某种程度上创造了一个有偏见的模型，它虽然是对特定测试数据的更好的分类器，但却是低可信度的决策，因此更容易偏离测试数据上的结果？

overfitting

neural-network

回答 4

Data Science用户

发布于 2017-09-29 10:26:24

比方说，我们想根据学生的简历来预测她是否会获得面试机会。

现在，假设我们从10,000份简历及其结果的数据集中训练一个模型。

接下来，我们在原始数据集上尝试该模型，并对结果进行99%的精度…预测。哇!

但现在出现了坏消息。

当我们在一个新的(“看不见”的)简历数据集上运行模型时，我们只能得到50%的精度…。呃-哦！

我们的模型不能很好地从训练数据推广到看不见的数据。

这就是所谓的过度拟合，这是机器学习和数据科学中的一个常见问题。

超拟合V/s欠拟合

我们可以通过观察相反的问题，即不合适，来更好地理解过度拟合。

当一个模型太简单时--由于功能太少或者正则化太多--就会发生欠拟合，这使得它在从数据集中学习时变得不灵活。

简单的学习者往往在他们的预测中有较小的差异，但对错误的结果有更多的偏见(参见:偏差-方差权衡)。

另一方面，复杂的学习者往往在预测上有更大的差异。

偏差和方差都是机器学习中预测误差的形式。

通常，我们可以减少偏差造成的误差，但结果可能会增加方差带来的误差，反之亦然。

这种太简单(高偏差)和太复杂(高方差)之间的权衡是统计和机器学习中的一个关键概念，它影响到所有有监督的学习算法。

票数 8

Data Science用户

发布于 2017-08-27 07:06:36

我学到的一些困难的方法是绘制学习曲线，我知道，这并不像编写机器学习代码本身那么有趣，但是视觉上理解正在发生的事情是非常重要的。

经验法则的定义是，当您的列车精度不断提高时，当您的验证精度停止提高(甚至开始变得更糟)时，就会发生过度拟合。

避免过度适应的最简单的方法是尽早停止训练(一旦事情看起来不好就停止训练)，当然，作为最简单的解决方案是要付出代价的:这不是最好的解决方案。正规化和辍学是为适应而斗争的好工具，但这是另一回事:)

希望它能帮上忙

票数 4

Data Science用户

发布于 2017-09-28 20:37:05

正如您引用的消息来源所述，“测试数据的成本不过是分类准确性的一个代理。”你可能会问，为什么我们要使用代理，为什么不直接使用准确性呢？答案是，对于权重和偏差，您需要最小化成本函数。因此，它必须是权值和偏差的一个可微函数。精度不是一个可微函数，因此不能直接使用。但是，由于您最终关心的是准确性，正如您自己在上面所说明的(...please注意到，首先分类的准确率是100%，但是成本更高……)，您根据测试集的准确性确定过拟合。

票数 2

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/19124

复制

相似问题

问如何知道模型已经开始过火了？
EN

回答 4

Data Science用户

超拟合V/s欠拟合

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何知道模型已经开始过火了？EN

回答 4

Data Science用户

超拟合V/s欠拟合

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何知道模型已经开始过火了？
EN