李宏毅机器学习笔记(五)错误来源分析

在李宏毅机器学习笔记(三)回归:案例研究一文中我们分别用到了一次、二次、三次、四次、五次的模型,它们在Testing Data上的表现如下:

了解error的来源其实是重要的,因为我们会常常做一下machine learning,做完就我们就可以知道其error,接下来要怎么优化你的Model呢?如果毫无头绪的话,那就没有效率。如果现在可以判断error的来源,你就可以挑选适当的方法以优化你的Model。

图中, 与 之间的距离就是误差,过程有点像打靶。

图中蓝圈相当于 的期望,靶心就是 。Bias表示枪瞄得准不准,最后的期望是否落在目标上。Variance表示打的散不散。

按照李宏毅机器学习笔记(三)回归:案例研究提到的,我们只有10个数据,怎么能弄出那么多个 呢?

假设有100个Universes,将由每个Universe得到的函数绘制成图,

简单的Model受训练数据影响较小,复杂的Model则反之。

简单的Model有比较大的Bias,复杂的Model有比较小的Bias。

What to do with large bias?

What to do with large variance?

在选择模型的时候我们总是追求bias和variance的平衡,还有就是不能按照testing set的error来选择model,因为此testing set可能不具有代表性。

那么,该怎么做呢?

或者

以上。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180421G04MFM00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码关注腾讯云开发者

领取腾讯云代金券