前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >机器学习系列15:学习曲线

机器学习系列15:学习曲线

作者头像
SuperFeng
发布2019-09-26 16:13:08
8080
发布2019-09-26 16:13:08
举报
文章被收录于专栏:SuperFengSuperFeng

我们在调试一个学习算法时,通常会用学习曲线(Learning Curves)观察机器学习算法是否为欠拟合过拟合

随着样本数的不断增大,我们发现在高偏差(欠拟合)时交叉验证集代价函数 J_cv(θ)测试集代价函数 J_test (θ) 的图像如下,这个图像也叫做学习曲线(Learning Curves):

在高偏差时,随着样本数目的增加,测试集的偏差与交叉验证集的偏差几乎相等,测试集的偏差在上升到一定程度后就不会继续上升;根据交叉验证集来看,多项式的泛化程度随着数据集的增加减小到一定程度后就不再减小。这代表着,在高偏差(欠拟合)的情况下,增大数据集并不会优化你的算法。所以,在高偏差的情况下,你不需要把时间浪费在收集大量数据上。

再来看,在高方差的情况:

在高方差下,随着样本数目的增加,交叉验证集的偏差一直与测试集的偏差有很大的差距,测试集的偏差在不断地上升;根据交叉验证集来看,多项式的泛化程度随着数据集的增加而不断地减小。这代表着,在高方差(过拟合)的情况下,增大数据集在一定程度上会优化你的算法。

因此,你了解当前算法处于高偏差或高方差对于你决定是否把大量的时间花费在寻找数据集很有必要,这会为你节省大量的时间,把时间用在刀刃上吧!

回到一开始的问题,在机器学习中,我们训练了一个模型,可能会发现这个模型得到的数据与实际数据偏差太大,也就是这个模型表现的不好。这时,我们需要想一些方法来优化我们的算法。

下面这些方法,就是在遇到高方差或高偏差时,我们所需要做的事情。

  • 得到更多的训练集:适用于高方差
  • 减小特征的数目:适用于高方差
  • 尝试去增加特征:适用于高偏差
  • 增加多项式:适用于高偏差
  • 增大 λ:适用于高方差
  • 减小 λ:适用于高偏差
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-03-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 SuperFeng 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档