前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【重温经典】吴恩达机器学习课程学习笔记九:过拟合

【重温经典】吴恩达机器学习课程学习笔记九:过拟合

作者头像
WZEARW
发布2018-06-05 16:15:20
7020
发布2018-06-05 16:15:20
举报
文章被收录于专栏:专知

【导读】前一段时间,专知内容组推出了春节充电系列:李宏毅2017机器学习课程学习笔记,反响热烈,由此可见,大家对人工智能、机器学习的系列课程非常感兴趣,近期,专知内容组推出吴恩达老师的机器学习课程笔记系列,重温机器学习经典课程,希望大家会喜欢。

【重温经典】吴恩达机器学习课程学习笔记一:监督学习

【重温经典】吴恩达机器学习课程学习笔记二:无监督学习(unsupervised learning)

【重温经典】吴恩达机器学习课程学习笔记三:监督学习模型以及代价函数的介绍

【重温经典】吴恩达机器学习课程学习笔记四:梯度下降

【重温经典】吴恩达机器学习课程学习笔记五:多元梯度下降

【重温经典】吴恩达机器学习课程学习笔记六:特征处理与多项式拟合

【重温经典】吴恩达机器学习课程学习笔记七:Logistic回归

吴恩达机器学习课程系列视频链接

http://study.163.com/course/courseMain.htm?courseId=1004570029

春节充电系列:李宏毅2017机器学习课程学习全部笔记

吴恩达课程学习笔记九:过拟合

1、过拟合的概念(overfitting)



之前总结的线性回归或者逻辑回归等问题,有时用在某特定场合时可能会出现过拟合的现象。什么是过拟合(overfitting)?

我们依然考虑的是房子size与price之间的关系,如上左图,我们用直线去拟合price与size之间的关系,但是从图中可以看出,随着size的增长,price变得平缓,所以用直线拟合并不是很好的选择,这里我们称其为underfitting(欠拟合),对于中间的图加上二次项进行拟合,直观上效果不错,而对于最右边的图,我们用四次项式去拟合,图中一共五个数据,这样得到的图是上下波动的,虽然它充分利用了给定的数据,但是很明显上下波动并不是很好的一个预测函数。

右图的拟合方式就出现了过拟合现象,或者说是高方差(high variance)(也就是拟合的函数太过庞大,变量太多,我们没有足够的数据约束这些变量,以得到一个很好的预测函数)。恰当的拟合我们称之为just right,如上中间的二次拟合。

当拟合函数变量过多时,拟合函数很好的拟合了训练数据,以至于使得代价函数几乎为0,由于函数太过于在意对训练数据的拟合,从而对新的数据没有很好的预测能力。(generalize指的就是模型应用到新样本上的能力,而新样本指的是没有在训练集中出现的房子)。

上面的例子说的是线性拟合时过拟合的情况,对于逻辑回归也存在过拟合:

如上图所示:g代表logistic function,对于左图,g函数的对象是一次函数,这样去拟合的结果将是欠拟合的,用中间的图进行拟合,即加上了几个二次项,这样的拟合效果可能是最好的。而对于右边的图,我们加了很多次项式去拟合,又图中可以看出拟合曲线即近扭曲从而拟合上训练集上的所有数据。当然这样也就出现了过拟合的现象,过拟合后的模型没法 对新样本进行准确的预测。

后面的笔记中会介绍如何用特定的工具去判断一个模型是否发生了过拟合或者欠拟合。那么发生过拟合需要怎么做呢?

对于前面举例的简单一维或者两维的情况(即特征种类很少)下,我们可以在图上绘制过拟合的曲线从而决定如何设置拟合函数的次项。但是实际问题中,决定label种类的特征会有很多,并不能很方便得到数据集的可视化表示。如果有较多的特征但只有少量的数据,那么就可能会发生过拟合的情况。

解决过拟合的方法有如下:

1、 减少特征种类的数量,但是较少了特征种类,也就丢失了一些关于label的信息,不利于拟合。

2、 正则化,可能每个特征对label都会有影响。但是对最终label结果的影响不同,所以我们可以较少特征量级或者θ的大小。

关于正则化的知识在后面的总结中会给出。

参考链接:

http://study.163.com/course/courseMain.htm?courseId=1004570029

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-04-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 专知 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档