机器学习基本概念-2

Capacity

上篇博客说过,ML的central challenge就是model的泛化能力,也就是generalization.

The ability to perform well on previously unobserved inputs is called generalization.

那什么是Capacity呢?通俗的说就是你的model能够很好地表达examples的数量.

The ability of the learner (or called model) to discover a function taken from a family of functions.

比如说,下面的几个predictor:

  1. Linear predictor y = wx + b
  2. Quadratic predictor y = W2X^2 + W1X + b
  3. Degree-4 polynomial predictor y = b+W1x+W2X^2+W3X^3+W4X^4

明显对于4次多项式函数,其能够capture更复杂的functions.

对于线性的predictor,其能够很好地的代表线性数据,假设此时能够代表的examples的数量是n1,对于二次函数很明显其能够拟合线性的(W2=0)也能够拟合二次的(W2!=0),假设此时能够代表的examples的数量是n2: 明显的, n2 > n1,quadratic predictor family更加丰富(richer).

Capacity can be measured by the number of training examples {Xi , Yi} that the learner could always fit, no matter how to change the values of Xi and Yi.

Underfitting && Overfitting

说这个的话,还是先从训练(Training)开始说起,大家可能经常说训练,但是什么是Training呢?

Training: estimate the parameters of f from training examples {Xi , Yi)}.

Training中,我们会定义一个cost function或者叫objective function,训练中我们需要做的就是最优化次此函数,此时会产生training error. 衡量model的generalization,我们会让model作用在一个单独的set上,叫做test set,同样的也会产生generalization error或者叫test error.

决定算法的优秀程度的因素(factor)就是:

  1. Make the training error small.
  2. Make the gap between training and test error small.

这两个factor实际对应的就是UnderfittingOverfitting.

从学习feature的能力方面描述就是:

Underfitting就是learner不能有效的学习到training examples的特征. Overfitting就是learning对于training examples fits well,但是泛化能力很弱.

从training error和test error方面,大牛Bengio是这样描述的:

Underfitting occurs when the model is not able to obtain a sufficiently low error value on the training set. Overfitting occurs when the gap between the training error and test error is too large.

下面的图直观的表示了Underfitting和Overfitting:

我们通过控制model的capacity,可以看出其更加倾向于Underfitting或者是Overfitting.

model的capacity小的话,可能会出现Underfitting的状况; model的capacity太大的话,可能会出现Overfitting的状况.

Models with low capacity may struggle to fit the training set. Models with high capacity can overfit by memorizing properties of the training set that do not serve them well on the test set.

比如说,对于二次函数可以很好表达的examples,你使用线性去拟合,此时就会出现Underfitting,表现就是training error和test error都很大,同时两者之间的gap很小.

Overfitting的话,其典型表现如下:

很明显,对于上面的图,其发生了Overfitting,下面的图才是此数据点应该有的decision boundary.

常见的发生Underfitting的原因是:

  • Model is not rich enough.
  • Difficult to find the global optimum of the objective function on the training set or easy to get stuck at local minimum.
  • Limitation on the computation resources (not enough training iterations of an iterative optimization procedure).

常见的发生Overfitting的原因是:

  • The family of functions is too large (compared with the size of the training data) and it contains many functions which all fit the training data well.
  • Without sufficient data, the learner cannot distinguish which one is most appropriate and would make an arbitrary choice among these apparently good solutions.
  • In most cases, data is contaminated by noise. The learner with large capacity tends to describe random errors or noise instead of the underlying models of data (classes).

所以谨慎的决定你的model的capacity,我们需要找到Underfitting和Overfitting的过渡点,即找到optimal capacity.

optimal capacity 此时test error和training error的gap最小.

同样的随着training examples的增加,optimal capacity也在变化,如下图:

如果capacity过大,如何减小呢?常用的有如下几种方式:

  • Reduce the number of features.
  • Reduce the number of independent parameters.
  • Add regularization to the learner.
  • Reduce the network size of deep models.
  • Reduce the number of training iterations.

这篇就说到这,下篇继续

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

学界 | 神奇!只有遗忘门的LSTM性能优于标准LSTM

选自arXiv 作者:Jos van der Westhuizen、Joan Lasenby 机器之心编译 参与:Pedro、路 本论文研究 LSTM 只有遗忘...

2966
来自专栏有趣的Python

2-机器学习启蒙- 回归模型预测房价

2- 回归模型预测房价 房子特征: 房子多大,有几个房间 房子观测量:房价 运用回归进行分类。邮件特征判断是否是垃圾邮件。 预测房价对于中国很适合。不知道房...

3379
来自专栏SIGAI学习与实践平台

生成式对抗网络模型综述

原创声明:本文为 SIGAI 原创文章,仅供个人学习使用,未经允许,不得转载,不能用于商业目的。

1724
来自专栏CSDN技术头条

理解长短期记忆网络(LSTM NetWorks)

递归神经网络 人类并不是每时每刻都从头开始思考。正如你阅读这篇文章的时候,你是在理解前面词语的基础上来理解每个词。你不会丢弃所有已知的信息而从头开始思考。你的思...

2126
来自专栏SIGAI学习与实践平台

生成式对抗网络模型综述

原创声明:本文为 SIGAI 原创文章,仅供个人学习使用,未经允许,不得转载,不能用于商业目的。

1605
来自专栏企鹅号快讯

《教育统计与SPSS应用》学习笔记(8)

第8讲 回归分析 主要内容 回归分析简介 一元线性回归分析 多元线性回归分析 第一部分 回归分析简介 一、回归分析的意义 表示变量之间的不确定性关系以...

2248
来自专栏机器学习从入门到成神

机器学习之Logistic回归(逻辑蒂斯回归)

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/sinat_35512245/articl...

761
来自专栏云飞学编程

想知道怎么学人工智能嘛?都在这里!

1、声学模型 2、Deep Neural Networks 3、Hidden Markov Model等

744
来自专栏用户2442861的专栏

理解长短期记忆网络(LSTM NetWorks)

人类并不是每时每刻都从头开始思考。正如你阅读这篇文章的时候,你是在理解前面词语的基础上来理解每个词。你不会丢弃所有已知的信息而从头开始思考。你的思想具有持续性...

831
来自专栏深度学习自然语言处理

【干货】GRU神经网络

前用的最多的三种神经网络是CNN,LSTM,GRU。其中,后两者都是RNN的变种,去年又给RNN发明了个SRU(优点是train RNN as fast as ...

40711

扫码关注云+社区