学界 | 大白话解释模型产生过拟合的原因

AI科技评论按:本文原作者忆臻,原载于作者的知乎专栏。

今天郭江师兄在实验室讲解了全体机器学习会第一章的知识,大家讨论了一下过拟合的知识,这里我根据自己的理解,整理了一下原因,力求同最通俗的语言来描述,可能不是太严谨,但是总体思想能保证正确!

一、过拟合的概念?

首先我们来解释一下过拟合的概念?

过拟合就是训练出来的模型在训练集上表现很好,但是在测试集上表现较差的一种现象!下图给出例子:

我们将上图第三个模型解释为出现了过拟合现象,过度的拟合了训练数据,而没有考虑到泛化能力。在训练集上的准确率和在开发集上的准确率画在一个图上如下

从图中我们能够看出,模型在训练集上表现很好,但是在交叉验证集上表现先好后差。这也正是过拟合的特征!

二、模型出现过拟合现象的原因

发生过拟合的主要原因可以有以下三点:

(1)数据有噪声

(2)训练数据不足,有限的训练数据

(3)训练模型过度导致模型非常复杂

下面我将分别解释这三种情况(这里按自己的理解解释,欢迎大家交流):

(1)数据有噪声

为什么数据有噪声,就可能导致模型出现过拟合现象呢?

所有的机器学习过程都是一个 search 假设空间的过程!我们是在模型参数空间搜索一组参数,使得我们的损失函数最小,也就是不断的接近我们的真实假设模型,而真实模型只有知道了所有的数据分布,才能得到。

往往我们的模型是在训练数据有限的情况下,找出使损失函数最小的最优模型,然后将该模型泛化于所有数据的其它部分。这是机器学习的本质!

那好,假设我们的总体数据如下图所示:

(我这里就假设总体数据分布满足一个线性模型 y = kx+b, 现实中肯定不会这么简单,数据量也不会这么少,至少也是多少亿级别,但是不影响解释。反正总体数据满足模型 y)

此时我们得到的部分数据,还有噪声的话,如图所示:

(红色数据点为噪声)

那么由上面训练数据点训练出来的模型肯定不是线性模型(总体数据分布下满足的标准模型),比如训练出来的模型如下:

那么我拿着这个有噪声训练的模型,在训练集合上通过不断训练,可以做到损失函数值为 0,但是拿着这个模型,到真实总体数据分布中(满足线性模型)去泛化,效果会非常差,因为你拿着一个非线性模型去预测线性模型的真实分布,显而易得效果是非常差的,也就产生了过拟合现象!

(2)训练数据不足,有限的训练数据

当我们训练数据不足的时候,即使得到的训练数据没有噪声,训练出来的模型也可能产生过拟合现象,解释如下:

假设我们的总体数据分布如下:

(为了容易理解,假设我们的总体数据分布满足的模型是一个二次函数模型)

我们得到的训练数据由于是有限的,比如是下面这个:

(我只得到了 A,B 两个训练数据)

那么由这个训练数据,我得到的模型是一个线性模型,通过训练较多的次数,我可以得到在训练数据使得损失函数为 0 的线性模型,拿这个模型我去泛化真实的总体分布数据(实际上是满足二次函数模型),很显然,泛化能力是非常差的,也就出现了过拟合现象!

(3)训练模型过度导致模型非常复杂

训练模型过度导致模型非常复杂,也会导致过拟合现象!这点和第一点俩点原因结合起来其实非常好理解,当我们在训练数据训练的时候,如果训练过度,导致完全拟合了训练数据的话,得到的模型不一定是可靠的。

比如说,在有噪声的训练数据中,我们要是训练过度,会让模型学习到噪声的特征,无疑是会造成在没有噪声的真实测试集上准确率下降!

好了,到这里本文要讲的内容已经讲完了,我根据自己的理解,试图通俗的讲解产生过拟合的原因,希望能够让更多的人有一个直观的理解~ 真心希望对大家有帮助,欢迎大家指错交流~

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-05-22

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏计算机视觉

卷积神经网络的小基础知识

一张图就够了 batchsize:批大小。在深度学习中,一般采用SGD训练,即每次训练在训练集中取batchsize个样本训练; iteration:1个ite...

2514
来自专栏AI科技评论

学界 | OpenAI 发布稀疏计算内核,更宽更深的网络,一样的计算开销

AI 科技评论按:OpenAI 的研究人员们近日发布了一个高度优化的 GPU 计算内核,它可以支持一种几乎没被人们探索过的神经网络架构:带有稀疏块权重的网络。取...

3396
来自专栏JasonhavenDai

统计学习方法之概论1.基础概念2.统计学习三要素3.模型评估与模型选择、正则化和交叉验证4.分类问题、标注问题、回归问题5.学习小结

1.基础概念 统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科,也称统计机器学习。统计学习是数据驱动的学科,是一门概率论、统...

2903
来自专栏企鹅号快讯

OpenAI 发布稀疏计算内核,更宽更深的网络,一样的计算开销

原标题:OpenAI 发布稀疏计算内核,更宽更深的网络,一样的计算开销 ? 雷锋网 AI 科技评论按:OpenAI 的研究人员们近日发布了一个高度优化的 GPU...

1958
来自专栏算法channel

BAR面试题6:LR和SVM的联系与区别

接下来,每天一道BAT面试题陪伴你,日积月累,相信大家会从中学到一些东西。最后希望你们顺利拿到理想的OFFER.

1432
来自专栏林欣哲

科个普啦—机器学习(下)

在机器学习(上)里谈到了机器是如何学习的,当前主流的学习方法是监督式学习,即用大量带标签的数据训练机器使得机器知道如何解决问题。 那么训练就得有效果,指导机器往...

3436
来自专栏小鹏的专栏

反向传播与它的直观理解

为了感谢大神,我是跪在电脑前fork的。 问题描述与动机: 大家都知道的,其实我们就是在给定的图像像素向量x和对应的函数f(x),然后我们希望能够计算f在...

1869
来自专栏人工智能

Effective Deep Memory Networks for Relation Extraction

Citation:Zeng, D., Liu, K., Chen, Y., & Zhao, J. (2015). Distant Supervision for...

2085
来自专栏人工智能

机器学习新手必看10大算法

选自TowardsDataScience 作者:James Le 机器之心编译 参与:程耀彤、路雪 本文介绍了机器学习新手需要了解的 10 大算法,包括线性回归...

1899
来自专栏AI研习社

大白话解释模型产生过拟合的原因!

今天郭江师兄在实验室讲解了全体机器学习会第一章的知识,大家讨论了一下过拟合的知识,这里我根据自己的理解,整理了一下原因,力求同最通俗的语言来描述,可能不是太严谨...

3325

扫码关注云+社区