什么是过拟合?

各位小伙伴们大家好,很高兴能够和大家继续讨论机器学习方面的问题,今天想和大家讨论下关于机器学习中的监督学习中的过拟合的问题,以及解决过拟合的一些方法。

在正式进入正题前,我想用几个我们生活中常见的几个简单的例子来让大家更好地理解下过拟合的概念。其实简单的说,过拟合的现象其实就是机器学习过于自信已经到了自付的阶段了。至于什么是自负。我们大概都能想到在自己的小圈子里表现非凡,但是在现实这个大环境中屡屡遭受碰壁。因此我想把自负比作过拟合)(自负=过拟合)。

那么这个时候就可能产生疑问。那么机器学习过于自负是一种什么样的表现呢?

现在在下图有一张图,图上的红点可以看作为一堆数据,这个时候我们一定想到用一条线来把这些数据串起来,整合起来,所有人都希望数据可以分步在这条线周围,这个时候这条线和数据的总误差可能为10.但是这个时候,机器就跟我们的学生一样,总想考第一名,总想拿一百分,这个时候机器就希望获得尽可能少的误差,来完成对着一批数据的使命。但是机器这样想后却得到了图中的那根红线,弯弯曲曲,并且经过了所有的点,这样的误差就会尽可能的小。但是误差少真的会好么?

看起来我们的模型还是太天真了,就跟我们的家长们总以为只要孩子考试得到了满分这个孩子就一定会得到最好的结果。当这个孩子踏出社会后他的很多方面会共同决定他的发展。机器学习模型也类似。当我们把这个模型应用到具体的情况中的时候,他的自负就表现出来了。这个时候假设你的公司给了你一批新的数据,你对模型说,模型,你给我跑出来。这个时候原来的那根笔直的直线因为数据都分布在他的周围,误差很小。但是在之前误差一直很小的模型曲线反而这次获得了较大的误差,表现反而很糟糕。这个时候,曲线就再也骄傲不起来了,因为他并无法很好的符合除了测试数据之外的训练数据。这个现象就是我们所说的过拟合。

那么在分类问题中,过拟合的分割曲线可能会是下图这样,当我们在加上一些数据之后,我们可以很明显的发现有一些原本不属于这个分类的数据在这个分类,对于这个现象其实就是过拟合的现象在作怪了。那么既然过拟合的问题我们会时不时的遇到,那么我们应该怎么样去解决过拟合的问题呢?

方法1:增加数据量

大多数的过拟合的问题是因为他们的数据量太少了,如果我们有成千上万的数据量进行训练。我们那根弯弯曲曲的曲线也会被纠正的不是那么扭曲,会逐渐被拉直,这样模型误差就会进一步减少

方法2:运用正规化

正规化这个问题适用于大多数的机器学习以及大多数的神经网络,其实他们的方法都大同小异,我们现在进行简化正规化的公式为Y=WX(实际的公式比这个复杂得多)。W为机器学习所需要学习到的各种参数。在实际过程中因为训练数据的参差不齐,W的变化往往会非常大,为了避免这个现象,现在我们在计算误差值上进行一些手脚,对于误差我们是这样计算的cost=(wx-realy)2+abs(w)。预测值减去真实值的平方加上w的绝对值。既然W会越大,我们就用这个公式让cost也变得更大,这样让cost作为一个惩罚机制,在加上一个abs(w),这样的正规化就叫做L1正规化。Cost=(wx-realy)2+(w)2这样的现象就叫做L2正规化。其他的L系列的方法也都是类似的方法。通过这样的方法我们就可以使曲线没有那么的扭曲,变得更加的笔直,更加的符合真实的需求。

还有一种常用于神经网络的一种正规化方法:Dropout regularization。

在训练的时候,我们随机忽略掉一些神经元和神经连接,使得这个神经网络变得不完整。不完整的神经网络经过训练到达第二次后,这个时候我们再选择忽略掉一点。让其再变为又一个不完整的神经网络。注意每次忽略掉的前提数据必须是随机不完整。其实想想有了这样的随机忽略drop的方法,我们其实就可以猜测出每一次的训练都不会太过于依赖那些特定的神经元就跟L1,L2这样的正规化的方法一样,每一次的训练都过于依赖参数W。L1,L2会惩罚这些W,而drop的方法会随即丢失这些w.这个方法可以从根本上让神经网络无法过于依赖W。从而有效的缓解过拟合的问题。

好了,这个就是这篇文章所包含的什么是过拟合以及如何解决过拟合方法的一些问题。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏marsggbo

DeepLearning.ai学习笔记(三)结构化机器学习项目--week2机器学习策略(2)

一、进行误差分析 很多时候我们发现训练出来的模型有误差后,就会一股脑的想着法子去减少误差。想法固然好,但是有点headlong~ 这节视频中吴大大介绍了一个...

21360
来自专栏闪电gogogo的专栏

像素级压缩感知图像融合的论文

2012 基于压缩感知理论的图像融合方法 ? 不同的是在测量前先对稀疏矩阵进行融合,从仿真结果来看效果并不是很好,仅做介绍。 2012 一种基于小波稀疏基的压缩...

34070
来自专栏CDA数据分析师

【技术】SPSS因子分析

因子分析在各行各业的应用非常广泛,尤其是科研论文中因子分析更是频频出现。小兵也凑个热闹,参考《SPSS统计分析》书中的案例,运用SPSS进行因子分析,作为我博客...

32090
来自专栏量子位

亚马逊专家揭秘:如何建立自动检测乳腺癌的深度学习模型

安妮 编译自 Insight Data Science 量子位出品 | 公众号 QbitAI 本文作者Sheng Weng,现亚马逊Alexa项目组数据专家,莱...

36580
来自专栏人工智能LeadAI

机器学习实践中应避免的七种常见错误

摘要:在机器学习领域,每个给定的建模问题都存在几十种解法,本文作者认为,模型算法的假设并不一定适用于手头的数据;在追求模型最佳性能时,重要的是选择适合数据集(尤...

31750
来自专栏数据派THU

清华朱军团队包揽三项冠军 | NIPS 2017对抗样本攻防竞赛总结(附学习资料)

48950
来自专栏机器之心

专访 | 对抗样本攻防战,清华大学TSAIL团队再获CAAD攻防赛第一

同样在去年,该团队在 NIPS 2017 AI 对抗性攻防竞赛的三项比赛任务中(有/无特定目标攻击;攻击检测),全部获得冠军,战胜了包括斯坦福、约翰霍普金斯大学...

33410
来自专栏AI科技评论

干货 | 浙大博士生刘汉唐带你回顾图像分割的经典算法

AI科技评论按:图像语义分割是 AI 领域中一个重要的分支,是机器视觉技术中关于图像理解的重要一环。近年的自动驾驶技术中,也需要用到这种技术。车载摄像头探查到图...

40850
来自专栏AI科技评论

热议 | 恺明大神又发新作 Rethinking ImageNet Pre-training,读过论文的你怎么看?

社长为你推荐来自 AI 研习社问答社区的精华问答。如有你也有问题,欢迎进社区提问。

9530
来自专栏MyBlog

Procedural Noise Adversarial Examples for Black-Box Attacks on Deep Neural Networks 论文笔记(2)

该文章提出一种利用程序化噪声来生成对抗样本的方法, 所提出的方法和那些通过梯度不断修改以至于到达分类器的边界的方法不一样, 上述方法需要对目标的模型有一定的了解...

9410

扫码关注云+社区

领取腾讯云代金券