偏差(Bias)与方差(Variance)

1. 问题背景

NFL(No Free Lunch Theorem)告诉我们选择算法应当与具体问题相匹配,通常我们看一个算法的好坏就是看其泛化性能,但是对于一个算法为什么好为什么坏,我们缺乏一些认识。“Bias-Variance Decomposition”就是从偏差和方差的角度来解释一个算法的泛化性能。

2. 一点点数学

为了让世界更加美好,我们在这里不考虑样本的噪声。

“The noise term is unaviodable no matter what we do, so the terms we are interested in are really the bias and variance”(from “Learning From Data” Page 64)

(噪声的存在是学习算法所无法解决的问题,数据的质量决定了学习的上限。而假设在数据已经给定的情况下,此时上限已定,我们要做的就是尽可能的接近这个上限)

3. 偏差与方差

由上面的公式可知,偏差描述的是算法的预测的平均值和真实值的关系(可以想象成算法的拟合能力如何),而方差描述的是同一个算法在不同数据集上的预测值和所有数据集上的平均预测值之间的关系(可以想象成算法的稳定性如何)。 (ps:个人认为可以把偏差认为是单个模型的学习能力,而方差则描述的是同一个学习算法在不同数据集的不稳定性) 偏差和方差的形象展示如下图所示(图片引自Understanding the Bias-Variance Tradeoff

图中的红色位置就是真实值所在位置,蓝色的点是算法每次预测的值。 可以看出,偏差越高则离红色部分越远,而方差越大则算法每次的预测之间的波动会比较大。

4. 偏差方差窘境

在下图中,给出了偏差方差和总体的泛化误差的示意图(图片引自Understanding the Bias-Variance Tradeoff ):

从图中我们可以看出,偏差和方差两者是有冲突的,称之为变差方差窘境(bias-variance dilemma)。 假如学习算法训练不足时,此时学习器的拟合能力不够强,此时数据的扰动不会对结果产生很大的影响(可以想象成由于训练的程度不够,此时学习器指学习到了一些所有的数据都有的一些特征),这个时候偏差主导了算法的泛化能力。随着训练的进行,学习器的拟合能力逐渐增强,变差逐渐减小,但此时不同通过数据学习得到的学习器就可能会有较大的偏差,即此时的方差会主导模型的泛化能力。若学习进一步进行,学习器就可能学到数据集所独有的特征,而这些特征对于其它的数据是不适用的,这个时候就是发生了过拟合的想象。

5. Bagging和Boosting

Bagging和Boosting是集成学习当中比较常用的两种方法,刚好分别对应了降低模型方差和偏差。 Bagging是通过重采样的方法来得到不同的模型,假设模型独立则有:

所以从这里我们可以看出Bagging主要可以降低的是方差。 而Boosting每一次都关注使得整理的loss减少,很显然可以降低bias。这里的模型之间并不独立,所以不能显著减少variance,而Bagging假设模型独立所以可以减少variance。 更多内容请参考问题:为什么说bagging是减少variance,而boosting是减少bias? 回答很精彩。

参考资料: 1. 周志华《机器学习》p44-p46 2. Hsuan-Tien Lin. “Learning From Data”. Chapter 2.3 3. Christopher M. Bishop. “Pattern Recognition and Machine Learning” Chapter 3.1

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

步长?填充?池化?教你从读懂词语开始了解计算机视觉识别最火模型 | CNN入门手册(中)

1394
来自专栏老秦求学

Deep Learning综述[上]

1547
来自专栏人工智能LeadAI

R-CNN 物体检测第一弹

今天,重读了 R-CNN 的 TPAMI 版本,感觉受益颇多。该版相比之前的会议版,在检测流程和实现细节上表述得更为清晰。此外,因为是改投 TPAMI 的关系,...

4126
来自专栏数据派THU

干货 | 只有100个标记数据,如何精确分类400万用户评论?

迁移学习模型的思路是这样的:既然中间层可以用来学习图像的一般知识,我们可以将其作为一个大的特征化工具使用。下载一个预先训练好的模型(模型已针对ImageNet任...

722
来自专栏机器之心

深度 | 思考VC维与PAC:如何理解深度神经网络中的泛化理论?

3304
来自专栏人工智能LeadAI

常用机器学习算法优缺点及其应用领域

决策树 ? 决策树优点 1、决策树易于理解和解释,可以可视化分析,容易提取出规则。 2、可以同时处理标称型和数值型数据。 3、测试数据集时,运行速度比较快。 ...

2866
来自专栏机器之心

学界 | 正在涌现的新型神经网络模型:优于生成对抗网络

选自Medium 作者:Alfredo Canziani等人 机器之心编译 参与:黄小天、吴攀 随着深度神经网络技术的发展,新型的网络架构也在不断涌现。普渡大学...

33110
来自专栏ATYUN订阅号

谷歌研究:通过自动增强来提高深度学习性能

计算机视觉深度学习的成功可部分归功于大量标记训练数据,随着质量提高,多样性和训练数据量,模型的性能通常会提高。但是,收集足够的高质量数据来训练模型以实现良好性能...

934
来自专栏机器之心

前沿 | DeepMind提出新型超参数最优化方法:性能超越手动调参和贝叶斯优化

3254
来自专栏机器之心

深度 | 变分自编码器VAE面临的挑战与发展方向

选自akosiorek 机器之心编译 参与:刘天赐、李泽南 变分自编码器(VAE)与生成对抗网络(GAN)一样,是无监督学习最具前景的方法之一。本文中,牛津大学...

3075

扫码关注云+社区