偏差(Bias)与方差(Variance)

1. 问题背景

NFL(No Free Lunch Theorem)告诉我们选择算法应当与具体问题相匹配,通常我们看一个算法的好坏就是看其泛化性能,但是对于一个算法为什么好为什么坏,我们缺乏一些认识。“Bias-Variance Decomposition”就是从偏差和方差的角度来解释一个算法的泛化性能。

2. 一点点数学

为了让世界更加美好,我们在这里不考虑样本的噪声。

“The noise term is unaviodable no matter what we do, so the terms we are interested in are really the bias and variance”(from “Learning From Data” Page 64)

(噪声的存在是学习算法所无法解决的问题,数据的质量决定了学习的上限。而假设在数据已经给定的情况下,此时上限已定,我们要做的就是尽可能的接近这个上限)

3. 偏差与方差

由上面的公式可知,偏差描述的是算法的预测的平均值和真实值的关系(可以想象成算法的拟合能力如何),而方差描述的是同一个算法在不同数据集上的预测值和所有数据集上的平均预测值之间的关系(可以想象成算法的稳定性如何)。 (ps:个人认为可以把偏差认为是单个模型的学习能力,而方差则描述的是同一个学习算法在不同数据集的不稳定性) 偏差和方差的形象展示如下图所示(图片引自Understanding the Bias-Variance Tradeoff

图中的红色位置就是真实值所在位置,蓝色的点是算法每次预测的值。 可以看出,偏差越高则离红色部分越远,而方差越大则算法每次的预测之间的波动会比较大。

4. 偏差方差窘境

在下图中,给出了偏差方差和总体的泛化误差的示意图(图片引自Understanding the Bias-Variance Tradeoff ):

从图中我们可以看出,偏差和方差两者是有冲突的,称之为变差方差窘境(bias-variance dilemma)。 假如学习算法训练不足时,此时学习器的拟合能力不够强,此时数据的扰动不会对结果产生很大的影响(可以想象成由于训练的程度不够,此时学习器指学习到了一些所有的数据都有的一些特征),这个时候偏差主导了算法的泛化能力。随着训练的进行,学习器的拟合能力逐渐增强,变差逐渐减小,但此时不同通过数据学习得到的学习器就可能会有较大的偏差,即此时的方差会主导模型的泛化能力。若学习进一步进行,学习器就可能学到数据集所独有的特征,而这些特征对于其它的数据是不适用的,这个时候就是发生了过拟合的想象。

5. Bagging和Boosting

Bagging和Boosting是集成学习当中比较常用的两种方法,刚好分别对应了降低模型方差和偏差。 Bagging是通过重采样的方法来得到不同的模型,假设模型独立则有:

所以从这里我们可以看出Bagging主要可以降低的是方差。 而Boosting每一次都关注使得整理的loss减少,很显然可以降低bias。这里的模型之间并不独立,所以不能显著减少variance,而Bagging假设模型独立所以可以减少variance。 更多内容请参考问题:为什么说bagging是减少variance,而boosting是减少bias? 回答很精彩。

参考资料: 1. 周志华《机器学习》p44-p46 2. Hsuan-Tien Lin. “Learning From Data”. Chapter 2.3 3. Christopher M. Bishop. “Pattern Recognition and Machine Learning” Chapter 3.1

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

入门 | 一文概览深度学习中的卷积结构

3695
来自专栏MelonTeam专栏

机器学习入门系列02,Regression 回归:案例研究

引用课程:http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML16.html 先看这里,可能由于你正在查看这个平...

1787
来自专栏fangyangcoder

CNN初探

http://www.cnblogs.com/fydeblog/p/7450413.html

661
来自专栏数据派THU

手把手教你估算深度神经网络的最优学习率(附代码&教程)

来源:机器之心 作者:Pavel Surmenok 学习率(learning rate)是调整深度神经网络最重要的超参数之一,本文作者Pavel Surmen...

3517
来自专栏大数据文摘

手把手:基于概率编程Pyro的金融预测,让正则化结果更有趣!

1232
来自专栏量子位

深度学习入门者必看:25个你一定要知道的概念

王瀚森 编译自 Analytics Vidhya 量子位 出品 | 公众号 QbitAI 人工智能,深度学习,机器学习……不管你在从事什么工作,都需要了解这些概...

4098
来自专栏Spark学习技巧

读懂Word2Vec之Skip-Gram

本教程将介绍Word2Vec的skip gram神经网络体系结构。我这篇文章的目的是跳过对Word2Vec的一般的介绍和抽象见解,并深入了解其细节。具体来说,我...

3177
来自专栏数据科学与人工智能

【机器学习】机器学习基础:线性回归

从How-Old.net说起 大家是否玩过How-Old.net呢? 这个网站能够推测出相片中人物的年龄与性别~ ?   好神奇~想知道它是如何实现的吗? ...

23110
来自专栏机器之心

学界 | 模型的泛化能力仅和Hessian谱有关吗?

经验表明,通过训练深度神经网络得到的不同局部最优值往往并不能以相同的方式泛化到未知数据集上,即使取得了相同的训练损失。近年来,这一问题日益受到经验和理论深度学习...

602
来自专栏企鹅号快讯

机器学习常见算法简介及其优缺点总结

机器学习常见算法的一种合理分类:生成/识别,参数/非参数,监督/无监督等。例如,Scikit-Learn文档页面通过学习机制对算法进行分组,产生类别如:1,广义...

2185

扫码关注云+社区