偏差(Bias)与方差(Variance)

1. 问题背景

NFL(No Free Lunch Theorem)告诉我们选择算法应当与具体问题相匹配,通常我们看一个算法的好坏就是看其泛化性能,但是对于一个算法为什么好为什么坏,我们缺乏一些认识。“Bias-Variance Decomposition”就是从偏差和方差的角度来解释一个算法的泛化性能。

2. 一点点数学

为了让世界更加美好,我们在这里不考虑样本的噪声。

“The noise term is unaviodable no matter what we do, so the terms we are interested in are really the bias and variance”(from “Learning From Data” Page 64)

(噪声的存在是学习算法所无法解决的问题,数据的质量决定了学习的上限。而假设在数据已经给定的情况下,此时上限已定,我们要做的就是尽可能的接近这个上限)

3. 偏差与方差

由上面的公式可知,偏差描述的是算法的预测的平均值和真实值的关系(可以想象成算法的拟合能力如何),而方差描述的是同一个算法在不同数据集上的预测值和所有数据集上的平均预测值之间的关系(可以想象成算法的稳定性如何)。 (ps:个人认为可以把偏差认为是单个模型的学习能力,而方差则描述的是同一个学习算法在不同数据集的不稳定性) 偏差和方差的形象展示如下图所示(图片引自Understanding the Bias-Variance Tradeoff

图中的红色位置就是真实值所在位置,蓝色的点是算法每次预测的值。 可以看出,偏差越高则离红色部分越远,而方差越大则算法每次的预测之间的波动会比较大。

4. 偏差方差窘境

在下图中,给出了偏差方差和总体的泛化误差的示意图(图片引自Understanding the Bias-Variance Tradeoff ):

从图中我们可以看出,偏差和方差两者是有冲突的,称之为变差方差窘境(bias-variance dilemma)。 假如学习算法训练不足时,此时学习器的拟合能力不够强,此时数据的扰动不会对结果产生很大的影响(可以想象成由于训练的程度不够,此时学习器指学习到了一些所有的数据都有的一些特征),这个时候偏差主导了算法的泛化能力。随着训练的进行,学习器的拟合能力逐渐增强,变差逐渐减小,但此时不同通过数据学习得到的学习器就可能会有较大的偏差,即此时的方差会主导模型的泛化能力。若学习进一步进行,学习器就可能学到数据集所独有的特征,而这些特征对于其它的数据是不适用的,这个时候就是发生了过拟合的想象。

5. Bagging和Boosting

Bagging和Boosting是集成学习当中比较常用的两种方法,刚好分别对应了降低模型方差和偏差。 Bagging是通过重采样的方法来得到不同的模型,假设模型独立则有:

所以从这里我们可以看出Bagging主要可以降低的是方差。 而Boosting每一次都关注使得整理的loss减少,很显然可以降低bias。这里的模型之间并不独立,所以不能显著减少variance,而Bagging假设模型独立所以可以减少variance。 更多内容请参考问题:为什么说bagging是减少variance,而boosting是减少bias? 回答很精彩。

参考资料: 1. 周志华《机器学习》p44-p46 2. Hsuan-Tien Lin. “Learning From Data”. Chapter 2.3 3. Christopher M. Bishop. “Pattern Recognition and Machine Learning” Chapter 3.1

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

学界丨Facebook Yann LeCun最新演讲: AI 研究的下一站是无监督学习(附完整视频加37页PPT)

作为 Facebook 人工智能部门主管, Yann LeCun 是 AI 领域成绩斐然的大牛,也是行业内最有影响力的专家之一。 近日,LeCun在卡内基梅隆大...

3676
来自专栏数据派THU

独家 | 一文读懂集成学习(附学习资源)

本文是数据派研究部“集成学习月”的第一篇文章,本月将陆续发布关于集中学习的话题内容,月末将有答题互动活动来赢奖,欢迎随时留言讨论相关话题。 集成算法(Ensem...

3555
来自专栏AI研习社

各种机器学习的应用场景分别是什么?

关于这个问题我今天正好看到了这个文章(http://t.cn/RJrTSLV)。讲的正是各个算法的优劣分析,很中肯。 正好14年的时候有人做过一个实验[1],比...

1.1K10
来自专栏AI科技评论

学界 | CVPR 2018论文解读:一种交互式纹理迁移通用框架

AI 科技评论按:本文是北京大学门怡芳基于其 CVPR spotlight 论文为 AI 科技评论提供的独家稿件,未经许可不得转载。

1342
来自专栏机器学习之旅

Kaggle&TianChi分类问题相关纯算法理论剖析导读Bias-Variance-TradeofGBDT 理论剖析GBDT 实战剖析

17/12/30-update :很多朋友私密我想要代码,甚至利用金钱诱惑我,好吧,我沦陷了。因为原始代码涉及到公司的特征工程及一些利益trick,所以我构造了...

1003
来自专栏AI2ML人工智能to机器学习

一个奇异值的江湖 -- 机器学习观

前面我们熟悉了经典统计处理outlier的方法。 这里会说明常见的机器学习的方法。

882
来自专栏企鹅号快讯

深度学习概述与发展历史-花书第一章解读(上)

我的整理/学习计划,主要以NG的DL课程为蓝本,以DL花书为主要阅读材料,以其他网课与BLOG相关内容为参考。NG的DL课程与花书有如下对应关系:课程一《神经网...

2266
来自专栏人工智能

利用显著-偏置卷积神经网络处理混频时间序列

显著-偏置卷积神经网络简介 金融时间序列通常通常包含多个维度,不同维度数据的采样频率也不一致。例如螺纹钢研究员通常关心螺纹钢的因素有日频更新的现货螺纹钢价格,周...

3815
来自专栏WD学习记录

机器学习 学习笔记(4)牛顿法 拟牛顿法

的值,函数f(x)有极值的必要条件是在极值点处一阶导数为0,即梯度向量为0.特别是当

2891
来自专栏前沿技墅

猫工智能:卷积神经网络层的实现

2275

扫码关注云+社区

领取腾讯云代金券