Out of bag error in Random Forest

sklearn中的RandomForestClassifier有一个参数:

oob_score : bool (default=False) Whether to use out-of-bag samples to estimate the generalization accuracy.

中文叫‘袋外误差’,可以看出这个参数的意思是:使用oob来衡量test error.

关于oob的解释,stackoverflow上有比较全面的解释:OOB的解释 说下自己的理解:

  • RF需要从原始的特征集中随机sampling,然后去分裂生成单颗树.
  • 每个树的训练样本是从原始的训练集boostraping而来.
  • 由于boostraping的有放回抽样方式,导致每个树的训练集合不同且只是原始训练集的一个部分.
  • 对于第t个树来说,原始训练集中那些不在第t个树的训练集的数据,可以使用第t个树来进行test.
  • 现在生成n(n是原始数据集的大小)个树,每个树的训练样本大小为n-1,对第i个树来说其训练集不包含(xi,yi)这个样本.
  • 使用不包含(xi,yi)这个样本的所有的树(n-1个),vote的结果作为最终(xi,yi)这个样本的test结果.

这样就可以在训练的时候来进行测试了,经验表明:

out-of-bag estimate is as accurate as using a test set of the same size as the training set.

意思就是,oob是test error的一个无偏估计.

一句话总结下: 假设Zi=(xi,yi)

The out-of-bag (OOB) error is the average error for each Zi calculated using predictions from the trees that do not contain Zi in their respective bootstrap sample. This allows the RandomForestClassifier to be fit and validated whilst being trained.

参考

stackoverflow上OOB的解释 sklearn上OOB的解释

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏九彩拼盘的叨叨叨

flex-grow、flex-shrink、flex-basis详解

flex-grow、flex-shrink、flex-basis这三个属性的作用是:在flex布局中,父元素在不同宽度下,子元素是如何分配父元素的空间的。

734
来自专栏懒人开发

(4.7)James Stewart Calculus 5th Edition:Optimization Problems

根据下图,可以得到大体表达式: 已知 2x + y = 2400 求 A = xy = ? 的最大值

583
来自专栏数据结构与算法

1009 产生数 2002年NOIP全国联赛普及组

009 产生数 2002年NOIP全国联赛普及组 时间限制: 1 s 空间限制: 128000 KB 题目等级 : 黄金 Gold 题目描述 De...

2454
来自专栏上善若水

CG005计算机图形学几何变换

几何变换(geometric transformation) :应用于对象几何描述并改变它的位置 方向或者大小的操作称之为几何变换,有时又称为几何变换。

1004
来自专栏ml

NYOJ-------三角形

Problem A 三角形 时间限制:1000 ms  |  内存限制:65535 KB 描述 在数学中,如果知道了三个点的坐标,我们就可以判断这三个点能否组成...

33913
来自专栏python读书笔记

《python算法教程》Day9 - 快速排序法快速排序法简介代码展示

这是《python算法教程》第9篇读书笔记,笔记的主要内容为快速排序法。 快速排序法简介 快速排序法运用分治法的方式,将需要排序的序列细分成小序列进行排序。 ...

34010
来自专栏数据结构与算法

1116 四色问题

1116 四色问题  时间限制: 1 s  空间限制: 128000 KB  题目等级 : 黄金 Gold 题解 题目描述 Description 给定N(小于...

2645
来自专栏增长技术

Android 图像处理(1)

操作的对象是每个像素,我们可以改变图像的色相(Hue)、饱和度(Saturation)、明度(Luminance) ColorActivity

722
来自专栏Java后端技术

HTML标记语法之表格元素

8.直列化格式:<colgroup><colgroup>(<col>与<colgroup>的功能完全一样)

711
来自专栏十月梦想

CSS边框

border-方向:width style color(border对应分别是宽度 样式 颜色中间空格隔开。)

673

扫码关注云+社区