专栏首页机器学习实践二三事Out of bag error in Random Forest

Out of bag error in Random Forest

sklearn中的RandomForestClassifier有一个参数:

oob_score : bool (default=False) Whether to use out-of-bag samples to estimate the generalization accuracy.

中文叫‘袋外误差’,可以看出这个参数的意思是:使用oob来衡量test error.

关于oob的解释,stackoverflow上有比较全面的解释:OOB的解释 说下自己的理解:

  • RF需要从原始的特征集中随机sampling,然后去分裂生成单颗树.
  • 每个树的训练样本是从原始的训练集boostraping而来.
  • 由于boostraping的有放回抽样方式,导致每个树的训练集合不同且只是原始训练集的一个部分.
  • 对于第t个树来说,原始训练集中那些不在第t个树的训练集的数据,可以使用第t个树来进行test.
  • 现在生成n(n是原始数据集的大小)个树,每个树的训练样本大小为n-1,对第i个树来说其训练集不包含(xi,yi)这个样本.
  • 使用不包含(xi,yi)这个样本的所有的树(n-1个),vote的结果作为最终(xi,yi)这个样本的test结果.

这样就可以在训练的时候来进行测试了,经验表明:

out-of-bag estimate is as accurate as using a test set of the same size as the training set.

意思就是,oob是test error的一个无偏估计.

一句话总结下: 假设Zi=(xi,yi)

The out-of-bag (OOB) error is the average error for each Zi calculated using predictions from the trees that do not contain Zi in their respective bootstrap sample. This allows the RandomForestClassifier to be fit and validated whilst being trained.

参考

stackoverflow上OOB的解释 sklearn上OOB的解释

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • gcc命令

    在Linux底下搞开发,不可避免的要使用到gcc,gcc选项众多,下面记录下常见的一些选项,网上好多博客也说这个但是很多的都是不对的,我的博客记录参见man g...

    GavinZhou
  • WHEN NOT TO USE DEEP LEARNING

    转载自: http://hyperparameter.space/blog/when-not-to-use-deep-learning/

    GavinZhou
  • 机器学习基本概念-3

    前两篇介绍了ML中的一些基本概念,还有一些很重要的概念也还没有说到,作为入门教程还是需要直观点,所以先举个最简单的例子线性回归(linear regresion...

    GavinZhou
  • logging.Formatter 日期格式

    formatter = logging.Formatter("%(asctime)s %(levelname)s %(message)s","%Y%b%d-%H...

    于小勇
  • 网络系统的可扩展多智能体强化学习(CS AI)

    长期以来,人们已经认识到,由于状态和操作空间的大小在代理程序数量中呈指数级增长,因此多代理程序强化学习(MARL)面临着重大的可伸缩性问题。在本文中,我们确定了...

    刘子蔚
  • Dense Associative Memory Is Robust to Adversarial Inputs

    https://github.com/DimaKrotov/Dense_Associative_Memory/blob/master/Dense_Associa...

    用户1908973
  • REST API设计指导——译自Microsoft REST API Guidelines(四)

    前面我们说了,如果API的设计更规范更合理,在很大程度上能够提高联调的效率,降低沟通成本。那么什么是好的API设计?这里我们不得不提到REST API。

    雪雁-心莱科技
  • ORA-12519的错误和解决

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 ...

    bisal
  • 霍克斯模型的电信模式揭示了人际关系的动态和个性特征(社会和信息网络)

    我们的手机包含了大量关于我们的私人信息,这不是新闻,这也是为什么我们要尽量保证手机的安全。但即使是我们通信方式的痕迹,也能看出不少关于我们的信息。在这项工作中,...

    Jillchen996
  • 【动效】:刮刮卡

    A viewport represents a polygonal (normally rectangular) area in computer graphi...

    WEBJ2EE

扫码关注云+社区

领取腾讯云代金券