集成学习之随机森林通俗理解

scikit-learn官方general example第5个例子中涉及到了随机森林(RandomForest),随机森林是集成学习的一种,因此本文先通俗理解一下随机森林。

1.集成学习

集成学习(ensemblelearning,简称EL),不是单独的机器学习算法,是通过构建并结合多个机器学习器来完成学习任务。高端点的说叫“博彩众长”,庸俗的说叫“三个臭皮匠,顶个诸葛亮”。一般是先生存一组个体学习器,然后采用某种策略将他们结合起来。个体学习器可以由不同的学习算法生成,之间也可以按照不同的规律生成。原理如下图所示:

根据个体学习器的生成方式,集成学习方法大致可以分为两大类。一是个体学习器之间存在着墙依赖关系,必须串行生成的序列化方法,此类代表是Boosting;另一类是个体学习器之间没有强依赖关系,可同时并行生成,此类代表为Bagging和随机森林。

2.bagging以及随机森林

随机森林是bagging的升级版,bagging个体学习器不做修改,对训练数据集随机取样,使用取样后的数据子集,训练每个个体学习器,预测时整体结果采用个体结果的平均。为了增强个体学习器的多样性,在每颗随机数的生长过程中,节点分裂时只选择了部分的属性,并且对选择的属性采用了某种策略来选择1个属性作为该结点的分裂属性。

上面的说法有点难以理解,于是我们通俗的打个比方:

我们有一个决策公司(集成学习器),公司里有许多的预测大师(个体学习器),我们现在要找这个决策公司对某堆(测试集)西瓜的好坏做预测(分类)或者定量预测西瓜的甜度(回归)。当然我们首先需要拿一堆西瓜N个(测试集)给这些预测大师。每个西瓜有M个属性(比如颜色、纹路、尾巴等)。我们有以下两种方式来进行西瓜的预测。

第一种,每次从N个西瓜中随机选择几个西瓜(子集),对某个预测大师进行训练,预测大师学习西瓜的各种M个属性与结果的关系,比如先判断颜色如何?再判断纹路如何?再判断尾巴如何?预测大师开始预测然后自我调节学习,最后成为研究西瓜的人才。所有的预测大师都采用这种训练方式,都学成归来。测试的时候,每拿出一个西瓜,所有专家一致投票,我们把最高投票的结果作为最终结果。这种方式就是所谓的bagging。

第二种,每次从N个西瓜中随机选择几个西瓜(子集),每个预测大师只选项西瓜的m(m

各位亲,秒懂了吧~~

参考资料:

《机器学习》,周志华

知乎,说说随机森林

知乎,【scikit-learn文档解析】集成方法 Ensemble Methods(上):Bagging与随机森林

说明:

本文为小编原创文章,敲字不易,若转载请标明出处,谢谢。如果觉得写的不错,请点赞!

本文来自企鹅号 - 有点意思haha媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏红色石头的机器学习之路

台湾大学林轩田机器学习基石课程学习笔记8 -- Noise and Error

上一节课,我们主要介绍了VC Dimension的概念。如果Hypotheses set的VC Dimension是有限的,且有足够多N的资料,同时能够找到一个...

27500
来自专栏和蔼的张星的图像处理专栏

暗通道去雾算法原理及实现

基本原理来源于何凯明大神的CVPR09的论文Single Image Haze Removal Using Dark Channel Prior

1.1K30
来自专栏量化投资与机器学习

【量化核武】美丽的回测——教你定量计算过拟合概率

作者:石川| 公众号专栏作者 | 量信投资 创始合伙人,清华大学学士、硕士,麻省理工学院博士;精通各种概率模型和统计方法,擅长不确定性随机系统的建模及优化。知乎...

34240
来自专栏AI科技评论

热议 | 恺明大神又发新作 Rethinking ImageNet Pre-training,读过论文的你怎么看?

社长为你推荐来自 AI 研习社问答社区的精华问答。如有你也有问题,欢迎进社区提问。

9230
来自专栏新智元

【干货】消除 Artifact,用缩放卷积神经网络生成高清图像(TensorFlow 代码)

【新智元导读】非常仔细地观察神经网络生成的图像时,经常会看到一些奇怪的棋盘格子状的伪影(棋盘效应,checkboard artifacts)。本文作者讨论了棋盘...

42860
来自专栏量子位

亚马逊专家揭秘:如何建立自动检测乳腺癌的深度学习模型

安妮 编译自 Insight Data Science 量子位出品 | 公众号 QbitAI 本文作者Sheng Weng,现亚马逊Alexa项目组数据专家,莱...

35780
来自专栏机器之心

专访 | 对抗样本攻防战,清华大学TSAIL团队再获CAAD攻防赛第一

同样在去年,该团队在 NIPS 2017 AI 对抗性攻防竞赛的三项比赛任务中(有/无特定目标攻击;攻击检测),全部获得冠军,战胜了包括斯坦福、约翰霍普金斯大学...

32110
来自专栏人工智能头条

卷积神经网络模型如何辨识裸体图片

25650
来自专栏AI深度学习求索

实验artifacts优化:生成图片反卷积与棋盘伪影

生成图片实验中总会出现各种各样的artifacts,这几天跑实验遇到了棋盘伪影,在前辈指导下了解了如何解决这个问题,记录一下

23620
来自专栏人工智能

深度学习如何在医学影像分割上大显神通?——分割网络的三个改进思路

一、医学影像分割有助于临床工作 图像分割在影像学诊断中大有用处。自动分割能帮助医生确认病变肿瘤的大小,定量评价治疗前后的效果。除此之外,脏器和病灶的识别和甄别也...

3.4K120

扫码关注云+社区

领取腾讯云代金券