直观解释为什么随机森林胜过决策树？

文章来源：企鹅号 - AI火箭营

两个直观的原因

随机森林由多个单树组成，每个树基于训练数据的随机样本。它们通常比单个决策树更准确。下图显示随着更多树的添加，决策边界变得更加准确。

随机森林的决策边界

在这里，我们将提供两个直观的原因，即随机森林优于单一决策树。

特征空间中的分辨率更高

树木未被修剪。虽然像CART这样的单个决策树经常被修剪，但随机林的树完全成长并且未经过修剪，因此，自然地，特征空间被分成更多和更小的区域。

树木多种多样。在随机样本上学习每个随机林的树，并且在每个节点处，考虑用于分裂的随机特征集。

两种机制都在树木之间创造了多样性。

下面示出了两个随机树，每个树具有一个分裂。对于每棵树，可以为两个区域分配不同的标签。通过组合这两棵树，有四个区域可以不同地标记。

多样化的树木在特征空间中产生高分辨率。对于连续特征，它意味着更平滑的决策边界，如下所示。

处理过度拟合

单一决策树方法需要修剪以避免过度拟合。以下显示了未修剪树的决策边界。边界更平滑，但会出现明显的错误（过度拟合）。

那么随机森林如何构建未经过修剪的树木而不会过度拟合？我们在下面提供一个解释。

对于下面的两类（蓝色和红色）问题，分裂x1 = 3和x2 = 3可以完全分离这两个类。

然而，这两个分裂导致决策边界非常不同。换句话说，这些边界在某些地区相互冲突，可能并不可靠。

现在考虑随机森林。对于用于训练树的每个随机样本，样本中缺少红点的概率

因此，使用所有蓝色数据构建了大约3棵树中的1棵，并始终预测蓝色等级。其他2/3的树在训练数据中有红点。由于在每个节点处考虑了一个随机的特征子集，我们预计大约1/3的树使用x1，其余的1/3使用x2。这就是随机森林的精妙之处，每棵树选择的特征集是不同的，也就是从不同角度来解释问题。下面说明了两种树木的分裂。

通过聚合三种类型的树，决策边界如下所示。

可以看出，随机森林优雅地解决了过度拟合问题。

发表于: 2018-11-092018-11-09 10:09:35
原文链接：https://kuaibao.qq.com/s/20181109A0JNB900?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

直观解释为什么随机森林胜过决策树？

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐