直观解释为什么随机森林胜过决策树?

两个直观的原因

随机森林由多个单树组成,每个树基于训练数据的随机样本。它们通常比单个决策树更准确。下图显示随着更多树的添加,决策边界变得更加准确。

随机森林的决策边界

在这里,我们将提供两个直观的原因,即随机森林优于单一决策树。

特征空间中的分辨率更高

树木未被修剪。虽然像CART这样的单个决策树经常被修剪,但随机林的树完全成长并且未经过修剪,因此,自然地,特征空间被分成更多和更小的区域。

树木多种多样。在随机样本上学习每个随机林的树,并且在每个节点处,考虑用于分裂的随机特征集。

两种机制都在树木之间创造了多样性。

下面示出了两个随机树,每个树具有一个分裂。对于每棵树,可以为两个区域分配不同的标签。通过组合这两棵树,有四个区域可以不同地标记。

多样化的树木在特征空间中产生高分辨率。对于连续特征,它意味着更平滑的决策边界,如下所示。

处理过度拟合

单一决策树方法需要修剪以避免过度拟合。以下显示了未修剪树的决策边界。边界更平滑,但会出现明显的错误(过度拟合)。

那么随机森林如何构建未经过修剪的树木而不会过度拟合?我们在下面提供一个解释。

对于下面的两类(蓝色和红色)问题,分裂x1 = 3和x2 = 3可以完全分离这两个类。

然而,这两个分裂导致决策边界非常不同。换句话说,这些边界在某些地区相互冲突,可能并不可靠。

现在考虑随机森林。对于用于训练树的每个随机样本,样本中缺少红点的概率

因此,使用所有蓝色数据构建了大约3棵树中的1棵,并始终预测蓝色等级。其他2/3的树在训练数据中有红点。由于在每个节点处考虑了一个随机的特征子集,我们预计大约1/3的树使用x1,其余的1/3使用x2。这就是随机森林的精妙之处,每棵树选择的特征集是不同的,也就是从不同角度来解释问题。下面说明了两种树木的分裂。

通过聚合三种类型的树,决策边界如下所示。

可以看出,随机森林优雅地解决了过度拟合问题。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181109A0JNB900?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码关注腾讯云开发者

领取腾讯云代金券