开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

社区首页 >专栏 >使用scikit-learn解释随机森林算法

使用scikit-learn解释随机森林算法

作者头像

CSDN技术头条

发布于 2018-02-11 09:20:29

7840

发布于 2018-02-11 09:20:29

举报

文章被收录于专栏：CSDN技术头条CSDN技术头条

在以前的一篇博文里，我讨论过如何将随机森林算法转化为一个“白盒”，这样每次预测就能被分解为各项特征的贡献和，即

我多次想找相关的代码。然而，绝大多数的随机森林算法库（包括scikit-learn）不暴露预测过程的树路径（tree paths）。sklearn的实现方法需要一个额外补丁来暴露。庆幸的是，scikit-learn自0.17版起在API中添加了两项功能，使得这个过程相对而言比较容易理解：获取用于预测的所有叶子节点的ID，并存储所有决策树的所有节点的中间值，而不仅仅只存叶子节点的。结合这两步，就可以获取每次独立预测的预测路径，同时根据查看路径来分解预测过程。

代码已经放在github上了，也可以用 pip install treeinterpreter进行安装。

注意：需要用到仍在开发中的scikit-learn 0.17，你在下面的链接中能找到安装方法http://scikit-learn.org/stable/install.html#install-bleeding-edge。

用treeinterpreter分解随机森林预测

我们选一个简单的数据集，训练一个随机森林模型，并用测试集进行预测，然后分解预测过程。

我们随机挑选两个预测价格不相同的样本。

随机森林模型对它们的预测结果迥然不同。这是为什么呢？我们接下来就把预测结果分为偏置项（也就是训练集的平均结果）和单个特征贡献值，以便于观察究竟哪些特征项造成了差异，差异程度有多大。

我们直接调用tree interpreter的predict方法，向其传入模型和数据作为参数。

打印出这些结果：

特征贡献值按照其绝对值从大到小排序。我们观察到第一个样本的预测结果较高，正贡献值主要来自RM、LSTAT和PTRATIO特征。第二个样本的预测值则低得多，因为RM特征实际上有很大的负面影响，它不会被其它特征的正面影响所抵消，因此使得预测值要低于数据集的平均水平。

分解的结果真的对吗？很容易检验：偏置和特征贡献值相加应该等于预测值：

注意，在把贡献值相加时，我们需要对浮点数进行处理，所以经过四舍五入处理后的值可能略有不同。

比较两个数据集

这个方法的用武之地之一就是比较两个数据集。例如:

理解造成两个数据集预测值差异的真正原因，比如是什么因素导致相邻两幢房屋的预测价值差异。
调试模型和数据，例如解释为什么新数据的平均预测值和旧数据的不一样。

还是上面这个例子，我们把房价数据的测试集再一分为二，分别计算它们的平均预测价值。

我们发现两个数据集的平均预测价值完全不同。现在我们就能细分导致差异的因素：究竟哪些特征项造成了差异，差异程度有多大。

我们再来计算每一维特征的平均贡献程度。

由于两个数据集的偏置项都一样（因为模型的训练集都一样），平均预测价值的差异只能来自于特征的贡献值。换句话说，特征贡献差异的总和应该与平均预测的差异相等，我们很容易验证。

最后，我们把每一维特征贡献的差异之和显示出来，正好就是平均预测值的差异。

分类树和森林

同样的方法也能用于分类树，查看特征对某个类别的预测概率值的影响力。

我们在iris数据集上做演示。

拆分每一维特征的贡献值：

我们看到对第二类预测能力最强的特征是花瓣长度和宽度，它们极大提高了预测的概率值。

总结

让随机森林算法的预测结果具有解释性也很容易，几乎达到了线性模型的解释能力。有了treeinterpreter，这个步骤只需几行代码就能搞定。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2015-10-09，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CSDN技术头条微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

评论

登录后参与评论

0 条评论

热度

最新

LV.