使用scikit-learn解释随机森林算法

在以前的一篇博文里,我讨论过如何将随机森林算法转化为一个“白盒”,这样每次预测就能被分解为各项特征的贡献和,即

我多次想找相关的代码。然而,绝大多数的随机森林算法库(包括scikit-learn)不暴露预测过程的树路径(tree paths)。sklearn的实现方法需要一个额外补丁来暴露。庆幸的是,scikit-learn自0.17版起在API中添加了两项功能,使得这个过程相对而言比较容易理解:获取用于预测的所有叶子节点的ID,并存储所有决策树的所有节点的中间值,而不仅仅只存叶子节点的。结合这两步,就可以获取每次独立预测的预测路径,同时根据查看路径来分解预测过程。

代码已经放在github上了,也可以用 pip install treeinterpreter进行安装。

注意:需要用到仍在开发中的scikit-learn 0.17,你在下面的链接中能找到安装方法http://scikit-learn.org/stable/install.html#install-bleeding-edge。

用treeinterpreter分解随机森林预测

我们选一个简单的数据集,训练一个随机森林模型,并用测试集进行预测,然后分解预测过程。

我们随机挑选两个预测价格不相同的样本。

随机森林模型对它们的预测结果迥然不同。这是为什么呢?我们接下来就把预测结果分为偏置项(也就是训练集的平均结果)和单个特征贡献值,以便于观察究竟哪些特征项造成了差异,差异程度有多大。

我们直接调用tree interpreter的predict方法,向其传入模型和数据作为参数。

打印出这些结果:

特征贡献值按照其绝对值从大到小排序。我们观察到第一个样本的预测结果较高,正贡献值主要来自RM、LSTAT和PTRATIO特征。第二个样本的预测值则低得多,因为RM特征实际上有很大的负面影响,它不会被其它特征的正面影响所抵消,因此使得预测值要低于数据集的平均水平。

分解的结果真的对吗?很容易检验:偏置和特征贡献值相加应该等于预测值:

注意,在把贡献值相加时,我们需要对浮点数进行处理,所以经过四舍五入处理后的值可能略有不同。

比较两个数据集

这个方法的用武之地之一就是比较两个数据集。例如:

  • 理解造成两个数据集预测值差异的真正原因,比如是什么因素导致相邻两幢房屋的预测价值差异。
  • 调试模型和数据,例如解释为什么新数据的平均预测值和旧数据的不一样。

还是上面这个例子,我们把房价数据的测试集再一分为二,分别计算它们的平均预测价值。

我们发现两个数据集的平均预测价值完全不同。现在我们就能细分导致差异的因素:究竟哪些特征项造成了差异,差异程度有多大。

我们再来计算每一维特征的平均贡献程度。

由于两个数据集的偏置项都一样(因为模型的训练集都一样),平均预测价值的差异只能来自于特征的贡献值。换句话说,特征贡献差异的总和应该与平均预测的差异相等,我们很容易验证。

最后,我们把每一维特征贡献的差异之和显示出来,正好就是平均预测值的差异。

分类树和森林

同样的方法也能用于分类树,查看特征对某个类别的预测概率值的影响力。

我们在iris数据集上做演示。

拆分每一维特征的贡献值:

我们看到对第二类预测能力最强的特征是花瓣长度和宽度,它们极大提高了预测的概率值。

总结

让随机森林算法的预测结果具有解释性也很容易,几乎达到了线性模型的解释能力。有了treeinterpreter,这个步骤只需几行代码就能搞定。

原文发布于微信公众号 - CSDN技术头条(CSDN_Tech)

原文发表时间:2015-10-09

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏ATYUN订阅号

为什么我们一定要用随机权重初始化神经网络

必须将人工神经网络的权重初始化为小的随机数。这是因为这是用于训练模型的随机优化算法的期望,即随机梯度下降。

1313
来自专栏ATYUN订阅号

自动驾驶中机器学习算法应用大盘点

今天,机器学习算法被广泛应用于解决自动驾驶汽车制造的各种挑战问题中。人类将传感器数据处理集成到汽车的ECU(电子控制单元)中。 提高机器学习的利用率去完成新...

3544
来自专栏小樱的经验随笔

神经网络算法

我们在设计机器学习系统时,特别希望能够建立类似人脑的一种机制。神经网络就是其中一种。但是考虑到实际情况,一般的神经网络(BP网络)不需要设计的那么复杂,不需要包...

3514
来自专栏IT派

用 TensorFlow 让机器人唱首歌给你听

然后会用一些打过标签的音乐的数据,这些标签就是人类的各种情感。接着通过在这些数据上面训练一个模型,模型训练好后就可以生成符合要求关键词的音乐。

1212
来自专栏机器学习算法工程师

【TPAMI重磅综述】 SIFT与CNN的碰撞:万字长文回顾图像检索任务十年探索历程(上篇)

基于内容的图像检索任务(CBIR)长期以来一直是计算机视觉领域重要的研究课题,自20世纪90年代早期以来,研究人员先后设计了图像的全局特征,局部特征,卷积特征的...

1234
来自专栏视觉求索无尽也

【调参经验】图像分类模型的调参经验前言调参经验与我交流

用深度学习做图像分类任务也有近一年时间了,从最初模型的准确率只有60%到后来调到有80%,再到最后的90%+的准确率,摸索中踩了很多坑,也总结出了一些经验。现在...

1642
来自专栏专知

【深度学习】一文教你如何确定好的“学习率”

【导读】近日,数据科学家Hafidz Zulkifli发布一篇文章,主要讲解了深度学习中的“学习率”,以及如何利用学习率来提高深度学习模型的性能并减少训练时间。...

3675
来自专栏机器之心

构建深度神经网络,我有20条「不成熟」的小建议

在我们的机器学习实验室中,我们已经在许多高性能的机器上进行了成千上万个小时的训练,积累了丰富的经验。在这个过程中,并不只有电脑学习到了很多的知识,事实上我们研究...

1111
来自专栏ATYUN订阅号

【学术】Ferenc Huszár:剪枝神经网络两篇最新论文的解读

我想简要地介绍两篇关于修剪神经网络的论文: Learning Sparse Neural Networks through L0 Regularization...

4347
来自专栏Fish

Andrew Ng的机器学习课程概述(三)

第十三章 无监督学习 首先讲的K-mean聚类原理还是挺简单的。就是你要分K个类,你就选择K个点做中心点,然后让所有的点进行计算,离哪个点最近,就选择成为这个点...

1898

扫码关注云+社区

领取腾讯云代金券