前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >基于随机森林识别特征重要性(翻译)

基于随机森林识别特征重要性(翻译)

作者头像
三猫
发布2018-04-10 11:26:15
1.6K0
发布2018-04-10 11:26:15
举报

博主Slav Ivanov 的文章《Identifying churn drivers with Random Forests 》部分内容翻译。博主有一款自己的产品RetainKit,用AI和机器学习方法,帮助SaaS相关企业解决客户流失问题。如对他们对产品有兴趣,可以访问下面的链接进行更多了解:https://www.producthunt.com/upcoming/retainkit。

随机森林

随机森林是一个集成算法,通过生成很多棵树,最终以投票或算均值的方式得到结果。这篇文章可视为对随机森林中特征重要性估计的主要方法的回顾。

特征重要性

决策树类算法的特点之一就是有良好的模型解释性。我们可以分析出得到相应结果的数据原因,也可以得到哪些特征比较重要。下面来回顾一下得到这些的主要方法:

1,平均不纯度减少(MDI):表示每个特征对误差的平均减少程度。《统计学习要素》的作者非常简洁的解释了这种方法:“在每一棵树的每一个分裂中,分裂准则的改进是对分裂变量的重要度量,并分别在森林中的所有树上为每个变量累积。”让我们详细说明一下这段话的意思。如我们所知,决策树根据一些规则,将结点分裂为两个子结点。每次分裂都是针对一个可以使误差最小化的特征。误差的计算可以使均方误差,基尼纯度,信息增益,或者其他一些根据需要设置的指标。我们总结了所有树上,这个特定变量得到的所有分割使误差减少的情况。在sk-learn包中,每次分裂带来的提升效果,是由到达节点的样本数加权得到的,然后对特征的重要性进行归一化处理。值得注意的是,这种方法往往高估了具有许多类别的特性的重要性。这里描述了一种纠正MDI偏置的替代方法。

2,平均精确率减少(MDA):打乱每个特征的特征值顺序,并且度量顺序变动对模型的精确率的影响。这种巧妙的方法利用袋外数据来计算重要性。OOB数据是训练集的一部分,但不用于训练这种特殊的树。用OOB数据计算出基本误差,然后对每个特征,随机打乱顺序。实际上,这就像用相同的分布使用随机数据替换变量一样,并忽视树对该特性的已有知识。对于不重要的特征来说,打乱顺序对模型的精确率影响不会太大,但是对于重要的特征来说,打乱顺序就会降低模型的精确率。

3,Boruta:重复删除比最佳特征差的特征。主要思想就是检查比随机噪声重要的特征。首先我们要建立影子变量将所有特征混合。这就像在“减少平均精度”中描述的变量打乱一样,但这个方法是同时对所有变量进行操作。我们将影子特征加入到原有特征中,然后用随机森林进行训练。使用上述介绍的MDA或者MDI方法,我们可以看到哪个原始变量比影子变量重要。如果不相关的特征较少,则重要性度量更精确。因此,上述过程重复到预定义的次数,或者直到达到最小特征计数为止。这个算法从最不相关的特征开始删除,因此我们可以用删除顺序作为特征重要性排序。Boruta是一个“相关”的特征选择算法。这与通过确定最佳预测精度得到的最小数据集方法有细微的区别。正如该方法的作者所说的那样:“这个算法尝试找到所有对预测结果有用的特征,而不是找到一个使误差最小的特征集合。”

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-01-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习养成记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档