python机器学习—随机森林算法：RandomForest

文章来源：企鹅号 - 创意科技解说

随机森林是指利用多棵决策树对样本进行训练并预测的一种算法。也就是说随机森林算法是一个包含多个决策树的算法，其输出的类别是由个别决策树输出的类别的众树来决定的。在Sklearn模块库中，与随机森林算法相关的函数都位于集成算法模块ensemble中，相关的算法函数包括随机森林算法：RandomForestClassifier、袋装算法：BaggingClassifier、完全随机树算法：ExtraTreesClassifier、迭代算法：Adaboost、GBT梯度Boosting树算法：GradientBoostingClassifier、梯度回归算法：GradientBoostingRegressor、投票算法：VotingClassifier。

随机森林示意图

我们知道分类、聚类和回归是机器学习的最基本主题。而随机森林主要是应用于回归和分类这两种场景，又侧重于分类。研究表明，组合分类器比单一分类器的分类效果好，在上述中我们知道，随机森林是指利用多棵决策树对样本数据进行训练、分类并预测的一种方法，它在对数据进行分类的同时，还可以给出各个变量（基因）的重要性评分，评估各个变量在分类中所起的作用。随机森林的构建大致如下：首先利用bootstrap方法又放回的从原始训练集中随机抽取n个样本，并构建n个决策树；然后假设在训练样本数据中有m个特征，那么每次分裂时选择最好的特征进行分裂每棵树都一直这样分裂下去，直到该节点的所有训练样例都属于同一类；接着让每颗决策树在不做任何修剪的前提下最大限度的生长；最后将生成的多棵分类树组成随机森林，用随机森林分类器对新的数据进行分类与回归。对于分类问题，按多棵树分类器投票决定最终分类结果；而对于回归问题，则由多棵树预测值的均值决定最终预测结果。

在正式应用随机森林之前，要了解一下随机森林有几个超参数，这几个参数有的是增强模型的预测能力，有的是提高模型计算能力。

1、n_estimators：它表示建立的树的数量。一般来说，树的数量越多，性能越好，预测也越稳定，但这也会减慢计算速度。一般来说在实践中选择数百棵树是比较好的选择，因此，一般默认是100。

2、n_jobs：超参数表示引擎允许使用处理器的数量。若值为1，则只能使用一个处理器。值为-1则表示没有限制。设置n_jobs可以加快模型计算速度。

3、oob_score :它是一种随机森林交叉验证方法，即是否采用袋外样本来评估模型的好坏。默认是False。推荐设置为True，因为袋外分数反应了一个模型拟合后的泛化能力。

下面还是在python上利用随机森林算法实现对iris数据集的分类。

得到结果如下：

最后总结一下随机森林的优缺点：

一、优点：

1、对于大部分的数据，它的分类效果比较好。

2、能处理高维特征，不容易产生过拟合，模型训练速度比较快，特别是对于大数据而言。

3、在决定类别时，它可以评估变数的重要性。

4、对数据集的适应能力强：既能处理离散型数据，也能处理连续型数据，数据集无需规范化。

二、缺点：

1、对少量数据集和低维数据集的分类不一定可以得到很好的效果。

2、计算速度比单个的决策树慢。

3、当我们需要推断超出范围的独立变量或非独立变量，随机森林做得并不好。

发表于: 2018-10-032018-10-03 10:19:55
原文链接：https://kuaibao.qq.com/s/20181003A0G8LS00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

python机器学习—随机森林算法：RandomForest

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐