理解随机森林中的max_feature

随机森林是一种集成学习算法，它由多个决策树组成。每个决策树都是通过对训练数据进行随机采样和特征随机选择来构建的。在构建每个决策树时，max_feature参数用于控制每个决策树中考虑的特征数量。

max_feature参数有以下几种常见的取值：

"auto"：默认值，表示每个决策树考虑的特征数量为总特征数的平方根。
"sqrt"：与"auto"取值相同，表示每个决策树考虑的特征数量为总特征数的平方根。
"log2"：表示每个决策树考虑的特征数量为总特征数的以2为底的对数。
整数值：可以指定具体的特征数量。如果max_feature为整数n，则每个决策树考虑的特征数量为n。

max_feature参数的选择对随机森林的性能和效果有一定影响。较小的max_feature值可以减少模型的方差，提高模型的泛化能力，但可能会增加模型的偏差。较大的max_feature值可以增加模型的多样性，提高模型的表现能力，但可能会增加模型的方差。

随机森林中的max_feature参数的选择应根据具体问题和数据集的特点进行调整。一般来说，如果特征数量较少，可以选择较大的max_feature值；如果特征数量较多，可以选择较小的max_feature值。此外，通过交叉验证等方法，可以选择最优的max_feature值。

腾讯云提供了机器学习平台Tencent ML-Platform，其中包括了随机森林算法的实现。您可以通过Tencent ML-Platform进行模型训练和预测，具体产品介绍和使用方法可以参考以下链接：

Tencent ML-Platform产品介绍

Tencent ML-Platform随机森林算法文档

作为新兴起的、高度灵活的一种机器学习算法，随机森林（Random Forest，简称RF）拥有广泛的应用前景，从市场营销到医疗保健保险，既可以用来做市场营销模拟的建模，统计客户来源，保留和流失，也可用来预测疾病的风险和病患者的易感性。最初，我是在参加校外竞赛时接触到随机森林算法的。最近几年的国内外大赛，包括2013年百度校园电影推荐系统大赛、2014年阿里巴巴天池大数据竞赛以及Kaggle数据科学竞赛，参赛者对随机森林的使用占有相当高的比例。此外，据我的个人了解来看，一大部分成功进入答辩的队伍也都选择了Random Forest 或者 GBDT 算法。所以可以看出，Random Forest在准确率方面还是相当有优势的。

这里只是准备简单谈谈基础的内容，主要参考一下别人的文章，对于随机森林与GBDT，有两个地方比较重要，首先是information gain，其次是决策树。这里特别推荐Andrew Moore大牛的Decision Trees Tutorial，与Information Gain Tutorial。Moore的Data Mining Tutorial系列非常赞，看懂了上面说的两个内容之后的文章才能继续读下去。决策树实际上是将空间用超平面进行划分的一种方法，每次分割的时候，都将当前的空间一分为二，比如说下面的

随机森林算法（有监督学习）

一、随机森林算法的基本思想随机森林的出现主要是为了解单一决策树可能出现的很大误差和overfitting的问题。这个算法的核心思想就是将多个不同的决策树进行组合，利用这种组合降低单一决策树有可能带来的片面性和判断不准确性。用我们常说的话来形容这个思想就是“三个臭皮匠赛过诸葛亮”。具体来讲，随机森林是用随机的方式建立一个森林，这个随机性表述的含义我们接下来会讲。随机森林是由很多的决策树组成，但每一棵决策树之间是没有关联的。在得到森林之后，当对一个新的样本进行判断或预测的时候，让森林中的每一棵决策树分别进行判断，看看这个样本应该属于哪一类（对于分类算法），然后看看哪一类被选择最多，就预测这个样本为那一类。

基础内容：这里只是准备简单谈谈基础的内容，主要参考一下别人的文章，对于随机森林与GBDT，有两个地方比较重要，首先是information gain，其次是决策树。这里特别推荐Andrew Moore大牛的Decision Trees Tutorial，与Information Gain Tutorial。Moore的Data Mining Tutorial系列非常赞，看懂了上面说的两个内容之后的文章才能继续读下去。决策树实际上是将空间用超平面进行划分的一种方法，每次分割的时候，都将当前的空间一分为二，

模型组合（比如说有Boosting，Bagging等）与决策树相关的算法比较多，这些算法最终的结果是生成N(可能会有几百棵以上）棵树，这样可以大大的减少单决策树带来的毛病，有点类似于三个臭皮匠等于一个诸葛亮的做法，虽然这几百棵决策树中的每一棵都很简单（相对于C4.5这种单决策树来说），但是他们组合起来确是很强大。在最近几年的paper上，如iccv这种重量级的会议，iccv 09年的里面有不少的文章都是与Boosting与随机森林相关的。模型组合+决策树相关的算法有两种比较基本的形式 - 随机森林与GBD

决策树（decision tree）是一种依托于策略抉择而建立起来的树。机器学习中，决策树是一个预测模型；他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象，而每个分叉路径则代表的某个可能的属性值，从根节点到叶节点所经历的路径对应一个判定测试序列。决策树可以是二叉树或非二叉树，也可以把他看作是 if-else 规则的集合，也可以认为是在特征空间上的条件概率分布。决策树在机器学习模型领域的特殊之处，在于其信息表示的清晰度。决策树通过训练获得的 “知识”，直接形成层次结构。这种结构以这样的方式保存和展示知识，即使是非专家也可以很容易地理解。

Machine Learning -- GBDT(RF)

前言：决策树这种算法有着很多良好的特性，比如说训练时间复杂度较低，预测的过程比较快速，模型容易展示（容易将得到的决策树做成图片展示出来）等。但是同时，单决策树又有一些不好的地方，比如说容易over-fitting，虽然有一些方法，如剪枝可以减少这种情况，但是还是不够的。模型组合（比如说有Boosting，Bagging等）与决策树相关的算法比较多，这些算法最终的结果是生成N(可能会有几百棵以上）棵树，这样可以大大的减少单决策树带来的毛病，有点类似于三个臭皮匠等于一个诸葛亮的做法，虽然这几百棵决策树中

10.1.3 随机森林回归法类参数、属性和方法类 class sklearn.ensemble.RandomForestRegressor(n_estimators=100, *, criterion='mse', max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features='auto', max_leaf_nodes=None, min_impurity_dec

顾名思义，是用随机的方式建立一个森林，森林里面有很多的决策树组成，随机森林的每一棵决策树之间是没有关联的。在得到森林之后，当有一个新的输入样本进入的时候，就让森林中的每一棵决策树分别进行一下判断，看看这个样本应该属于哪一类（对于分类算法），然后看看哪一类被选择最多，就预测这个样本为那一类。我们可以这样⽐比喻随机森林算法：每一棵决策树就是一个精通于某一个窄领域的专家（因为我们从M个特征中选择m个让每一棵决策树进行行学习），这样在随机森林中就有了了很多个精通不不同领域的专家，对一个新的问题（新的输⼊入数据），可以用不不同的角度去看待它，最终由各个专家，投票得到结果。随机森林算法有很多优点：

组合模型下面简单的介绍下Bootstraping, Bagging, Boosting, AdaBoost, RandomForest 和Gradient boosting这些组合型算法. 1.Bootstraping Bootstraping: 名字来自成语“pull up by your own bootstraps”，意思就是依靠你自己的资源，称为自助法，它是一种有放回的抽样方法，它是非参数统计中一种重要的估计统计量方差进而进行区间估计的统计方法。其核心思想和基本步骤如下：（1）采用重抽样技术从原

010

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

理解随机森林中的max_feature

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐