我听说,关于随机森林算法,该算法将适合多个决策树,并以投票方式获取它们的平均值。(这也与套袋有关)
我理解\vec{x}=[1,2,3], \; \bar{x} =2 这样的例子的平均值意味着什么。但我不知道如果我有两棵决策树会意味着什么。
能否请任何人提供一个简单的例子/解释这个平均过程中的几个决策树?
发布于 2019-03-31 00:56:35
我认为你把两种不同的东西混合在一起--随机森林进行回归和分类。回归指的是预测一个连续值(数)。随机森林可以构造多个回归树,每个树都对多个回归树的数目进行预测。在这种情况下,很容易理解。数值预测的平均值是为了给出一个稳健的预测真值。
然而,我认为你是在询问分类--预测一个名义值(也称为分类或因子)。在这种情况下,每个决策树预测一个类别。通常,谈论平均类别是没有意义的。相反,多个决策树“投票”--即计算每个类别预测多少次,并以获得最多票数的类别作为预测。没有平均,只有数数。
下面是一个简单的例子。
V1 V2 V3 Class
A C E X
A C F X
B C F Y
B D F Y
B D E X
决策树1只使用功能V1:
如果V1 = A,则预测X,否则预测Y
决策树2只使用功能V2:
如果V2 = C,则预测X,否则预测Y
决策树3只使用功能V3:
如果V3 = E,则预测X,否则预测Y
现在我们要预测一个新点(A,C,F)的类别:
有两票投给X,一票投给Y,所以森林预测X,获得多数选票的阶级。
https://datascience.stackexchange.com/questions/48269
复制相似问题