前面我们已经通过数学公式验证过,将众多“好而不同”的弱学习器组合起来可以提升模型的准确性。并且根据个体学习器之间是否存在强依赖关系,我们将集成学习分为boosting
和bagging
两大类(强依赖性体现在弱学习器的抽样方法)。
本篇我们主要讲
boosting
算法中的代表性提升算法AdaBoost
,然后介绍提升方法的实例——提升树boosting tree
假设每个训练样本在基本分类器中的作用相同,从而在等权重的原始数据上学习第一个基分类器
在第
轮(
)上顺次执行以下操作:
学习基分类器
在加权训练数据集上的分类误差率:
可以看到第二个等号表示分类误差率等于被
误分类样本的权值之和
的系数
当
时
,并且
随着
的减小而增大,这也意味着分类误差率越小的基本分类器在最终分类器中的作用越大
可以看到误分类样本的权值扩大,而被正确分类样本的权值却得以缩小。因此误分类样本在下一轮学习中会起更大的作用。
不改变所给的训练数据,但是不断改变训练数据权值的分布,使得训练数据在基本分类器的学习中起不同的作用,这就是
AdaBoost
的一个特点。
通过系数
将多个基分类器组合起来加权表决预测的分类结果。
注意
之和不为1,
的符号决定实例
的类,
的绝对值表示分类的确信度。
基本原理依然是从训练数据中学习出一系列的弱分类器,并将弱分类器组合成一个强分类器。 输入:训练集
,其中
取值为
输出:最终分类器
的训练数据学习,得到基分类器
在训练数据集上的分类误差率
的系数
其中,
是规范化因子,它使得
成为一个概率分布:
最终分类器表示为:
提升树指采用加法模型(基函数的线性组合)与前向分布算法,同时以决策树为基函数的提升方法。对于分类问题而言是二叉分类树,但对于回归问题而言是二叉回归树。 提升树模型可以表示为决策树的加法模型:
其中,
表示决策树,
表示决策树的参数,
表示树的棵树。
首先确定初始提升树
,然后第
步的模型是:
其中下一棵决策树的参数
通过经验风险最小化确定:
当使用的损失函数不同时,便对应着不同类型的提升树算法
直接将AdaBoost算法中的基本分类器限制为二叉树即可
树可以表示为:
其中我们将输入空间划分为
个互不相交的区域
,并且在每个区域确定输出的常量
回归树算法的具体细节可以看:
[1] 统计学习方法