机器学习：集成学习之AdaBoost算法

原创

夸克

修改于 2019-04-24 10:07:31

3.2K0

修改于 2019-04-24 10:07:31

文章被收录于专栏：机器学习专栏

一、集成学习

集成学习（Ensemble Learning），简单来说，就是先通过一定的规则生成多个学习器，再采用某种集成策略进行组合，最后综合判断输出最终结果。一般而言，通常所说的集成学习中的多个学习器都是同质的“弱学习器”。基于该弱学习器，通过样本集扰动、输入特征扰动、输出表示扰动、算法参数扰动等方式生成多个学习器，进行集成后获得一个精度较好的“强学习器”。

相比单个弱学习器，集成学习方法通常在准确率，对噪点的抗干扰性更优，但是效率上要差一些，所以有时候也用一些相对较“强”的学习器到集成算法当中，以提高算法效率。最常见的集成学习算法有两种，Boost和Bagging，先简单介绍一下Bagging的算法思路，然后重点讲一下Boost算法中具有代表性的AdaBoost，Bagging的算法流程图如下：

从上图可见Bagging算法那中的弱学习器之间没有依赖关系，可以并行生成Bagging的个体弱学习器的训练集是通过随机采样得到的。通过T次的随机采样，就可以得到T个采样集，对于这T个采样集可以分别独立的训练出T个弱学习器，再对这T个弱学习器通过集合策略来得到最终的强学习器。

二、AdaBoost集成学习算法

2.1 算法介绍

AdaBoost是一种迭代算法，核心思想也就是集成学习的思想，针对同一个训练集训练不同的弱分类器，然后把这些弱分类器集合起来，构成一个更强的最终分类器（强分类器）。AdaBoost是英文"Adaptive Boosting"（自适应增强）的缩写。AdaBoost方法的自适应在于：前一个分类器分错的样本会被用来训练下一个分类器。AdaBoost方法对于噪声数据和异常数据很敏感，相对于大多数其它学习算法而言，不会很容易出现过拟合现象。AdaBoost方法中使用的分类器可能很弱（比如出现很大错误率），但只要它的分类效果比随机好一点（比如两类问题分类错误率略小于0.5），就能够改善最终得到的模型。而错误率高于随机分类器的弱分类器也是有用的，因为在最终得到的多个分类器的线性组合中，可以给它们赋予负系数，同样也能提升分类效果。以下是AdaBoost算法流程示意图：

跟Bagging不同的是，AdaBoost中的弱学习器之间不是“并行”的，而是“线性”的。即在每一轮中加入一个新的弱分类器，直到达到某个预定的足够小的错误率。每一个训练样本都被赋予一个权重，表明它被某个分类器选入训练集的概率。如果某个样本点已经被准确地分类，那么在构造下一个训练集中，它被选中的概率就被降低；相反，如果某个样本点没有被准确地分类，那么它的权重就得到提高。通过这样的方式，AdaBoost方法能“聚焦于”那些较难分的样本上。在具体实现上，最初令每个样本的权重都相等，对于第k次迭代操作，就根据这些权重来选取样本点，进而训练分类器C

跟Bagging不同的是，AdaBoost中的弱学习器之间不是“并行”的，而是“线性”的。即在每一轮中加入一个新的弱分类器，直到达到某个预定的足够小的错误率。每一个训练样本都被赋予一个权重，表明它被某个分类器选入训练集的概率。如果某个样本点已经被准确地分类，那么在构造下一个训练集中，它被选中的概率就被降低；相反，如果某个样本点没有被准确地分类，那么它的权重就得到提高。通过这样的方式，AdaBoost方法能“聚焦于”那些较难分的样本上。在具体实现上，最初令每个样本的权重都相等，对于第k次迭代操作，就根据这些权重来选取样本点，进而训练分类器Ck。然后就根据这个分类器，来提高被它分错的的样本的权重，并降低被正确分类的样本权重。然后，权重更新过的样本集被用于训练下一个分类器Ck+1。整个训练过程如此迭代地进行下去。