机器学习｜AdaBoost

数据山谷

发布于 2020-07-21 15:16:59

6520

发布于 2020-07-21 15:16:59

文章被收录于专栏：数据山谷

基本思想

对于分类问题而言，给定一个训练样本集，求比较粗糙的分类规则（弱分类器）要比求精确的分类规则（强分类器）容易的多，提升方法就是从弱学习算法出发，反复学习，得到一系列弱分类器（基本分类器），然后组合这些弱分类器，构成一个强分类器。大多数的提升方法都是改变训练数据的概率分布，针对不同的训练数据分布调用弱学习算法学习一系列弱分类器。

对于提升方法来说，有两个问题需要回答：一是在每一轮如何改变训练数据的权值或概率分布；二是如何将弱分类器组合成一个强分类器。关于第一个问题，Adaboost的做法是，提高那些被前一轮弱分类器错误分类样本的权值，而降低那些被正确分类样本的权值。这样，那些没有得到正确分类的数据，由于其权值加大而受到后一轮的弱分类器的更大关注；对于第二个问题，Adaboost采取了加权多数表决的方法，具体的做法是加大分类误差率小的弱分类器的权值，使其在表决中起较大的作用，见效分类误差率大的弱分类器的权值，使其在表决中起较小的作用

AdaBoost算法