AI面试之Adaboost及手推算法案例

机器学习炼丹术

发布于 2020-07-14 14:43:19

6320

发布于 2020-07-14 14:43:19

文章被收录于专栏：机器学习炼丹术

“学习的同时记录，记录的同时分享，分享的同时交流，交流的同时学习。”

boosting

Boosting 算法的特点在于：将表现一般的弱分类器通过组合变成更好的模型。代表自然就是我们的随机森林了。

GBDT和Adaboost是boost算法中比较常见的两种，这里主要讲解Adaboost。

Adaboost

Adaboost算法的核心就是两个权重。对于数据有一个权重，权重大的数据计算的损失就大；然后对于每一个弱分类器有一个权重，这个权重就是每一个弱分类器最终投票的比重。

【先给出Adaboost关键的公式】：分类器的投票权重

W_i=W_ie^{-\alpha_i y_i \hat{h}(x_i)}

更新样本的权重

【随即森林中最终投票每一个弱分类器的比重相同】

大概流程就是，现在有一个数据集，然后每个数据的比重都相同，然后训练了好几个不同的弱分类器。

挑选错误率最低的弱分类器，然后通过【某种算法】得到这个弱分类器最终投票的比重，然后通过【某种算法】更新每一个数据的比重；
因为每一个数据的比重更新了，所以再选择一个错误率最低的弱分类器，然后通过【某种算法】得到这个弱分类器最终投票的比重，然后通过【某种算法】更新每一个数据的比重；
重复这个过程。

算法的流程：

这里给一个具体计算的例子：假设这里有10个数据：

加号和减号分别代表不同的类别。然后每个类别有5个样本。

下面会给出3个弱分类器：

这三个分类器分别是

h_1(x),h_2(x),h_3(x)

图中画圈的数据就是分类错误的数据。可以发现每个弱分类器都分错了3个。下面开始Adaboost的算法。

先计算三个弱分类器的错误率，因为一开始每个样本的权重都是0.1，每个分类器又都错了3个样本，所以错误率都是0.3。这里就随机选取第一个分类器作为错误率最低的那个好了。我们这里通过第一个【某种算法】计算第一个弱分类器在最终的投票权重：

\alpha_1=\frac{1}{2}ln(\frac{1-\epsilon_1}{\epsilon_1})=0.5*ln(\frac{0.7}{0.3})=0.4236

然后通过这个

\alpha_1=0.4236

来更新每一个样本的权重。这也就是上面提到的第二个【某种算法】：

W(i)=W(i)*e^{-\alpha y_i \hat {h}(x_i)}

这啥意思的，现在假设第一个样本+1，这个样本的权重是0.1（更新前），然后这个样本在第一个分类器中是非类正确的，所以

y_i \hat{h}(x_i)=1

,所以这个样本更新后的权重就是

0.1e^{-0.4236}=0.0655

当然，对于+3这个样本，第一个分类器就分类错误，所以

y_i \hat{h}(x_i)=-1

，所以呢这个样本更新后的权重就是：

0.1e^{0.4236}=0.1527

下面经过第一个分类器之后的样本的权重：

然后再计算每一个分类器的基于更新之后样本权重的错误率：

这一次选的是第二个分类器，然后计算它的

\alpha_2

,然后再更新每一个样本的权重值：

然后是再寻找错误率最低的分类器：

到这一步的时候，我们已经有了

\alpha_1,\alpha_2,\alpha_3

,所以我们的adaboost已经得到了所有分类器的投票权重，所以最终的模型投票公式就是：

喜欢的话，长按下面的二维码关注下【机器学习炼丹术】，成为炫酷的炼丹师吧！

目前在更：每天一两个AI面试干货知识点。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2020-07-09，如有侵权请联系 cloudcommunity@tencent.com 删除

编程算法

本文分享自机器学习炼丹术微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

编程算法

登录后参与评论

0 条评论

热度