Boosting 简介--A (small) introduction to Boosting

A (small) introduction to Boosting https://codesachin.wordpress.com/tag/adaboost/

这里翻译了一下这篇博客,对 boosting 介绍的很好

What is Boosting? 什么是 Boosting Boosting is a machine learning meta-algorithm that aims to iteratively build an ensemble of weak learners, in an attempt to generate a strong overall model. 下面分别对上面的定义进行逐词解析 1)weak learners 弱学习器 A ‘weak learner’ is any ML algorithm (for regression/classification) that provides an accuracy slightly better than random guessing. 就是比随机猜测好一点的一个机器学习算法。随机猜测的准确率是 50%,所以任何一个算法其准确率超过50% 都是一个弱学习器。 常用的弱学习器有 Decision Stumps or smaller Decision Trees

2) Ensemble Boosting 构建的模型最终的输出就是 所以弱学习器的 权重和 The overall model built by Boosting is a weighted sum of all of the weak learners. The weights and training given to each ensures that the overall model yields a pretty high accuracy (sometimes state-of-the-art)

3) Iteratively build 许多组合方法如 bagging/random forests ,这些模型中的弱学习器都可以并行独立训练的,因为这些弱学习器之间没有依赖性。但是 Boosting 不是这样的。 在每个步骤, Boosting 尝试评估当前已构建的模型 shortcomings ,然后生成一个 弱学习器来解决这个 shortcomings ,然后将这个弱学习器加到总体模型中去。所以整个训练过程是序列进行的。

4) Meta-algorithm 因为 Boosting 本身不是一个机器学习算法,它只是将一些基础算法构建成一个强算法,所以说它是 ‘meta’algorithm Since Boosting isn’t necessarily an ML algorithm by itself, but rather uses other (basic) algorithms to build a stronger one, it is said to be a ‘meta’ algorithm.

How does Boosting work?

通常一个基于 Boosting 框架的回归算法工作流程如下:

在 Boosting 的每个迭代步骤中,通过引入一个新的弱学习器到当前的 ensemble 中来提升当前模型的性能,这个新引入的弱学习器主要负责解决当前模型不能解决的那些样本。 这个ensemble 不仅减少 bias 也同样降低 variance

Each of the iterations in Boosting essentially tries to ‘improve’ the current model by introducing another learner into the ensemble. Having such an ensemble not only reduces the bias (which is generally pretty high for weak learners), but also the variance (since multiple learners contribute to the overall output, each with their own unique training).

Boosting 有很多种版本,其差别主要在上面算法步骤中的一些细节上。 例如 Gradient Boosting 主要的思路是 计算 Loss function 在当前步骤某一 data point 的梯度 gradient ,然后用一个新的弱学习器来学习预测这个梯度 gradient, 这个弱学习器的权重通过最小化损失函数值得到 The weight is then optimized so as to minimize the total Loss value

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏张俊红

SKlearn参数详解—随机森林

随机森林(RandomForest,简称RF)是集成学习bagging的一种代表模型,随机森林模型正如他表面意思,是由若干颗树随机组成一片森林,这里的树就是决策...

1233
来自专栏生信小驿站

R 梯度提升算法①

它是一种传统而重要的Boost算法,在学习时为每一个样本赋上一个权重,初始时各样本权重一样。在每一步训练后,增加错误学习样本的权重,这使得某些样本的重要性凸显出...

743
来自专栏Small Code

使用集成学习提升机器学习算法性能

译者注:这篇文章是对 PythonWeekly 推荐的一篇讲集成模型的文章的翻译,原文为 Ensemble Learning to Improve Machi...

2417
来自专栏机器学习算法全栈工程师

如果Boosting 你懂、那 Adaboost你懂么?

作者:崔家华 编辑:王抒伟 转载请注明作者和出处: https://zhuanlan.zhihu.com/ml-jack 机器学习知乎专栏: h...

2775
来自专栏深度学习

RF(随机森林)、GBDT、XGBoost算法简介

一、概念 RF、GBDT和XGBoost都属于集成学习(Ensemble Learning),集成学习的目的是通过结合多个基学习器的预测结果来改善单个学习器的泛...

4259
来自专栏陈龙的专栏

GBDT 算法:原理篇

GBDT 是常用的机器学习算法之一,因其出色的特征自动组合能力和高效的运算大受欢迎。这里简单介绍一下 GBDT 算法的原理,后续再写一个实战篇。

8.6K5
来自专栏Spark学习技巧

【干货】树算法对比:RF、GBDT、XGBoost

943
来自专栏量化投资与机器学习

【原创精品】使用R语言gbm包实现梯度提升算法

原创推文预告(绿色为已发布,点击标题即可阅读) ● 随机森林在因子选择上的应用基于Matlab ● 择时策略:在一天的何时进行交易 ● 主题模型 - LD...

2737
来自专栏null的专栏

简单易学的机器学习算法——梯度提升决策树GBDT

梯度提升决策树(Gradient Boosting Decision Tree,GBDT)算法是近年来被提及比较多的一个算法,这主要得益于其算法的性能,以及该算...

54712
来自专栏云时之间

Tensorflow 笔记:搭建神经网络

1423

扫码关注云+社区