开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

社区首页 >专栏 >【原创】机器学习从零开始系列连载(6)—— Additive Tree 模型

【原创】机器学习从零开始系列连载(6)—— Additive Tree 模型

lujohn3li

发布于 2020-03-04 15:12:59

9720

发布于 2020-03-04 15:12:59

举报

文章被收录于专栏：机器学习爱好者社区

Additive Tree 模型

Additive tree models (ATMs)是指基础模型是树形结构的一类融合模型，可做分类、回归，很多经典的模型可以被看做ATM模型，比如Random forest 、Adaboost with trees、GBDT等。

ATM 对N棵决策树做加权融合，其判别函数为：

RandomForests‍

Random Forest 属于bagging类模型，每棵树会使用各自随机抽样样本和特征被独立的训练。

AdaBoost withtrees‍

AdaBoost with trees通过训练多个弱分类器来组合得到一个强分类器，每次迭代会生成一棵高偏差、低方差的树形弱分类器，每一轮的训练会更关注上一轮被分类器分错的样本，为其加大权重，训练过程如下：

GradientBoosting Decision Tree

Gradient boosted 是一类boosting的技术，不同于Adaboost加大误分样本权重的策略，它每次迭代加的是上一轮梯度更新值：

其训练过程如下:

GBDT是基础分类器为决策树的可做分类和回归的模型。

目前我认为最好的GBDT的实现是XGBoost:

其回归过程的示例图如下，通过对样本落到每棵树的叶子节点的权重值做累加来实现回归(或分类)：

Regression Tree Ensemble from chentianqi

其原理推导如下：

对GBDT来说依然避免不了过拟合，所以与传统机器学习一样，通过正则化策略可以降低这种风险：

XGBoost源码在: https://github.com/dmlc中，其包含非常棒的设计思想和实现，建议大家都去学习一下，一起添砖加瓦。原理部分我就不再多写了，看懂一篇论文即可，但特别需要注意的是文中提到的weighted quantile sketch算法，它用来解决当样本集权重分布不一致时如何选择分裂节点的问题：XGBoost: AScalable Tree Boosting System。

简单的例子‍

下面是关于几个常用机器学习模型的对比，从中能直观地体会到不同模型的运作区别，数据集采用libsvm作者整理好的fourclass_scale数据集，机器学习工具采用sklearn，代码中模型未做任何调参，仅使用默认参数设置。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2020-02-21，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自机器学习爱好者社区微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

评论

登录后参与评论

0 条评论

热度

最新

LV.

相关产品与服务

TI-ONE 训练平台

TI-ONE 训练平台（以下简称TI-ONE）是为 AI 工程师打造的一站式机器学习平台，为用户提供从数据接入、模型训练、模型管理到模型服务的全流程开发支持。TI-ONE 支持多种训练方式和算法框架，满足不同 AI 应用场景的需求。

产品介绍产品文档

精选特惠用云无忧