梯度提升树GBDT原理

关键字全网搜索最新排名

【机器学习算法】:排名第一

【机器学习】:排名第二

【Python】:排名第三

【算法】:排名第四

作者:雪伦_

链接:http://blog.csdn.net/a819825294

模型

提升方法实际采用加法模型(即基函数的线性组合)与前向分布算法。以决策树为基函数的提升方法称为提升树(boosting tree)。对分类问题决策树是二叉分类树,对回归问题决策树是二叉决策树。提升树模型可以表示为决策树的加法模型:

其中,T(x;Sm)表示决策树;Sm为决策树的参数;M为树的个数.

学习过程

回归问题提升树使用以下前向分布算法:

在前向分布算法的第m步,给定当前模型,需求解

即第m棵树的参数。当采用平方误差损失函数时,

其中,r=y-fm-1(x)是当前模型拟合数据的残差(residual)。对于平方损失函数,拟合的就是残差;对于一般损失函数(梯度下降),拟合的就是残差的近似值。

算法

输入:训练数据集

输出:提升树fM(x)

算法流程:

scikit-learn中GBDT文档:http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingRegressor.html#sklearn.ensemble.GradientBoostingRegressor

GBDT并行

非递归建树

? 节点的存放

? 终止条件

♠树的节点数

♥树的深度

♣没有适合分割的节点

特征值排序

? 在对每个节点进行分割的时候,首先需要遍历所有的特征,然后对每个样本的特征的值进行枚举计算。(CART)

? 在对单个特征量进行枚举取值之前,我们可以先将该特征量的所有取值进行排序,然后再进行排序。

? 优点

♠ 避免计算重复的value值

♥ 方便更佳分割值的确定

♣ 减少信息的重复计算

多线程/MPI并行化的实现

? 主线程

? 其他线程

原文发布于微信公众号 - 机器学习算法与Python学习(guodongwei1991)

原文发表时间:2017-06-15

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Astropeak

基于隐马尔科夫模型的中文分词方法

本文主要讲述隐马尔科夫模及其在中文分词中的应用。 基于中文分词语料库,建立中文分词的隐马尔科夫模型,最后用维特比方法进行求解。

12430
来自专栏老秦求学

基于Keras的imdb数据集电影评论情感二分类

二分类可能是机器学习最常解决的问题。我们将基于评论的内容将电影评论分类:正类和父类。

50830
来自专栏文武兼修ing——机器学习与IC设计

深入理解感知机

1.模型 感知机的模型如下图所示: ? linear_classifier_structure.png 公式表示如下所示: $$ f(x) = sign(...

388100
来自专栏磐创AI技术团队的专栏

TensorFlow系列专题(七):一文综述RNN循环神经网络

前馈神经网络不考虑数据之间的关联性,网络的输出只和当前时刻网络的输入相关。然而在解决很多实际问题的时候我们发现,现实问题中存在着很多序列型的数据,例如文本、语音...

12230
来自专栏AI研习社

深度学习自动编码器还能用于数据生成?这篇文章告诉你答案

什么是自动编码器 自动编码器(AutoEncoder)最开始作为一种数据的压缩方法,其特点有: 跟数据相关程度很高,这意味着自动编码器只能压缩与训练数据相似...

37960
来自专栏机器学习AI算法工程

机器学习模型的特性

机器学习模型中有许多种不同方法可以用来解决分类和回归问题。对同一个问题来说,这些不同模型都可以被当成解决问题的黑箱来看待。然而,每种模型都源自于不同的...

360110
来自专栏PPV课数据科学社区

这是一份文科生都能看懂的线性代数简介

选自Medium 作者:Niklas Donges 机器之心编译 参与:Tianci LIU、思源 线性代数的概念对于理解机器学习背后的原理非常重要,尤其是在深...

354100
来自专栏机器之心

教程 | 重新发现语义分割,一文简述全卷积网络

语义分割是一种学习如何识别图像中对象范围的机器学习技术。语义分割赋予机器学习系统与人类相似的理解图像内容的能力。它促使机器学习算法定位对象的精准边界,无论是街景...

18720
来自专栏深度学习自然语言处理

深度 | 从各种注意力机制窥探深度学习在NLP中的神威

作者 Antoine Tixier 表示整篇综述笔记也是他学习过程的一部分,所以这一文章还会在 arXiv 上继续更新。为了完成整篇文章,作者主要借鉴了各种卷积...

10020
来自专栏机器学习算法与Python学习

机器学习(25)之K-Means聚类算法详解

关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第一 【Python】:排名第三 【算法】:排名第四 前言 K-Means算法是无监督的聚...

75580

扫码关注云+社区

领取腾讯云代金券