GBDT分类的原理及Python实现

程序员大咖

点击右侧关注,免费进阶高级!

作者:李小文

Github: https://github.com/tushushu

提到GBDT分类相信大家应该都不会觉得陌生,本文就GBDT分类的基本原理进行讲解,并手把手、肩并肩地带您实现这一算法。

完整实现代码请参考本人的github:

一. 原理篇

我们用人话而不是大段的数学公式来讲讲GBDT分类是怎么一回事。

1.1 温故知新

GBDT分类只是在GBDT回归上做了一点点改造,而GBDT分类又是建立在回归树的基础上的。 之前写过一篇GBDT回归的文章,链接如下:

之前写过一篇回归树的文章,链接如下:

1.2 Sigmoid函数

如果对逻辑回归或者神经网络有所了解的话,那么对Sigmoid函数应该不会感到陌生,它的函数表达式是:

不难得出:

所以,Sigmoid函数的值域是(0, 1),导数为y * (1 - y)

1.3 改造GBDT回归

根据《GBDT回归》可知,假设要做m轮预测,预测函数为Fm,初始常量或每一轮的回归树为fm,输入变量为X,有:

由于是回归问题,函数F的值域在(-∞, +∞),而二分类问题要求预测的函数值在(0, 1),所以我们可以用Sigmoid函数将最终的预测值的值域控制在(0, 1)之间,其函数表达式如下:

1.4 预测见面

以预测相亲是否见面来举例,见面用1表示,不见面用0表示。从《回归树》那篇文章中我们可以知道,如果需要通过一个常量来预测同事的年龄,平均值是最佳选择之一。那么预测二分类问题,这个常量该如何计算呢?我们简单证明一下:

结论,如果要用一个常量来预测y,用log(sum(y)/sum(1-y))是一个最佳的选择。

1.5 见面的残差

我们不妨假设三个相亲对象是否见面分别为[1, 0, 1],那么预测是否见面的初始值z = log((1+0+1)/(0+1+0)) = 0.693,所以我们用0.693这个常量来预测同事的年龄,即Sigmoid([0.693, 0.693, 0.693]) = [0.667, 0.667, 0.667]。每个相亲对象是否见面的残差 = 是否见面 - 预测值 = [1, 0, 1] - [0.667, 0.667, 0.667],所以残差为[0.333, -0.667, 0.333]

1.6 预测见面的残差

为了让模型更加准确,其中一个思路是让残差变小。如何减少残差呢?我们不妨对残差建立一颗回归树,然后预测出准确的残差。假设这棵树预测的残差是[1, -0.5, 1],将上一轮的预测值和这一轮的预测值求和,之后再求Sigmoid值,每个相亲对象是否见面 = Sigmoid([0.693, 0.693, 0.693] + [1, -0.5, 1]) = [0.845, 0.548, 0.845],显然与真实值[1, 0, 1]更加接近了, 每个相亲对象是否见面的残差此时变为[0.155, -0.548, 0.155],预测的准确性得到了提升。

1.7 GBDT

重新整理一下思路,假设我们的预测一共迭代3轮 是否见面:[1, 0, 1]

第1轮预测:Sigmoid(0.693, 0.693, 0.693) = [0.667, 0.667, 0.667]

第1轮残差:[0.333, -0.667, 0.333]

第2轮预测:Sigmoid(0.693, 0.693, 0.693 + [1, -0.5, 1]) (第1颗回归树)) = Sigmoid([1.693, 0.193, 1.693]) = [0.845, 0.548, 0.845]

第2轮残差:[0.155, -0.548, 0.155]

第3轮预测:Sigmoid(0.693, 0.693, 0.693 + 1, -0.5, 1 + 2, -1, 2) = Sigmoid([3.693, -0.807, 3.693]) = [0.976, 0.309, 0.976]

第3轮残差:[0.024, -0.309, 0.024]

看上去残差越来越小,而这种预测方式就是GBDT算法。

1.8 公式推导

看到这里,相信您对GBDT已经有了直观的认识。这么做有什么科学依据么,为什么残差可以越来越小呢?前方小段数学公式低能预警。

因此,我们需要通过用第m-1轮的预测值和残差来得到函数fm,进而优化函数fm。而回归树的原理就是通过最佳划分区域的均值来进行预测,与GBDT回归不同,要把这个均值改为1.7式11。所以fm可以选用回归树作为基础模型,将初始值,m-1颗回归树的预测值相加再求Sigmoid值便可以预测y。

二. 实现篇

本人用全宇宙最简单的编程语言——Python实现了GBDT分类算法,没有依赖任何第三方库,便于学习和使用。简单说明一下实现过程,更详细的注释请参考本人github上的代码。

2.1 导入回归树类

回归树是我之前已经写好的一个类,在之前的文章详细介绍过,代码请参考:

2.2 创建GradientBoostingBase类

初始化,存储回归树、学习率、初始预测值和变换函数。

2.3 计算初始预测值

初始预测值,见1.7式10。

2.4 匹配叶结点

计算训练样本属于回归树的哪个叶子结点。

2.5 获取叶节点

获取一颗回归树的所有叶子结点。

2.6 划分区域

将回归树的叶子结点,其对应的所有训练样本存入字典。

2.7 计算预测值

见1.7式11。

2.8 更新预测值

更新回归树各个叶节点的预测值。

2.9 计算残差

2.10 训练模型

训练模型的时候需要注意以下几点:

控制树的最大深度max_depth;

控制分裂时最少的样本量min_samples_split;

训练每一棵回归树的时候要乘以一个学习率lr,防止模型过拟合;

对样本进行抽样的时候要采用有放回的抽样方式。

2.11 预测一个样本

2.12 预测多个样本

三. 效果评估

3.1 main函数

使用著名的乳腺癌数据集,按照7:3的比例拆分为训练集和测试集,训练模型,并统计准确度。

3.2 效果展示

最终准确度93.082%,运行时间14.9秒,效果还算不错~

3.3 工具函数

本人自定义了一些工具函数,可以在github上查看

run_time - 测试函数运行时间

load_breast_cancer - 加载乳腺癌数据

train_test_split - 拆分训练集、测试集

get_acc - 计算准确度

总结

GBDT分类的原理:GBDT回归加Sigmoid

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180916B18IBN00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券