XGBoost + LR 就是加特征而已

导语 :XGBoost + LR 并没有像深度学习那样试图带来自动特征工程的故事和逻辑。最终,XGBoost + LR 的格局没有超越特征工程。

LR (逻辑回归) 算法因其简单有效,成为工业界最常用的算法之一。但 LR 算法是线性模型,不能捕捉到非线性信息,需要大量特征工程找到特征组合。为了发现有效的特征组合,Facebook 在 2014年介绍了通过 GBDT (Gradient Boost Decision Tree)+ LR 的方案 (XGBoost 是 GBDT 的后续发展)。随后 Kaggle 竞赛实践证明此思路的有效性。

1. XGBoost + LR 的原理

XGBoost + LR 融合方式原理很简单。先用数据训练一个 XGBoost 模型,然后将训练数据中的实例给 XGBoost 模型得到实例的叶子节点,然后将叶子节点当做特征训练一个 LR 模型。XGBoost + LR 的结构如下所示。

我第一接触到 XGBoost + LR 的时候,认为 XGBoost + LR 是尝试自动替代特征工程的方法。深度学习在 CTR 领域便是在讲述这样的故事和逻辑:只需人工对原始特征进行简单的变换,深度学习能取的比大量人工特征的 LR 好的效果。

2. XGBoost 叶子节点不能取代特征工程

为了验证 XGBoost + LR 是尝试自动替代特征工程的方法,还只是一种特征工程的方法,我们在自己业务的数据上做了一些实验。下图便是实验结果,其中: “xgboost+lr1" 是 XGBoost 的叶子节点特征、原始属性特征和二阶交叉特征一起给 LR 进行训练;"xgboost+lr2" 则只有叶子节点特征给 LR;"lr1" 是原始属性特征和二阶交叉特征; "lr2" 只有原始属性特征。

从上面的实验来看:1) "xgboost+lr2" 明显弱于 "lr1" 方法,说明只用叶子节点特征的 XGBoost + LR 弱于有特征工程的 LR 算法。即 XGBoost 叶子节点不能取代特征工程,XGBoost + LR 无法取代传统的特征工程。2) "xgboost+lr1" 取得了所有方法中的最好效果,说明了保留原来的特征工程 XGBoost + LR 方法拥有比较好的效果。即 XGBoost 叶子节点特征是一种有效的特征,XGBoost + LR 是一种有效的特征工程手段。

上面的实验结果和我同事二哥之前的实验结果一致。在他实验中没有进行二阶交叉的特征工程技巧,结果 XGBoost > XGBoost + LR > LR,其中 XGBoost +LR 类似我们的 "xgboost+lr2" 和 LR 类似于我们的 "lr2"。

3. 强大的 XGBoost

只用 XGBoost 叶子节点特征, XGBoost + LR 接近或者弱于 XGBoost 。在下图中,我们发现 XGBoost 的每个叶子节点都有权重 w, 一个实例的预测值和这个实例落入的叶子节点的权重之和有关。

如果二分类 XGBoost 使用了 sgmoid 做激活函数, 即参数为 "binary:logistic", 则 XGBoost 的最终预测值等于 sgmoid(叶子节点的权重之和)。而 LR 的最终预测值等于 sgmoid (特征对应的权重之后)。因此 LR 只要学到叶子节点的权重,即可以将 XGBoost 模型复现出来。因此理论上,如果 LR 能学到更好的权重,即使只有叶子节点特征的 XGBoost + LR 效果应该好于 XGBoost。总结起来,XGBoost + LR 相当于对 XGBoost 的权重进行 reweight。

但是从上面的结果来看,XGBoost + LR 要接近或者弱于 XGBoost。XGBoost 赋予叶子节点的权重是很不错的,LR 学到的权重无法明显地超过它。

4. 总结

XGBoost + LR 在工业和竞赛实践中,都取得了不错的效果。但 XGBoost 的叶子节点不能完全替代人工特征, XGBoost + LR 并没有像深度学习那样试图带来自动特征工程的故事和逻辑。最终,XGBoost + LR 的格局没有超越特征工程。

Tips: 公众号 AIgorithmDog 和 个人博客 AlgorithmDog 每周日更新机器学习和系统研发的轶事,希望讲得有趣,也希望和大家共同探讨学习。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Python爬虫实战

感知机初探

感知机模型的假设空间:定义在特征空间中的所有线性分类模型(linear classification model)或线性分类器(linear classifie...

641
来自专栏人工智能

机器学习敲门砖:任何人都能看懂的TensorFlow介绍

选自 kdnuggets 作者:Soon Hin Khor 机器之心编译 参与:Rick、吴攀、李亚洲 本文是日本东京 TensorFlow 聚会联合组...

3076
来自专栏数据科学与人工智能

【知识】线性回归和梯度下降算法,值得学习

小编邀请您,先思考: 线性回归的假设是什么?线性回归用来解决什么问题? 梯度下降算法怎么理解?梯度下降算法怎么改进? ? 实例 首先举个例子,假设我们有一个二手...

1956
来自专栏AI科技大本营的专栏

干货!这里有一份神经网络入门指导,请收下!

图片来源于网络 翻译 | 林椿眄 编辑 | Donna 本周,我们为您准备了一份数据科学家Ben Gorman撰写的神经网络指导。这份指导包含了他具体的学习思路...

2909
来自专栏AlgorithmDog的专栏

XGBoost + LR 就是加特征而已

XGBoost + LR 在工业和竞赛实践中,都取得了不错的效果。但 XGBoost 的叶子节点不能完全替代人工特征, XGBoost + LR 并没有...

2466
来自专栏计算机视觉

图片风格转移A Neural Algorithm of Artistic Style

这篇论文的目的,如下图所示。把我们的图变成梵高的风格,厉害了~ ? 上图为原图,下图为调整后的图 传统图像风格迁移的过程是:分析图像风格(比如说梵高的星空这种蓝...

3327
来自专栏数据分析

文本分类中的特征选择方法

在文本分类中,特征选择是选择训练集的特定子集的过程并且只在分类算法中使用它们。特征选择过程发生在分类器的训练之前。

1986
来自专栏鸿的学习笔记

写给开发者的机器学习指南(三)

在本节中,我们将解释一些可用于模型验证的技术,以及在验证技术范围内机器学习领域常用的一些术语。

471
来自专栏AI研习社

用python 6步搞定从照片到名画,你学你也可以(附视频)

近年来,机器学习的进步使我们仅用几行代码就能生成惊为天人的艺术作品。如果可以将艺术作品的原型设计速度提高100倍,让用户真正地与创作媒介合为一体,效果会怎么样呢...

3395
来自专栏小鹏的专栏

深度学习这些坑你都遇到过吗?

原文地址:My Neural Network isn't working! What should I do? 如果你的神经网络不工作,该怎么办?本文作者列举...

1905

扫码关注云+社区