专栏首页算法channelXGBoost资料汇总,以及它背后的故事

XGBoost资料汇总,以及它背后的故事

1 引言

近来,群中有几个小伙伴想要公号推送XGBoost的相关内容,去年我在学习XGBoost时写过几篇笔记(恕我当时理解的浅显):

1 XGBoost思想

2 XGBoost模型构造

3 XGBoost 安装及实战应用

2 XGBoost被应用广泛的原因

XGBoost能如此流行与Kaggle比赛密不可分,获奖的选手大都喜欢用它来预测分类,并且取得非常不错的效果,这直接推动了XGBoost的迅速传播。

其实,更重要的背后原因是XGBoost是一个可以并行算法,这点好处巨大,这意味着它能并行处理大规模数据集上,高效省时地获取到模型结果,所以它在工业界也被广泛部署在各大公司的大数据平台上。

3 XGBoost背后的故事

XGBoost在机器学习领域如此流行和强大,大家都或许都已经了解了,它是华盛顿大学的博士陈天奇发明的。我一直很好奇,陈天奇是怎么想到的然后创造了这么好的一个分类器呢?

有一篇对陈天奇的采访,他自己说当时在用各种现有的分类器,包括梯度提升树框架效率太低了,因为SVDFeature里的模型都是单线程,于是他决定自己写一个基于决策树的提升算法。

在这之前,他在快从交大毕业时做的一个项目里接触到了 OpenMP,里面使用多线程写的,于是他就想能不能利用OpenMP写一个多线程的 GBDT(Gradient Boosting Decision Trees)帮助我做研究,并把这个工具起名 extreme gradient boosting.

陈天奇比较喜欢把一件事情推到极限,在当初开发 SVDFeature 时他利用 2G 内存训练一个机器学习模型一样。在14年他刚到华盛顿大学,就开始利用业余实践他的想法,并在寒假做XGBoost的第一版。做了一些对比后,发现效率挺高的,然后就发布了出来了。

注:陈天奇虽然在读博士,可能偏重学术,但同时他又特别注重算法的工业应用价值,编程能力通过他做的项目能看出应该非常强,可谓算法和编码能力俱佳。近来,他又发布了TVM栈,它是一个端到端的深度学习编译栈。

https://tvm.ai/

4 XGBoost资料

XGBoost因为适合在大规模数据集上高效地获取到训练模型,因此,依然被工业界广泛应用。为了更原生地学习XGBoost,无疑最好的资料出自作者,下面给出一些系统学习XGBoost的资料:

1) 陈天奇的官方网站:

https://homes.cs.washington.edu/~tqchen

2) XGBoost的Github地址, 至今仍有人在维护更新:

https://github.com/dmlc/xgboost

3) XGBoost详细使用的Github地址:

https://github.com/dmlc/xgboost/blob/master/demo/README.md

里面涵盖了精彩的XGBoost介绍,Demo, Kaggle实战案列

4) XGBoost的详细安装过程,算法参数介绍:http://xgboost.readthedocs.io/en/latest/

本文分享自微信公众号 - Python与机器学习算法频道(alg-channel),作者:zhenguo

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-07-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 机器学习精华资料完整版

    double
  • 机器学习集成算法:XGBoost模型构造

    《实例》阐述算法,通俗易懂,助您对算法的理解达到一个新高度。包含但不限于:经典算法,机器学习,深度学习,LeetCode 题解,Kaggle 实战。期待您的到来...

    double
  • 我对一类常考算法面试题的详细分析

    给你一个字符串 s ,请你返回满足以下条件的最长子字符串的长度:每个元音字母,即 'a','e','i','o','u' ,在子字符串中都恰好出现了偶数次。

    double
  • 周末漫谈|XGBoost与深度学习到底孰优孰劣?都说XGBoost好用,为什么名气总不如深度学习?

    来源|Quora 整理|AI100 AlphaGo大战柯洁、李世石后,所有人都能谈上几句深度学习。人工智能在围棋上的这场突破,最终还要归功于机器学习三巨头三十年...

    AI科技大本营
  • 结构化数据上的机器学习大杀器XGBoost

    XGBoost是一个机器学习算法工具,它的原理本身就并不难理解,而且你并不需要彻底搞懂背后的原理就能把它用得呼呼生风。 它的威力有多强? 自从2014年9月份在...

    AI科技大本营
  • 集成学习经典算法之XGBoost

    在算法圈,相信大家对XGBoost的大名早有耳闻,在CTR广告点击预估中更是炙手可热的大神器,接下来我就给大家简单介绍下,XGBoost到底是何方神圣?

    用户7569543
  • 【推荐收藏】带你撸一遍 XGBoost论文

    XGBoost作为一个非常常用的算法,我觉得很有必要了解一下它的来龙去脉,于是抽空找了一些资料,主要包括陈天奇大佬的论文以及演讲PPT,以及网络上的一些博客文章...

    石晓文
  • 【推荐收藏】带你撸一遍 XGBoost论文

    XGBoost作为一个非常常用的算法,我觉得很有必要了解一下它的来龙去脉,于是抽空找了一些资料,主要包括陈天奇大佬的论文以及演讲PPT,以及网络上的一些博客文章...

    Sam Gor
  • 第 02 课:XGBoost 简介

    XGBoost 是为速度和表现而设计的梯度提升决策树的实现。 XGBoost 代表e X treme G radient Boosti ng。 它由陈天琪开...

    PM小王
  • 小巧玲珑:机器学习届快刀XGBoost的介绍和使用

    XGBoost的全称为 eXtreme Gradient Boosting,是GBDT的一种高效实现,XGBoost中的基学习器除了可以是CART(gbtree...

    张萌

扫码关注云+社区

领取腾讯云代金券