专栏首页AI科技大本营的专栏结构化数据上的机器学习大杀器XGBoost

结构化数据上的机器学习大杀器XGBoost

XGBoost是一个机器学习算法工具,它的原理本身就并不难理解,而且你并不需要彻底搞懂背后的原理就能把它用得呼呼生风。

它的威力有多强?

自从2014年9月份在 Kaggle 的希格斯玻色子机器学习大赛中夺魁以来,XGBoost 与深度学习两个算法垄断了 Kaggle 大赛的大部分冠军。

现在 Kaggle 大赛的情况基本是这样的,凡是非结构化数据相关,比如语音、图像,基本都是深度学习获胜,凡是结构化数据上的竞赛,基本都是 XGBoost 获胜。要知道大部分的业务数据,都是以良好格式存储在关系数据库中的结构化数据,这也就是说,跟行业应用、业务优化这些真金白银息息相关的场景里,XGBoost是目前最好用的大杀器之一。

如果时间倒退两年,在2015年,只要你用 XGBoost 算法参赛,不用做特别优化,在很多结构化数据科学竞赛中就排到前十。尤其是 2015 年下半年,XGBoost 横扫 Kaggle 大赛,冠军拿到手软。

看看这些冠军们怎么评价 XGBoost

2015年7月 Avito 上下文广告点击大赛冠军Owen Zhang 说:“要是你犹豫不决,不知如何是好,就放 XGBoost 出来咬。” 2015年8月卡特彼勒钢管价格预测大赛冠军四人组说:“XGBoost是我们手上最牛的单一模型算法。” 2015年8月物业检查预测大赛冠军Qingchen Wang 说:“我只用 XGBoost”。 2015年9月优惠券销售预测大赛冠军 Halla Yang 说:“在监督学习算法中我只使用Gradient Boosting,而在 Gradient Boosting算法的实现中我只使用 XGBoost。” 2015年10月 True Native 大赛冠军Mad Professor 说:“我已经拿了好几个Kaggle竞赛冠军了,你们可以相信我的话,XGBoost真的是个牛逼的全能算法,你值得拥有。”

但比较奇怪的是,然而只要离开这个小小的圈子,在广大的数据科学的蛮荒之地,绝大多数人都只知有深度学习,而不知有 XGBoost。我想大概可以归结为两方面原因。

第一是公众的注意力集中在人工智能下围棋、机器人、识别人脸、自动驾驶这些性感的应用场景里,对于专业领域内的应用,即便大脑知道它们很重要、很有价值,但小脑提不起兴趣。

但这种态度不科学啊!要知道深度学习虽然具有革命性,但是你去看看 Kaggle 上来自真实需求的那些竞赛课题,会发现大多数还是结构化行业数据的分析。预测客户的回头率啊,预测产品寿命,预测病人是否爽约,分析干系人是否有作案嫌疑,计算产品在各城市最佳的铺货分布,等等。这些项目背后是各行各业对 AI 的迫切而真实的需求,是几千上万亿甚至十万亿级美元的潜在市场。而这正是 XGBoost这一类算法可以驰骋的舞台,所以我们当然应该关注。

第二是网上现有的 XGBoost 文章,差不多都是给正在学习机器学习的人准备的“课外读物”,它假设你已经花很长时间复习了数学基础,正在学习20个机器学习算法,而 Gradient Boosting 只是其中之一,XGBoost 只是工具之一。如果你不是这种情况,那就很难看懂这些文章。

但其实使用 XGBoost 也不想需要掌握那么多其他算法啊,也不需要自底向上一层一层的积累啊。跟学习深度学习类似,如果你的目标就是掌握这一两个大杀器,那你完全可以单刀直入,在比较短的时间里形成单点突破。这是今天学习和使用 AI 技术的一个可行的途径。甚至对于有经验的开发者来说,这是一个更优的选择。

XGBoost 该红不红,其实受损失的最终还是用户和学习者。所以我们觉得应该把 XGBoost 这个算法单独抽出来,从基础的原理到算法分析,从工具使用到工程经验,来一个单点突破。

能够讲这个单点突破课程的人不多。我们邀请到有多年一线机器学习教学经验的中科院专家,精心剪裁出一个 XGBoost 核心突破课程——《XGBoost从基础到实战》。

我们的目标是能够在10个小时之内使你达到能动手开发模型的程度。

如果你在学习机器学习,那这个课程能够帮助你纵向掌握 XGBoost 及其所有相关基础知识,在你武器库里添加一个大杀器。

如果你急于用机器学习来解决工作中的一个问题,又没有很多时间完整学习,那么请考虑 XGBoost 吧。也许很多高手学了一大圈之后,发现最后还是 XGBoost 好用。

本文分享自微信公众号 - AI科技大本营(rgznai100)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-05-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 周末漫谈|XGBoost与深度学习到底孰优孰劣?都说XGBoost好用,为什么名气总不如深度学习?

    来源|Quora 整理|AI100 AlphaGo大战柯洁、李世石后,所有人都能谈上几句深度学习。人工智能在围棋上的这场突破,最终还要归功于机器学习三巨头三十年...

    AI科技大本营
  • 深度学习(Deep Learning)是否已经让传统的机器学习无用了?

    ---- 作者: 威廉·沃海思(William Vorhies) 编译: AI100 原文地址: http://www.datasciencecentral....

    AI科技大本营
  • 大战三回合:XGBoost、LightGBM和Catboost一决高低 | 程序员硬核算法评测

    【导读】XGBoost、LightGBM 和 Catboost 是三个基于 GBDT(Gradient Boosting Decision Tree)代表性的算...

    AI科技大本营
  • XGBoost资料汇总,以及它背后的故事

    近来,群中有几个小伙伴想要公号推送XGBoost的相关内容,去年我在学习XGBoost时写过几篇笔记(恕我当时理解的浅显):

    double
  • 集成学习经典算法之XGBoost

    在算法圈,相信大家对XGBoost的大名早有耳闻,在CTR广告点击预估中更是炙手可热的大神器,接下来我就给大家简单介绍下,XGBoost到底是何方神圣?

    用户7569543
  • 周末漫谈|XGBoost与深度学习到底孰优孰劣?都说XGBoost好用,为什么名气总不如深度学习?

    来源|Quora 整理|AI100 AlphaGo大战柯洁、李世石后,所有人都能谈上几句深度学习。人工智能在围棋上的这场突破,最终还要归功于机器学习三巨头三十年...

    AI科技大本营
  • 集成模型Xgboost!机器学习最热研究方向入门,附学习路线图

    导读:本文介绍了集成学习中比较具有代表性的方法,如Boosting、Bagging等。而XGBoost是集成学习中的佼佼者,目前,一些主流的互联网公司如腾讯、阿...

    Datawhale
  • 推荐收藏 | 10道XGBoost面试题送给你

    XGBoost的威名想必大家都有所耳闻,它不仅是数据科学竞赛神器,在工业界中也被广泛地使用。本文给大家分享珍藏了多年的XGBoost高频面试题,希望能够加深大家...

    Sam Gor
  • 陈天奇做的XGBoost为什么能横扫机器学习竞赛平台?

    在涉及非结构化数据(图像、文本等)的预测问题中,人工神经网络显著优于所有其他算法或框架。但当涉及到中小型结构/表格数据时,基于决策树的算法现在被认为是最佳方法。...

    新智元
  • 30分钟学会LightGBM

    LightGBM可以看成是XGBoost的升级加强版本,2017年经微软推出后,便成为各种数据竞赛中刷分夺冠的神兵利器。

    lyhue1991

扫码关注云+社区

领取腾讯云代金券