XGBoost资料汇总,以及它背后的故事

1 引言

近来,群中有几个小伙伴想要公号推送XGBoost的相关内容,去年我在学习XGBoost时写过几篇笔记(恕我当时理解的浅显):

1 XGBoost思想

2 XGBoost模型构造

3 XGBoost 安装及实战应用

2 XGBoost被应用广泛的原因

XGBoost能如此流行与Kaggle比赛密不可分,获奖的选手大都喜欢用它来预测分类,并且取得非常不错的效果,这直接推动了XGBoost的迅速传播。

其实,更重要的背后原因是XGBoost是一个可以并行算法,这点好处巨大,这意味着它能并行处理大规模数据集上,高效省时地获取到模型结果,所以它在工业界也被广泛部署在各大公司的大数据平台上。

3 XGBoost背后的故事

XGBoost在机器学习领域如此流行和强大,大家都或许都已经了解了,它是华盛顿大学的博士陈天奇发明的。我一直很好奇,陈天奇是怎么想到的然后创造了这么好的一个分类器呢?

有一篇对陈天奇的采访,他自己说当时在用各种现有的分类器,包括梯度提升树框架效率太低了,因为SVDFeature里的模型都是单线程,于是他决定自己写一个基于决策树的提升算法。

在这之前,他在快从交大毕业时做的一个项目里接触到了 OpenMP,里面使用多线程写的,于是他就想能不能利用OpenMP写一个多线程的 GBDT(Gradient Boosting Decision Trees)帮助我做研究,并把这个工具起名 extreme gradient boosting.

陈天奇比较喜欢把一件事情推到极限,在当初开发 SVDFeature 时他利用 2G 内存训练一个机器学习模型一样。在14年他刚到华盛顿大学,就开始利用业余实践他的想法,并在寒假做XGBoost的第一版。做了一些对比后,发现效率挺高的,然后就发布了出来了。

注:陈天奇虽然在读博士,可能偏重学术,但同时他又特别注重算法的工业应用价值,编程能力通过他做的项目能看出应该非常强,可谓算法和编码能力俱佳。近来,他又发布了TVM栈,它是一个端到端的深度学习编译栈。

https://tvm.ai/

4 XGBoost资料

XGBoost因为适合在大规模数据集上高效地获取到训练模型,因此,依然被工业界广泛应用。为了更原生地学习XGBoost,无疑最好的资料出自作者,下面给出一些系统学习XGBoost的资料:

1) 陈天奇的官方网站:

https://homes.cs.washington.edu/~tqchen

2) XGBoost的Github地址, 至今仍有人在维护更新:

https://github.com/dmlc/xgboost

3) XGBoost详细使用的Github地址:

https://github.com/dmlc/xgboost/blob/master/demo/README.md

里面涵盖了精彩的XGBoost介绍,Demo, Kaggle实战案列

4) XGBoost的详细安装过程,算法参数介绍:http://xgboost.readthedocs.io/en/latest/

原文发布于微信公众号 - Python与机器学习算法频道(alg-channel)

原文发表时间:2018-07-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

Intel研究院院长吴甘沙演讲全文:大数据分析师的卓越之道(32PPT)

29511
来自专栏点滴积累

人工智能入门

前言 这个名字起的非常大,但是本文只能从一些概念和我自己的理解上介绍一下什么是人工智能。本文只是给从未接触过此块的人一个大致的印象和思路,其余人请直接略过。 一...

4447
来自专栏人工智能头条

构建实战机器学习系统的10点经验(二)

1593
来自专栏大数据文摘

【干货】推荐系统原理介绍

42612
来自专栏IT派

2017年,机器学习在Quora的五大应用场景

作者|Nikhil Dandekar 翻译|薛命灯 2015 年,Quora 的工程主席 Xavier Amatriain 非常精彩地回答了 Quora 上的一...

2686
来自专栏新智元

【干货】开发者如何掌握机器学习?传统方法可能都走了弯路

【新智元导读】作为一名开发者,怎么才能加入时下正火热的机器学习?本文作者Jason认为,传统的方法,包括从经典图书、博客文章或线上课程进行学习成效不大,甚至“错...

36216
来自专栏机器之心

知乎:源自社区又服务于社区的 AI 技术

每次知乎的技术负责人公开谈及人工智能技术,「智能社区」都是一个绕不开的词汇。然而「智能社区」也是一个相对陌生的概念:如今研究者与工程师们明确了深度神经网络在语音...

1330
来自专栏CDA数据分析师

你真的懂什么叫数据挖掘吗?

我对做事的流程非常感兴趣。我想要知道一些可以把事情做好的好方法,甚至在可能的情况下可以知道做这些事情的最好方式。就算你的技能不强,理解相关方面的知识不深,这个过...

2285
来自专栏机器人网

MIT分布式运算革新机器学习算法

从语音识别系统到自助停车等人工智能领域,“机器学习”的最新进展总能吸引大众的眼球。 所谓机器学习,就是让计算机在数据库中搜索特定模型从而获得新技能,以及让自主机...

3466
来自专栏AI科技评论

谷歌、微软、OpenAI等巨头七大机器学习开源项目 看这篇就够了

在人工智能行业,2015-2016 出现了一个不同寻常的趋势:许多重量级机器学习项目纷纷走向开源,与全世界的开发者共享。加入这开源大潮的,不仅有学界师生,更有国...

47111

扫码关注云+社区

领取腾讯云代金券