Kaggle 机器学习之模型融合(stacking)心得

此文道出了本人学习 Stacking 入门级应用的心路历程。 在学习过程中感谢 @贝尔塔的模型融合方法(http://t.cn/R62UGLF),以及如何在 Kaggle 首战中进入前 10% 这篇文章(作者是章凌豪)。对于两位提供的信息,感激不尽。同时还有 Kaggle 上一些关于 ensemble 的文章和代码,比如这篇(http://t.cn/ROI2HyK)。 本文适用于被 stacking 折磨的死去活来的新手,在网上为数不多的 stacking 内容里,我已经假设你早已经看过了上述所提到的那几篇有用的文章了。但是,看完之后内心还是卧槽的。我希望下面的内容能成为,你在学习 stacking 的曲折道路上的一个小火把,给你提供一些微弱的光亮。

本文以 Kaggle 的 Titanic(泰坦尼克预测,https://www.kaggle.com/c/titanic)入门比赛来讲解 stacking 的应用(两层!)。

数据的行数:train.csv 有 890 行,也就是 890 个人,test.csv 有 418 行(418 个人)。

而数据的列数就看你保留了多少个 feature 了,因人而异。我自己的 train 保留了 7+1(1 是预测列)。

在网上为数不多的 stacking 内容里,相信你早看过了这张图:

这张图,如果你能一下子就能看懂,那就 OK。

如果一下子看不懂,就麻烦了,在接下来的一段时间内,你就会卧槽卧槽地持续懵逼......

因为这张图极具‘误导性’。(注意!我没说这图是错的,尽管它就是错的!!!但是在网上为数不多教学里有张无码图就不错啦,感恩吧,我这个小弱鸡)。

我把图改了一下:

对于每一轮的 5-fold,Model 1 都要做满 5 次的训练和预测。

Titanic 栗子:

Train Data 有 890 行。(请对应图中的上层部分)

每 1 次的 fold,都会生成 713 行 小 train, 178 行 小 test。我们用 Model 1 来训练 713 行的小 train,然后预测 178 行 小 test。预测的结果是长度为 178 的预测值。

这样的动作走 5 次! 长度为 178 的预测值 X 5 = 890 预测值,刚好和 Train data 长度吻合。这个 890 预测值是 Model 1 产生的,我们先存着,因为,一会让它将是第二层模型的训练来源。

重点:这一步产生的预测值我们可以转成 890 X 1 (890 行,1 列),记作 P1 (大写 P)

接着说 Test Data 有 418 行。(请对应图中的下层部分,对对对,绿绿的那些框框)

每 1 次的 fold,713 行 小 train 训练出来的 Model 1 要去预测我们全部的 Test Data(全部!因为 Test Data 没有加入 5-fold,所以每次都是全部!)。此时,Model 1 的预测结果是长度为 418 的预测值。

这样的动作走 5 次!我们可以得到一个 5 X 418 的预测值矩阵。然后我们根据行来就平均值,最后得到一个 1 X 418 的平均预测值。

重点:这一步产生的预测值我们可以转成 418 X 1 (418 行,1 列),记作 p1 (小写 p)

走到这里,你的第一层的 Model 1 完成了它的使命。

第一层还会有其他 Model 的,比如 Model 2,同样的走一遍, 我们有可以得到 890 X 1 (P2) 和 418 X 1 (p2) 列预测值。

这样吧,假设你第一层有 3 个模型,这样你就会得到:

来自 5-fold 的预测值矩阵 890 X 3,(P1,P2, P3) 和 来自 Test Data 预测值矩阵 418 X 3, (p1, p2, p3)。

-----------------------------------------

到第二层了..................

来自 5-fold 的预测值矩阵 890 X 3 作为你的 Train Data,训练第二层的模型 来自 Test Data 预测值矩阵 418 X 3 就是你的 Test Data,用训练好的模型来预测他们吧。

---------------------------------------

最后 ,放出一张 Python 的 Code,在网上为数不多的 stacking 内容里, 这个几行的 code 你也早就看过了吧,我之前一直卡在这里,现在加上一点点注解,希望对你有帮助:

原文发布于微信公众号 - AI研习社(okweiwu)

原文发表时间:2017-10-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏IT派

推荐|Kaggle机器学习之模型融合(stacking)心得

此文道出了本人学习Stacking入门级应用的心路历程。 在经过了几天漫长的查询资料和整理,脑子不好,理解顿悟花了不少时间。在学习过程中感谢@贝尔塔的模型融合...

48950
来自专栏思影科技

结合fMRI对猕猴面部刺激处理区域(AF)的神经元集群内部的功能特异性研究

来自美国国家心理卫生研究所的Soo Hyun Park 等人在Neuron杂志上发表了一篇文章,结合了fMRI影像与电生理信号研究了前底(AF)区域的神经元集群...

41180
来自专栏转载gongluck的CSDN博客

A*,那个传说中的算法

周日的下午,微信simplemain,老王又来找大伙儿聊技术了~~ 今天想跟大家聊的,是我们经常用到,但是却让大家觉得十分神秘的那个算法:A* 。 ? 想必大家...

42480
来自专栏机器学习人工学weekly

机器学习人工学weekly-2018/5/13

1. Google I/O召开大会,个人觉得最有意思的是TPU 3.0和AI冒充真人打电话

14550
来自专栏AI启蒙研究院

PID巡线机器小车

39510
来自专栏大数据挖掘DT机器学习

天池大赛—商场中精确定位用户所在店铺 作品分享

题目回顾 题目地址: 题目要求给定一条用户的消费记录,求该用户当前所在的店铺。 下面介绍题目数据和评测方式 1. 店铺和商场信息表(mall) ? 2. 用户...

54760
来自专栏CDA数据分析师

如何利用 Excel 进行高级数据分析?

高级的数据分析会涉及回归分析、方差分析和T检验等方法,不要看这些内容貌似跟日常工作毫无关系,其实往高处走,MBA的课程也是包含这些内容的,所以早学晚学都得学,干...

24280
来自专栏数据科学与人工智能

【数据】数据预处理

小编邀请您,先思考: 1 数据预处理包括哪些内容? 2 如何有效完成数据预处理? 数据的质量和包含的有用信息量是决定一个机器学习算法能够学多好的关键因素。因此,...

40080
来自专栏大数据文摘

手把手|教你打造一个曲风分类机器人(附视频教程)

31040
来自专栏AI科技评论

开发 | Kaggle机器学习之模型融合(stacking)心得

此文道出了本人学习Stacking入门级应用的心路历程。 在学习过程中感谢@贝尔塔的模型融合方法(https://zhuanlan.zhihu.com/p/25...

652130

扫码关注云+社区

领取腾讯云代金券