德国AI“算个球”:西班牙是冠军,只要别让德国进八强(严谨推理)

栗子 李根 假装发自 卢日尼基 量子位 出品 | 公众号 QbitAI

可能是由于人类(包括球王)预测不靠谱,前几届世界杯预测战况和冠军的任务,常常交给动物完成。

比如,章鱼哥保罗。

如果保罗活到现在,应该惊喜的发现,它的工作,现在有人工智能系统可以代替了。

这不,在2018俄罗斯世界杯马上开打之际,德国4位科学家联手打造了一个世界杯AI预测模型。

综合各种应有尽有的因素:国际足联排名、平均年龄、顶级联赛球员数量、国家人口比率、GDP、教练国籍等等,真真AI建模、大数据应用,云计算加持。轻轻松松,当前准确率不知比博彩公司高到哪里去。

最后他们郑重其事地推出结论:西班牙胜率最大

只是万万没想到,比赛尚未开始,人类就给了AI意想不到的一击。正所谓人算不如云计算,云计算难料人使绊。就在世界杯开战前24小时,西班牙炒掉了带队2年的不败战绩主教练。

AI看了都傻眼。

不过这个AI模型就这样了吗?拿衣服。

这4位严谨德国科学家自然考虑到了可能存在的变量,在10万次比赛模拟后,他们认为:如果德国人打入四分之一决赛,那西班牙就呵呵了。

好一个神奇的AI。

讲科学

一般而言,大数据预测为导向的AI,最常使用的方法有泊松回归、排序算法以及随机森林,都old school,都比较经典。

而这次在综合比较了几种方法后,4位德国科学家决定主采用随机森林建模,该方法诞生于2001年,比起传统的回归和排序,思路新得一比,预测效果也更胜一筹。

更重要的是,随机森林附上排序算法里的一个协变量,再经过合体进化,就能变成更加强大的算法,甚至比博彩公司预测的还要准。

具体如何实现?

数据准备

要搞出这个AI,首先要来到数据篇,往届世界杯对战数据自然是题中之义,但光有比赛维度的数据又怎么够?

所以这个AI还把经济因素、球队实力、主场优势、球队结构,教练因素等纳入其中。

经济因素参考人口和人均GDP 。前者参考各国人口数据,并与全球总人口对比 ,看球队所属国对全球人口增长的贡献。人均GDP则重在增长,用球队所属国的人均GDP,以及全球平均的人均GDP,来看2002至2014年的经济增长情况。

球队实力也从两方面考量。一是历史进程,使用国际足联排名,可管窥球队过去4年的核心表现;二是博彩赔率,把博彩公司ODDSET提供的赔率,转换为球队胜率纳入模型。

主场优势则有玄学意味。一看是否东道主(比如在韩国举办),二看是否与东道主来自同一大陆,三看属于国际足联六大足球协会 (CAF,AFC,UEFA,CONCACAF,OFC,CONMEBOL) 中的哪一个。

球队结构重点针对默契度。共4项:1)最大队友数:每支国家队,在同一个俱乐部效力的队员最多和第二多的人数;2)平均年龄:每支国家队里,所有队员的平均年龄;3)欧冠队员数:每支国家队,进入欧冠或欧洲联盟杯半决赛的人数;4)海外队员数:每支国家队,在国外俱乐部效力的人数。

最后是教练因素。比如教练的年龄,以及在本队职教时间的长短,都被计算在内。另外,教练的国籍是否与职教的国家队归属一致,也是接近玄学的考量——但肯定没想过会有临阵换帅的情况。

综上,差不多每只参赛球队都会有16个维度的变量。

然后就可以进入竞技演化篇了。

算法模型

就像开头所言,这个预测AI核心主打算法模型是随机森林

这种方法是Breiman在2001年提出的,如今已成了统计学模型和机器学习之间的桥梁。

法如其名,随机森林需要建起许多的决策树 (Decision Trees) ,让它们来预测每场比赛双方的进球数。

当然,系统要服用上文提到的所有变量。

然后,先让每一棵树都独立生长。

再把所有树的判断集合到一起,进而随机森林再做出的预测,这样就不容易有太多偏见。

其间关键所在,是把树与树之间的相关性降到最低——

第一,树并不是种在原始样本上,而是在有放回抽样 (BootStrap Sample) 的基础上生长的。

第二,在每一个节点,所有变量中,一个随机子集被提取出来,用于分出最完美的树杈。

有了这两步,每棵树之间的相关性就变得很弱,随机森林的不变性 (invariance)就比一棵树更强了。

另外,除了进球数,随机森林也可以给出胜、平、负这样的结果。

紧接着进入算法融合阶段。

虽然一开始所说的泊松回归模型,以及排序算法,德国科学家认为没有随机森林的预测效果那么好。

但他们觉得,这些算法身上依然有随机森林可以汲取的营养。毕竟预测胜负和预测进球数,是两项不同的任务。

于是,数据篇说到的新变量,在这里登场——

ri,rj,来自排序算法

之前排序算法里用到的、谜一般的球队实力参数,就在合体过程中以新变量的身份出现了。

如此融合进化完成后,再拿几种方法出来测一下,新算法显得更优秀——预测的准确度,已超过了博彩公司。

如果更早一点推出,这个AI估计能赚不少钱。

不过现在也为时未晚,2018世界杯已开盘等你。

实战预测

拿2018世界杯演练,这个AI结果如何?

这是AI给出的结果,前三名的球队 (抛开顺序) 和许多其他算法的预测也是一致的。

它觉得,西班牙和德国的夺冠概率相差不大,不过还是更偏爱西班牙一点点。

此外,这里不光有每支球队的夺冠概率,还有每一轮的晋级可能性。

有趣的是,西班牙和德意志,小组赛晋级概率非常接近,但八分之一决赛的胜率就有点拉开了。

德国科学家们说,这是因为从分组来看,德国队更有可能在八分之一决赛遭遇劲旅,比如巴西,但西班牙更轻松一些。

另外,论文还给出了小组出线可能性最大的组合——

还需要指出的是,如果用每场比赛的胜负概率排列出结果,最后赢得金杯的将是德国人。

在这个维度里,之前夺冠概率最大的西班牙,不幸止步于半决赛。

也就是说,这个AI给出的终极结果是:西班牙胜率最大,但只要德国进8强,呵呵。

所以你听懂德国科学家们的潜台词了吗?

无独有偶,足球世界也一直流传着这样一句话:足球是22个人90分钟的比赛,但最后赢得胜利的always是德国人。

其他预测

当然,也有其他同样使用机器学习方案预测世界杯的例子。

数据科学家Gerald Muriuki就利用2个来自Kaggle的数据集,使用1930年第一届世界杯以来的所有参赛队的历史赛事结果,打造了一个AI模型,同样预测了所有小组赛结果,还模拟了四分之一决赛、半决赛和决赛。

整个过程和完整代码,Muriuki已经在GitHub公开,我们不再详细介绍,希望上手的同学可直接前往:

https://github.com/itsmuriuki/FIFA-2018-World-cup-predictions

直接说这个AI模型的最后预测结果:巴西将夺冠

另外,高盛今年也继续打造了一个机器模型预测大力神杯归属,在进行了100万次比赛模拟后,最终结果也是巴西夺冠。

高盛的AI模型显示:法国、巴西、葡萄牙和德国将打入半决赛,巴西最终将在决赛中击败德国。

但擅长分析和报告的高盛,在世界杯预测方面有历史包袱,上一届世界杯——2014年,他们也是高调预测巴西本土夺冠,然而谁料等到了一个半决赛1:7惨败德国的结果。

需要说明的是,巴西夺冠的结果与知名博彩公司(也是一个b站)目前赔率指向一致,他们夺冠预测是:巴西>德国>西班牙>法国>阿根廷。

该前5名结果也得到另一家知名欧洲博彩组织支持,但他们的夺冠预测是:德国>巴西>法国>西班牙>阿根廷。

最后,2014年准确预测德国夺冠的EA公司,今年选择押注法兰西。

不过,足球场上的事儿,玄学一件,可能也会人定胜AI。

量子位的懂球帝小陈就支持巴西夺冠,他的原因很明确:一方面,巴西是唯一一支在世界杯击败过中国队的冠军球队;另一方面,巴西和中国队都在队徽上绣了五颗星。

嗯,好有道理(围笑)。

One More Thing

最后作为一个严谨的报道,照理附上论文传送门:

https://arxiv.org/pdf/1806.03208.pdf

以及,2018俄罗斯世界杯,今晚开幕~

原文发布于微信公众号 - 量子位(QbitAI)

原文发表时间:2018-06-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Python中文社区

摩根纽约总部量化女神手把手教你学Python机器学习与量化交易

“量化投资”是指投资者使用数理分析、计算机编程技术、金融工程建模等方式,通过对样本数据进行集中比对处理,找到数据之间的关系,制定量化策略,并使用编写的软件程序来...

5560
来自专栏PPV课数据科学社区

干货 | 17张思维导图,一网打尽机器学习统计基础(附原图下载)

本文用一系列「思维导图」由浅入深的总结了「统计学」领域的基础知识,是对之前系列文章做的一次完整的梳理,也是我至今为止所有与统计有关的学习笔记。众所周知,「统计学...

2829
来自专栏量子位

DeepMind为明年的AAAI,准备了一份各种DQN的混血

夏乙 编译整理 量子位 出品 | 公众号 QbitAI ?DeepMind公开了一篇最近投递到AAAI 2018的新论文,这篇论文的主角,依然是这家公司四年前就...

3294
来自专栏AI科技评论

学界丨这届机器学习论文评比,搞怪无厘头我只服 Reddit

你知道吗?Reddit 上的 Machine Learning 小组上目前已经聚集了 85,613 位关注者了,而在 2016 年底的时候,@Mandratha...

3645
来自专栏深度学习与数据挖掘实战

前沿|概率图模型

在过去10年里,特别是在深度学习(Deep Learning)红得发紫之前,概率图模型(Probabilistic Graphical Model)曾经是当仁不...

1101
来自专栏专知

【论文推荐】最新7篇聊天机器人(Chatbot)相关论文—触动你的心、DeepProbe、饮食推荐、知识学习、交互、挑战、管理

【导读】专知内容组整理了最近七篇聊天机器人(Chatbot)相关文章,为大家进行介绍,欢迎查看! 1. Touch Your Heart: A Tone-awa...

6425
来自专栏AI科技评论

学界 | 用充满爱与和平的GUNs挑战GANs?我可能看了篇假论文

上个世界七八十年代,邓小平爷爷曾郑重其事地提出:和平与发展是当代世界的两大主题。如今,这一伟大宏愿实现的如何? 据联合国今年1月份发布的公报显示:去年一年仅在伊...

39010
来自专栏大数据文摘

阿法狗是如何工作的?卡内基梅隆大学博士用54页PPT给你答案

1823
来自专栏C/C++基础

动态规划与数学方程法解决楼层扔鸡蛋问题

两个软硬程度一样的鸡蛋,它们有可能都在一楼就摔碎,也可能从一百层楼摔下来没事。有座100层的建筑,用这两个鸡蛋确定哪一层是鸡蛋可以安全落下的最高位置,可以摔碎两...

1143
来自专栏量子位

何恺明!再斩ICCV 2017最佳论文

夏乙 若朴 发自 凹非寺 量子位 出品 | 公众号 QbitAI 何恺明第三次斩获顶会最佳论文! 昨天下午,ICCV 2017最佳论文公布。 何恺明为一作的M...

4119

扫码关注云+社区

领取腾讯云代金券