德国AI“算个球”：西班牙是冠军，只要别让德国进八强（严谨推理）

量子位

发布于 2018-07-24 16:20:49

1.3K1

发布于 2018-07-24 16:20:49

文章被收录于专栏：量子位

栗子李根假装发自卢日尼基量子位出品 | 公众号 QbitAI

可能是由于人类（包括球王）预测不靠谱，前几届世界杯预测战况和冠军的任务，常常交给动物完成。

比如，章鱼哥保罗。

如果保罗活到现在，应该惊喜的发现，它的工作，现在有人工智能系统可以代替了。

这不，在2018俄罗斯世界杯马上开打之际，德国4位科学家联手打造了一个世界杯AI预测模型。

综合各种应有尽有的因素：国际足联排名、平均年龄、顶级联赛球员数量、国家人口比率、GDP、教练国籍等等，真真AI建模、大数据应用，云计算加持。轻轻松松，当前准确率不知比博彩公司高到哪里去。

最后他们郑重其事地推出结论：西班牙胜率最大。

只是万万没想到，比赛尚未开始，人类就给了AI意想不到的一击。正所谓人算不如云计算，云计算难料人使绊。就在世界杯开战前24小时，西班牙炒掉了带队2年的不败战绩主教练。

AI看了都傻眼。

不过这个AI模型就这样了吗？拿衣服。

这4位严谨德国科学家自然考虑到了可能存在的变量，在10万次比赛模拟后，他们认为：如果德国人打入四分之一决赛，那西班牙就呵呵了。

好一个神奇的AI。

讲科学

一般而言，大数据预测为导向的AI，最常使用的方法有泊松回归、排序算法以及随机森林，都old school，都比较经典。

而这次在综合比较了几种方法后，4位德国科学家决定主采用随机森林建模，该方法诞生于2001年，比起传统的回归和排序，思路新得一比，预测效果也更胜一筹。

更重要的是，随机森林附上排序算法里的一个协变量，再经过合体进化，就能变成更加强大的算法，甚至比博彩公司预测的还要准。

具体如何实现？

数据准备

要搞出这个AI，首先要来到数据篇，往届世界杯对战数据自然是题中之义，但光有比赛维度的数据又怎么够？

所以这个AI还把经济因素、球队实力、主场优势、球队结构，教练因素等纳入其中。

经济因素参考人口和人均GDP 。前者参考各国人口数据，并与全球总人口对比，看球队所属国对全球人口增长的贡献。人均GDP则重在增长，用球队所属国的人均GDP，以及全球平均的人均GDP，来看2002至2014年的经济增长情况。

球队实力也从两方面考量。一是历史进程，使用国际足联排名，可管窥球队过去4年的核心表现；二是博彩赔率，把博彩公司ODDSET提供的赔率，转换为球队胜率纳入模型。

主场优势则有玄学意味。一看是否东道主（比如在韩国举办），二看是否与东道主来自同一大陆，三看属于国际足联六大足球协会 (CAF，AFC，UEFA，CONCACAF，OFC，CONMEBOL) 中的哪一个。

球队结构重点针对默契度。共4项：1）最大队友数：每支国家队，在同一个俱乐部效力的队员最多和第二多的人数；2）平均年龄：每支国家队里，所有队员的平均年龄；3）欧冠队员数：每支国家队，进入欧冠或欧洲联盟杯半决赛的人数；4）海外队员数：每支国家队，在国外俱乐部效力的人数。

最后是教练因素。比如教练的年龄，以及在本队职教时间的长短，都被计算在内。另外，教练的国籍是否与职教的国家队归属一致，也是接近玄学的考量——但肯定没想过会有临阵换帅的情况。

综上，差不多每只参赛球队都会有16个维度的变量。

然后就可以进入竞技演化篇了。

算法模型

就像开头所言，这个预测AI核心主打算法模型是随机森林。

这种方法是Breiman在2001年提出的，如今已成了统计学模型和机器学习之间的桥梁。

法如其名，随机森林需要建起许多的决策树 (Decision Trees) ，让它们来预测每场比赛双方的进球数。

当然，系统要服用上文提到的所有变量。

然后，先让每一棵树都独立生长。

再把所有树的判断集合到一起，进而随机森林再做出的预测，这样就不容易有太多偏见。

其间关键所在，是把树与树之间的相关性降到最低——

第一，树并不是种在原始样本上，而是在有放回抽样 (BootStrap Sample) 的基础上生长的。

第二，在每一个节点，所有变量中，一个随机子集被提取出来，用于分出最完美的树杈。

有了这两步，每棵树之间的相关性就变得很弱，随机森林的不变性 (invariance)就比一棵树更强了。

另外，除了进球数，随机森林也可以给出胜、平、负这样的结果。

紧接着进入算法融合阶段。

虽然一开始所说的泊松回归模型，以及排序算法，德国科学家认为没有随机森林的预测效果那么好。

但他们觉得，这些算法身上依然有随机森林可以汲取的营养。毕竟预测胜负和预测进球数，是两项不同的任务。

于是，数据篇说到的新变量，在这里登场——

△ ri，rj，来自排序算法

之前排序算法里用到的、谜一般的球队实力参数，就在合体过程中以新变量的身份出现了。

如此融合进化完成后，再拿几种方法出来测一下，新算法显得更优秀——预测的准确度，已超过了博彩公司。

如果更早一点推出，这个AI估计能赚不少钱。

不过现在也为时未晚，2018世界杯已开盘等你。

实战预测

拿2018世界杯演练，这个AI结果如何？

这是AI给出的结果，前三名的球队 (抛开顺序) 和许多其他算法的预测也是一致的。

它觉得，西班牙和德国的夺冠概率相差不大，不过还是更偏爱西班牙一点点。

此外，这里不光有每支球队的夺冠概率，还有每一轮的晋级可能性。

有趣的是，西班牙和德意志，小组赛晋级概率非常接近，但八分之一决赛的胜率就有点拉开了。

德国科学家们说，这是因为从分组来看，德国队更有可能在八分之一决赛遭遇劲旅，比如巴西，但西班牙更轻松一些。

另外，论文还给出了小组出线可能性最大的组合——

还需要指出的是，如果用每场比赛的胜负概率排列出结果，最后赢得金杯的将是德国人。

在这个维度里，之前夺冠概率最大的西班牙，不幸止步于半决赛。

也就是说，这个AI给出的终极结果是：西班牙胜率最大，但只要德国进8强，呵呵。

所以你听懂德国科学家们的潜台词了吗？

无独有偶，足球世界也一直流传着这样一句话：足球是22个人90分钟的比赛，但最后赢得胜利的always是德国人。

其他预测

当然，也有其他同样使用机器学习方案预测世界杯的例子。

数据科学家Gerald Muriuki就利用2个来自Kaggle的数据集，使用1930年第一届世界杯以来的所有参赛队的历史赛事结果，打造了一个AI模型，同样预测了所有小组赛结果，还模拟了四分之一决赛、半决赛和决赛。

整个过程和完整代码，Muriuki已经在GitHub公开，我们不再详细介绍，希望上手的同学可直接前往：

https://github.com/itsmuriuki/FIFA-2018-World-cup-predictions

直接说这个AI模型的最后预测结果：巴西将夺冠。

另外，高盛今年也继续打造了一个机器模型预测大力神杯归属，在进行了100万次比赛模拟后，最终结果也是巴西夺冠。

高盛的AI模型显示：法国、巴西、葡萄牙和德国将打入半决赛，巴西最终将在决赛中击败德国。

但擅长分析和报告的高盛，在世界杯预测方面有历史包袱，上一届世界杯——2014年，他们也是高调预测巴西本土夺冠，然而谁料等到了一个半决赛1:7惨败德国的结果。

需要说明的是，巴西夺冠的结果与知名博彩公司（也是一个b站）目前赔率指向一致，他们夺冠预测是：巴西＞德国＞西班牙＞法国＞阿根廷。

该前5名结果也得到另一家知名欧洲博彩组织支持，但他们的夺冠预测是：德国＞巴西＞法国＞西班牙＞阿根廷。

最后，2014年准确预测德国夺冠的EA公司，今年选择押注法兰西。

不过，足球场上的事儿，玄学一件，可能也会人定胜AI。

量子位的懂球帝小陈就支持巴西夺冠，他的原因很明确：一方面，巴西是唯一一支在世界杯击败过中国队的冠军球队；另一方面，巴西和中国队都在队徽上绣了五颗星。

嗯，好有道理（围笑）。

One More Thing

最后作为一个严谨的报道，照理附上论文传送门：

https://arxiv.org/pdf/1806.03208.pdf

以及，2018俄罗斯世界杯，今晚开幕~

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2018-06-14，如有侵权请联系 cloudcommunity@tencent.com 删除

其他

本文分享自量子位微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

其他

登录后参与评论

0 条评论

热度