论文Express | 德国本届世界杯胜算最大?帕绍大学基于ELO评级预测

大数据文摘出品

编译:halcyon、小鱼

离2018俄罗斯世界杯开幕的日子越来越近,学术界的球迷们也按捺不住期待的心情,纷纷用算法对2018世界杯的比赛结果进行预测。

巧的是,AI的预测结果纷纷看好德国队。前有德国帕绍大学(Universität Passau)利用ELO评级预测德国胜算最大,后有俄罗斯彼尔姆国立研究大学利用神经网络预测世界杯前三名将是德国队、巴西队和阿根廷队,并称这项预测的准确度超过80%。

从AI的预测结果来看,德国队更胜一筹。那么是如何进行预测的呢?一起和文摘菌来看看帕绍大学这篇最近发表的论文。

在大数据文摘后台回复“世界杯”可下载论文~

下面是论文精华内容:

本文提出了一种分析和预测足球锦标赛的方法。该方法基于泊松回归模型,由作为协方差的团队Elo评级和球队特定效应的差异组成。

通过自然中立的拟合从2010年以来所有参加比赛的球队的数据获得预测2018年世界杯的模型。基于单场比赛的估计模型,利用蒙特卡罗模拟计算了2018年世界杯各球队到达不同阶段的概率。

我们提出了两个基于随机序级变量的评分函数,并与排名概率分数对2010~2014年世界杯模型结果进行验证。

所有模型的预测结果都表示,德国队将成为2018年俄罗斯世界杯的冠军。所有可能的比赛和获胜概率利用桑基图进行了可视化。

我们提出了四个复杂度依次递增的泊松回归模型。模型的验证涉及拟合优度检验、残差分析和最小信息准则(AIC)。此外,我们还对2010~2014年世界杯的模型进行了验证。

首先,利用技巧得分排名概率(RPS)和随机序级变量对每个单场比赛的结果进行了建模,表示为G_A:G_B,其中G_A和G_B分别是球队A和B的进球个数,并利用提出的评分函数在RPS和布莱尔分数上进行了比较。在2010~2014年世界杯的验证上,评分函数与比赛结果非常接近。

模型

我们的模型是基于球队的世界足球ELO评级建立的。该评级来自Elo评级系统,但是为了考虑到各种足球特定变量,我们做了一些修正。2018年3月28号排名最高的5个球队的ELO评级如下:

下面我们展示了四个更加复杂的模型,在这些模型中,(G_A,G_B)为二维泊松分布随机变量,(G_A,G_B)的分布将取决于A球队和B球队以及两个队伍的ELO排名Elo_A和Elo_B。

独立泊松回归模型

在这个模型中我们假设G_A和G_B分别是参数为λ_A|B和λ_B|A的独立泊松分布变量。我们通过A和B的ELO分数进行泊松回归来估计λ_A|B和λ_B|A。具体过程如下:

1.第一步,对球队A与另一支给定Elo分数Elo=Elo_B的球队B的进球数目进行建模,

2.同理,对球队B与另一支给定Elo分数Elo=Elo_A的球队A的进球数目进行建模,

3.我们建模进球数目G_A为具有如下参数的泊松分布:

以此类推,我们有:

对于每个队伍,分别估计他们的回归参数α0,α1,β0和β1。那么A和B之间的比赛就通过两个泊松随机变量G_A和G_B进行模拟。

回归作图

我们利用公式(2.1)做出了德国队和巴西对的回归结果(如下图),其中,红色的点代表观测到的数据(进球数目(y轴)依赖于对手(x轴)的实力)。直线表示依据对手的Elo实力得到的估计均值。

类似的,下图表示公式(2.2)的回归结果:

拟合优度检验

我们对所有参赛队伍的(2.1)和(2.2)中的泊松回归进行拟合优度检验,对于任意一支队伍T,我们计算它的χ^2统计量:

其中,n_T是T的比赛场数,x_i是T在比赛i中的进球数目,μ^_i是估计的泊松回归均值。

我们发现回归模型对大多数队伍的拟合程度较好。下表给出了排名前5的队伍的p值:

偏差分析

首先,我们计算每个球队在公式(2.1)回归时的空模型偏差和残余偏差。下表显示了偏差值和当前Elo排名前五的团队残余偏差的p值。尽管一些p值非常低,但是还可以接受。

公式(2.2)的回归偏差和p值如下表:

二维泊松回归模型

上一个模型的缺陷在于进球数目G_A和G_B是独立分布。在这一章节中我们提出了一个二维回归模型,模型使用下面的回归方法:

1.对于每支参赛队伍T,我们估计参数

这些参数会依赖于对手队伍O的Elo实力Elo_O,为此,我们使用下面的泊松回归模型:

也就是说,队伍T与Elo实力为Elo_O的对手比赛的估计期望进球数为μ_T(Elo_O)+τ_T,而Elo实力为Elo_O的队伍与T比赛的估计期望进球数量为ν_T(Elo_O)+τ_T。

2.估计λ1、λ2和λ0如下形式:

3.最后,我们假定(G_A,G_B)为具有参数(λ1,λ2,λ0)的二维泊松分布。

具有对角膨胀的二维泊松回归

我们以概率p膨胀对角线元素,膨胀通过向量(θ0,θ1,θ2)给定来描述比赛结果0:0,1:1,2:2的概率,我们比较了前5支队伍的对角膨胀模型和非对角膨胀模型的AIC值,如下表所示。从表中可以看出,尽管对角膨胀的ACI值降低了,我们也不认为膨胀模型改善了预测结果。

嵌套的泊松回归模型

该模型的泊松比率λ_A|B和λ_B|A由如下方式确定:

1.我们经常假定相比与B,A具有更高的Elo值,这种假定是有道理的,因为通常强队会主导弱队的战术,进而,强队的进球数目会对弱队的进球数目产生影响。比如,如果A队进了5个球,那么B队可能会进1~2个球,因为A队的防守会因为预期的胜利而注意力不集中,如果强队A进了一个球,那么B队是不可能进球的或者只能进一个球,因为A会更加集中于防守,来守护这来之不易的胜利。

2.G_A的泊松比率由如下公式决定:

3.B队进球数目G_B依赖于Elo值E_A=Elo_A以及G_A的结果,因此G_B建模为具有参数λB(E_A,G_A)的泊松分布:

4.A和B比赛的结果通过首先实现G_A,然后实现G_B进行模拟。

这种方法能够通过条件概率的的定义进行判定:

我们利用历史数据进行了模型验证。

评分函数

下面我们想比较前两届世界杯的预测值和真实值的结果,为了这个目的,我们首先引进了下面的公式,对于队伍T:

下面的评分函数测量和比较预测结果和真实结果:

1.极大似然分数:队伍T的错误定义如下,

总的错误分数由累加所有参赛队伍的错误给出:

2.加权差异:队伍T的错误定义如下,

总的错误分数由累加所有参赛队伍的错误给出:

3.布莱尔分数:队伍T的错误定义如下,

总的错误分数由累加所有参赛队伍的错误给出:

4.RPS:队伍T的错误定义如下,

总的错误分数由累加所有参赛队伍的错误给出:

在2014年世界杯结果上进行模型验证

仿真结果如下表格所示,对于每支队伍,我们估计了它到达某一轮或者赢得锦标赛的概率:

这意味着巴西队有20.30%的概率赢得世界杯,30.30%的概率到达决赛,40.30%的概率到达半决赛。最后一列给出了在小组赛离开的概率。独立回归模型和嵌套回归模型的结果如下表所示:

独立回归模型结果

嵌套回归模型结果

在2010年世界杯结果上进行模型验证

独立回归模型和嵌套回归模型的结果如下:

独立回归模型结果

嵌套回归模型结果

2018年世界杯模型

所有模型的预测结果都表示,在考虑球队特点和以下事实的基础上,德国队会赢得冠军:如果德国队和巴西队都赢得了他们的小组赛,他们只会在决赛中相遇。2018年世界杯预测结果:

独立回归模型预测结果

嵌套回归模型预测结果

二维泊松回归模型预测结果

对角膨胀泊松回归模型预测结果

桑基图

我们用桑基图展示了嵌套泊松分布的预测结果,如下图所示。线条的宽度表示了每个球队在不同的赛程胜出的概率。

在大数据文摘后台回复“世界杯”可下载论文~

相关报道:

https://tech.sina.com.cn/roll/2018-06-09/doc-ihcscwxc1117168.shtml?sendweibouid=1642634100

原文发布于微信公众号 - 大数据文摘(BigDataDigest)

原文发表时间:2018-06-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能

网络入侵检测的机器学习算法评估与比较

摘要:入侵检测传统方法的准确性和有效性已经无法满足大数据时代的需求,机器学习算法日趋成为主流。现主要研究侧重于机器学习算法中的支持向量机,但其也有自身的缺点。因...

5297
来自专栏AI科技大本营的专栏

AI行业实践精选: Kaggle竞赛 —— 2017年房价预测

【AI00导读】本文的两位作者分别是杜克大学电气工程博士后和莱斯大学电气与计算机工程系博士生,他们正在参加在纽约数据科学院举办的在线数据科学训练营计划。这篇文章...

6447
来自专栏量化投资与机器学习

【独家发送】机器学习该如何应用到量化投资系列(四)——关于涨跌的思考基于Python

编辑部 微信公众号 关键字全网搜索 『量化投资』:排名第一 『量 化』:排名第二 『机器学习』:排名第三 我们会再接再厉 成为全网优质的金融、技术技...

4017
来自专栏算法channel

2000字详解:极大似然估计, 最大后验概率估计

统计学中,似然函数是一种关于统计模型参数的函数。给定输出x时,关于参数θ的似然函数为L(θ|x),似然函数在数值上等价与给定θ后的

1630
来自专栏Pulsar-V

SLAM初探(二)

相机标定 相机的内参矩阵 在OpenCV的3D重建中(opencv中文网站中:照相机定标与三维场景重建),对摄像机的内参外参有讲解: 外参:摄像机的旋转平移属于...

3955
来自专栏媒矿工厂

视频编码性能提升新途径——面向编码的动态预/后处理技术

2017年9月17日至20日,IEEE国际图像处理会议(ICIP 2017)在北京国家会议中心举办,国内外许多学术界以及工业界的专家学者们都与会进行交流与讨论。...

4475
来自专栏人工智能

网络入侵检测的机器学习算法评估与比较

摘要:入侵检测传统方法的准确性和有效性已经无法满足大数据时代的需求,机器学习算法日趋成为主流。现主要研究侧重于机器学习算法中的支持向量机,但其也有自身的缺点。因...

4538
来自专栏大数据挖掘DT机器学习

文本特征提取方法研究

一、课题背景概述 文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。文本挖掘就是从大...

96212
来自专栏大数据文摘

生成对抗网络(GANs)最新家谱:为你揭秘GANs的前世今生

1252
来自专栏Brian

深度学习笔记-神经网络介绍

---- Deep Learning 学习笔记-第一周 Andrew Ng发布了新课程,业界评价很好。在看的过程中非常不错,我把一些重要的知识和要点进行了总结和...

3234

扫码关注云+社区