提要
2022年12月18日,在卡塔尔世界杯决赛中,阿根廷通过点球大战以3-3(点球4-2)战胜法国队,历史第三次获得世界杯冠军。本期将基于贝叶斯理论分析一下,阿根廷为什么比法国厉害?
TL;DR
* 伽马分布(Gamma):用于建模进球率;
* 泊松分布(Poisson):用于建模进球数
* 指数分布(Exponential)用于建模进球时间间隔;
2022年12月18日,在卡塔尔世界杯决赛中,阿根廷通过点球大战以3-3(点球4-2)战胜法国队,历史第三次获得世界杯冠军。基于这个结果:
为了回答上面的问题,我将对问题进行以下假设:
当然,这些假设在现实世界中都不是完全正确的,但我认为它们是合理的简化。
根据前几届世界杯的数据,我估计每支球队平均每场比赛进球约3.1个。所以我将lam的平均值设置为3.1。
对于一支优秀的球队对抗一支糟糕的球队,我们期望拉姆能更高;对于一支糟糕的球队和一支优秀的球队,我们预计比分会更低。为了对进球率的分布进行建模,我将使用伽马分布。
我们所设想的每一个可能的进球率 λ,即假设 H。
世界杯结果(阿根廷7: 法国5)即为我们观察到的数据 D。
我们可以再做一个假设,在一场比赛中进球的数量遵循具有进球率的泊松分布,得分的概率为:
所以我们可以将似然函数定义为:给定假设λ时,观察到有k个进球的概率。
现在我们有了每支球队的后验分布,我们可以回答第一个问题:我们有多大的信心说阿根廷是一支比法国更好的球队?
在模型中,“更好”意味着对对手有更高的进球率。我们可以使用后验分布来计算从阿根廷的分布中得出的随机值超过从法国的分布中得到的值的概率。
现在我们可以回答第二个问题:如果同样的球队再次比赛,阿根廷获胜的机会有多大?为了回答这个问题,我们将生成“后验预测分布”,即我们期望球队进球的数量。
如果我们知道进球率lam,那么进球的分布将是参数为lam的泊松分布。由于我们不知道lam,目标的分布是具有不同lam值的泊松分布的混合。
0
参考:
《贝叶斯思维》 第七章 预测 Think Bayes: https://www.greenteapress.com/thinkbayes/html/thinkbayes008.html Think Bayes2: https://allendowney.github.io/ThinkBayes2/chap08.html Average number of goals scored per match at the FIFA World Cup from 1930 to 2022: https://www.statista.com/statistics/269031/goals-scored-per-game-at-the-fifa-world-cup-since-1930/