大数据预测世界杯靠谱吗?

今年大数据取代了章鱼保罗,成为预测世界杯战局的热门手段。不过这种预测靠谱吗?大数据真的能预测世界杯?

腾讯科技:

目前采用大数据预测世界杯的,既有百度这样的互联网公司,也有德银这样的知名投行。

一、预测确实使用了大量数据

通过采访百度的相关人士,我们发现百度预测世界杯的主要数据来源包括:百度搜索数据,球队基础数据,球员基础数据,赔率市场数据。百度大数据通过分析过去5 年987支球队的3.7万场比赛数据,共涉及29610名球员,112,285,543条相关数据,构建了足球赛事预测模型。

为了验证模型是否准确,百度用2010年南非世界杯的淘汰赛数据进行了准确性验证,具体方法是为预测模型输入2010年世界杯期间的比赛、球队、球员等相关 数据,由预测模型计算出淘汰赛比赛结果,与当时的比赛结果进行对比,结果显示16场淘汰赛算准了12场,准确率为75%。

德银则是根据各个球队的FIFA排名、历史战绩、球员构成和赌球赔率等因素,建立了量化分析模型,并根据复杂计算得到一份夺冠概率表格。其中巴西名列第一,紧随其后的是德国、西班牙、法国。然后再根据某些假设,得出最终的冠军得主。

二、推算逻辑并不完美

德银推算出的最终的冠军得主是在概率表的基础上得出的。具体来说,德银从夺冠概率表格中挑选出了前10强,这10强依据夺冠的概率排名分别是巴西、德国、西班牙、法国、阿根廷、意大利、荷兰、葡萄牙、乌拉圭和英格兰。德银认为最终的冠军只能从这十家选出。

在筛选的过程中,德银提出了“轮流转周期”概念,德银认为过去19届世界杯当中,有3次是连续四届世界杯由不同的四支球队夺冠,还有2次是连续两届世界杯由不同的两只球队夺冠,剩下的3届即从2002-2010年的三届世界杯构成了德银心中又一个四届不同得主的轮流转周期的前3/4,德银由此排除了2014年巴西、意大利和西班牙夺冠的可能性,因为它们是过去三届世界杯的冠军得主。

这样就剩德国、法国、阿根廷、荷兰、葡萄牙、乌拉圭和英格兰七只队伍,然后德银根据另一个假设:强队会回来,即夺取过世界杯的强队,未来必然还会夺取世界杯或至少打入一次决赛。而英格兰就在1966年夺过一次冠,此后至今从未进过决赛,德银据此认为英格兰夺冠可能性大增。

最后,本届英格兰队有6名队员来自利物浦,而正是在利物浦的球员最多的1966年,英格兰获得了历史上唯一一次世界杯冠军。同时德银报告的主笔人承认自己是利物浦队的铁杆球迷,因此,最后确定英格兰将获得世界杯的冠军。

不难发现其中的逻辑非常牵强。德银似乎只为了得出一个想要的结果而设置了某个模型或假设,而非根据确定的科学模型来推测最终的结果。有“本末倒置”之嫌。

百度相对来说更加科学一些,起码推测的因果顺序没有颠倒。但是百度的推测显然也有漏洞,百度的模型经过自己的验证之后,准确率也只有75%。而且这个验证是输入过去的数字来推测,但是过去准确的未来并不一定准确。

三、“醉翁之意”不在预测本身

用大数据来预测世界杯比用章鱼保罗更加可信(起码从表面上来看是这样)。不过这种预测活动更像是利用世界杯而进行的营销活动,目的并不是为了得出某个确定的结论,而是为了吸引网友的参与。

百度的世界杯预测还跟足彩投注活动结合,通过预测出夺冠率这一数字,为用户购买足球彩票提供参考,更像一场商业活动。

不过,在世界杯到来的前夕,网友们通过企业所做的预测得知哪支球队可以夺冠也是一种娱乐。对于预测结果到底有多大的可信度不必太过认真。

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2014-06-13

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技大本营的专栏

图灵奖得主姚期智最新论文出炉!中秋人家看月亮,AI人看论文

参与 | 周翔、reason_W 今年2月,世界著名计算机科学家姚期智放弃外国国籍成为中国公民,正式转为中国科学院院士,加入中国科学院信息技术科学部。 为什么这...

39211
来自专栏大数据挖掘DT机器学习

【趣味】数据挖掘(8)——K-平均聚类及蛋鸡悖论

本文从农村中学并迁选址问题出发,介绍了数据挖掘十大算法中位居第二的K-平均聚类,后又借用牛顿迭代原理,议论蛋鸡悖论。从过去的数据挖掘课程PPT取些素材,...

3596
来自专栏量化投资与机器学习

【史上最详细】WorldQuant Alpha 101 因子 #001 研究

公众号与点宽DigQuant量化社区开展了本期研究合作。 大家应该前段时间就知道 Alpha 101 了吧,很多人有去做,但是做的大多数都是简单的进行了一个复现...

5269
来自专栏专知

谷歌2018博士生奖研金出炉:39人上榜,8位华人学生入选

【导读】Google 博士生奖研金项目(Google Ph.D Fellowship Program)创立于2009年,以奖励表彰在计算机学科及其相关学科或者其...

3746
来自专栏数据派THU

可能是史上最全机器学习和Python速查表(附下载链接)

来源:网路冷眼 作者:Hanson 本文长度为680字,建议阅读5分钟 本文为你分享有关机器学习、Python和相关数学知识的速查表大全。 机器学习有很多方面。...

3205
来自专栏AI研习社

数学来了 | 数学真神秘?线性代数也就这么回事儿

历史长河里,世世代代的教授和教科书撰写人,总是用荒谬复杂的矩阵计算,掩盖数学真实的简洁模样。

1001
来自专栏量子位

世界杯押注还得看技术流,这个预测AI把赔率也算上了

732
来自专栏PaddlePaddle

用深度学习预测世界杯胜率,有多大把握?

预测其实是需要综合多方面因素考量的,数据维度可能爆炸到无法统计,同样如果想借助深度学习预测,在开始之前一定要确保避开这几个雷区

1113
来自专栏腾讯大讲堂的专栏

大数据预测世界杯靠谱吗?

网友“伟仔”: 今年大数据取代了章鱼保罗,成为预测世界杯战局的热门手段。不过这种预测靠谱吗?大数据真的能预测世界杯? 腾讯科技: 目前采用大数据预测世界杯的...

19210
来自专栏深度学习自然语言处理

给大家推荐一些深度学习资源

以上是一些免费课程,如果想要保证听课质量,保证有答疑和练习,我们也推荐网易云课堂一些收费课程:

2202

扫码关注云+社区

领取腾讯云代金券