足球大数据:统计和分析之间岂止一步之遥

我们当然希望从这些简单的描述性的统计数据背后能够挖掘出更多关于足球比赛本质的信息。虽然这方面已经开展了很多工作,也有了一些进展,但是还只是在萌芽阶段。

相比于其他体育运动,足球的数据统计和分析工作开展得很晚,而且鉴于比赛的特殊性也没有太多的经验可供参考。不过,随着大数据时代的到来,这种趋势越来越明显,我们需要做的不仅是搜集数据,而且需要更好的分析数据以服务于这项运动。已经看到,越来越多的先行者已经开始涌入足球数据分析领域,而且得到了不错的结果,不过同志们还需继续努力啊!

在棒球分析领域有一个学派认为,如果没有这么多技术统计数据的话,棒球运动会发展的更好。之所以这么讲是因为他们声称这些目前被统计的数据不一定就是真实反映棒球比赛的决定性数据,他们只是最易于统计的数据而已。不管你同不同意这个观点,这确实直指棒球数据分析的痛处,仍然是人们争论的焦点。

这不是说你相不相信这些数据,而是说新的数据是否真的能取代原有的统计结果。就算是偶尔看看棒球打发时间的人也会更习惯原来的统计结果,部分原因是这些数据已经在棒球运动中存在了很长时间,事实上,人们总是习惯于早已熟知的数据统计,而对于学习新的数据分析结果保持谨慎态度。

对于足球来说,以前几乎没有什么统计数据。事实上,对于这么一个流畅性的比赛来说,也很难不借助科技手段去统计一些诸如传球次数等数据。人们开始系统性的记录一些关于比赛的统计数据也就是近十年来的事情,因为现在这个时代人们都乐于收集和分析数据,同时可以从中获得收益。类似OPTA 和Prozone 等专注数据统计分析的公司已经开始涌现,他们的盈利模式也是将这些数据卖给俱乐部或者媒体(事实上像ESPN,SKY Sports 等媒体的数据统计板块都是由OPTA 提供支撑的)。

OPTA员工在采集比赛数据

就像曾经在棒球或其他一些数据导向的运动中探索更新更先进的评价指标那样,现在人们也迫切希望能够在足球领域找到一些新的统计指标,因为有启示性的衡量指标必然是数据分析的产物。不过这不是一蹴而就的,因为现在数据统计公司在足球领域中做的数据收集工作仅仅是一百年前棒球领域就做完了的。

现在,足球终于有了大量的数据,下一步就是怎么样更好的利用这些数据。不同于棒球等其他一些主流的运动(这些运动领域数据统计早已有之,数据分析只是近来兴起),足球领域目前比较独特的情景是数据的统计和分析是在同步展开的。

数据统计

让我们回到开头那个问题,如果没有技术统计数据,棒球是否会发展的更好?这个问题对于足球数据统计来说至关重要。

近年来涌现出一批诸如WhoScored、Squawka和FourFourTwo’s Stats Zone(均由OPTA 提供数据支持)之类的网站,他们把比赛的数据统计结果更好的展现给了球迷。这些网站主要提供个人和球队的比赛统计信息,这听起来让人觉得有点像棒球的技术统计数据,他们提供的信息让你可以知道哪个球员一场比赛乃至一个赛季的各项统计数据,还有一些类似热点图和传球线路图等的图片方式更好的呈现这些数据。

FourFourTwo 的Stats Zone 软件中的球员数据界面

但是他们并没有进一步去提供如何利用这些数据进行比赛分析的内容。某某后卫的场均拦截率很高对球队很重要吗?某某射手的低得分率是否真的意味着他是一个浪射帝,以后应该多传球呢?抑或仅仅因为他运气太糟糕?一名传球成功率高达95%的防守球员要比一名传球成功率只有78%的边锋更适合下底传中么?

我们拥有这些数据,但是我们并不能解决这些问题,因为我们不清楚到底哪些数据对于比赛分析真正重要。

这种景象可以让人闪回到棒球领域刚开始进行数据革新的时候:如果你不知道他们到底有什么用的话,为什么要引用这些统计数据呢?这就是我不明白为什么在过去50多年的棒球直播中总要提到类似RBI(Run battled in,棒球术语:打点) 这种无用的数据!

毫无疑问,使用数据针对某些球员或球队的优异成绩做出一些无法证明的假设绝对是误入歧途。但是,这并不意味着不能使用这些数据。

如果反对使用这些统计数据同时意味着反对使用这些数据来描述比赛信息,以及球队和球员的表现。尽管棒球的传统统计数据无法有效分析及预测未来的比赛,但是他们对于描述历史信息的描述是很有用的。试着不用任何统计数据讲一下巴尔的摩金莺队过去一周的表现,或者解释一下Clayton Kershaw 有多么棒。

虽然原来的统计数据无法解释为什么球员和球队的表现是好还是坏,以及未来会怎样;但是使用这些数据来描述球员和球队的表现还是很直观的。

十年前,可能没人知道哈维每场比赛究竟传了多少次球,成功率是多少。没有这些信息,大多数人们也无从深入了解哈维究竟有多么伟大,或者他在什么时候状态开始有所下滑。同样的,你在观看洋基队巨星Derek Jeter 的比赛时,你只能说:“三年前,他的打击率非常高,今年他的该项数据有所下滑。”

即便是最原始的统计数据也会让我们清楚地了解比赛中发生了什么。如果没有这一步的积淀,接下来我们就很难解释为什么这些情况会发生,或者接下来会发生什么。这些作为数据分析基石的原始统计数据在美国体育中广泛存在,但是在足球领域却是一个全新的概念。

数据分析

我们当然希望从这些简单的描述性的统计数据背后能够挖掘出更多关于足球比赛本质的信息。虽然这方面已经开展了很多工作,也有了一些进展,但是还只是在萌芽阶段。

总射门率(Total Shots Ratio,TSR)是高级足球统计数据的鼻祖,他最初是由James Grayson 从冰球领域引入到足球中的。这个指标设计的初衷十分简单:强队一般情况下射门次数都比较多,同时他们会让对方很少有起脚的机会。

这项统计数据的威力在于它有很好的自相关性,并且可以更好的预测结果。实证分析显示球队过往的TSR 能够预测该队未来的TSR,同时它对于未来比赛进球数和结果的预测要比基于球队过去的进球数和结果效果更佳。

在赛季初进行排名预测的时候,TSR 是一个很好的先行指标(虽然很多砖家会抛开这项数据,他们凭自己的直觉预测最终排名,这里有个梗,该指标预测的结果显示曼联最终排名不可能进入前三,但是所谓的砖家,其实就是作者自己觉得曼联前三有戏,我们只能留待赛季末再来挖坟了~),当然在实际管理球队的时候它就不见得那么灵验了。

但是在冰球比赛中,可以随时调整球队阵容,而且射门次数很高,这使得能够我们能够细化分析哪名球员在球场上的时候球队表现最佳。而在足球比赛中,只有三次换人名额,同时射门次数也少的可怜,这就使得TSR 对于球员层面的评估作用很有限(至少目前没有很好的结果)。

最近,期望进球数(Expected Goals,ExG)又作为一个新的衡量指标出现。从预测的角度来看,ExG 与TSR 的表现结果不相上下(Grayson 对比了这两项指标,并给出了一些理论分析),但是ExG 的一个好处是它既可以预测球队的表现,也能预测球员个人的表现。换句话说,你可以通过球员的总进球数,并且基于他们的射门次数来预知他们未来的进球数。

将射门数据进行分解有点类似于棒球中将场内安打率(BABIP)从平均打击率(AVG)中分解出来。结果证明,与球员一般难以有持续高或低的BABIP 类似,球员们也很难长期的踢出高于或低于他本身ExG 的数据。但是不得不又一次指出的是,这些工作仅仅只是足球数据分析的起步阶段。

调和数据统计与分析

你可能注意到的一个问题是目前大量的分析工作都与射门有关,但是这并不完全对。比如Caley 提出的ExG 模型中就将导致射门的传球类型考虑在内。StatsBomb 的Ted Knutson 创造了一个叫做球员雷达(player radars)的工具通过加入诸如球员比赛时间、本方半场控球率等指标来更全面更精确的描绘球员的统计数据

当然值得注意的是,这些数据如何进行综合集成,从而形成球队的数据又是一个令人头大的问题。但是就目前来说,数据分析工作中还未囊括将手头已有的统计数据以矩阵的形式综合起来分析。

这种情况的出现有很多原因,部分原因是目前公共领域的专家仅仅投入了少量时间来研究这些信息。而且,即便你想做大量的分析,目前的统计数据可能只有五到十年,不像棒球那样有近百年的大量数据,这使得你无法得出更有效的结论。

很有可能足球领域很多重要的数据我们还没有搜集到呢,与此同时,一些统计数据可能除了描述之外再无其他分析价值。关键是我们如何找到那些真正值得分析的数据。

说到底,我们需要统计数据来辅助分析,而分析的目的则是为了找到足球领域各种问题的答案。但是,如果棒球领域发生的事情对我们有所启发的话,那就是使用统计数据既有可能帮助我们真正发现有价值的信息,也有可能让我们误入歧途得到错误的结论。

足球领域内的统计数据太少了,以至于任何指标都需要合成,但是足球数据统计方面落后棒球一百年并不意味着足球就不会有自己特有的评价指标。而且足球领域确实有一点优势,那就是在棒球运动中,那些基于统计数据的各种假设猜测已经流行了一百年之后才被数据分析所冲击,而足球领域,数据统计和数据分析是齐头并进的。

本文摘自界面网文章 由百分号团队整理编撰

P.S.如果您认为这篇文章不错,请分享至朋友圈。分享知识,传递快乐 :)

PPV课其他精彩文章:


1、回复“干货”查看干货 数据分析师完整知识结构

2、回复“答案”查看大数据Hadoop面试笔试题及答案

3、回复“设计”查看这是我见过最逆天的设计,令人惊叹叫绝

4、回复“可视化”查看数据可视化专题-数据可视化案例与工具

5、回复“禅师”查看当禅师遇到一位理科生,后来禅师疯了!!知识无极限

6、回复“啤酒”查看数据挖掘关联注明案例-啤酒喝尿布

7、回复“栋察”查看大数据栋察——大数据时代的历史机遇连载

8、回复“数据咖”查看数据咖——PPV课数据爱好者俱乐部省分会会长招募

9、回复“每日一课”查看【每日一课】手机在线视频集锦

PPV课大数据ID: ppvke123 (长按可复制)

大数据人才的摇篮!专注大数据行业人才的培养。每日一课,大数据(EXCEL、SAS、SPSS、Hadoop、CDA)视频课程。大数据资讯,每日分享!数据咖—PPV课数据爱好者俱乐部!

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2015-05-17

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器学习人工学weekly

机器学习人工学weekly-2018/2/11

注意下面很多链接需要科学上网,无奈国情如此 1. sentiment analysis的survey文章,前面略显累赘,后面还行 链接:https://arxi...

370150
来自专栏新智元

【AI也梵高】文森特系统用深度学习将涂鸦变成艺术创作

【新智元导读】剑桥顾问公司的研究人员开发了一个名叫“文森特”的AI系统,使用深度学习,能够自动将涂鸦补全成类似古典大师风格的作品。研究人员表示,文森特是首个能够...

38190
来自专栏数据科学与人工智能

AI如何从令人失望到大行其道

人工智能(AI)问世之初曾经狂妄自大、令人失望,它如何突然变成当今最热门的技术领域?这个词语首次出现在1956年的一份研究计划书中。该计划书写道:“只要精心挑选...

36690
来自专栏新智元

Facebook 开源机器学习库 TorchCraft(附 LeCun 深度学习教学视频)

【新智元导读】Facebook 日前开源了机器学习库 TorchCraft,方便研究人员使用控制器,编写能够玩星际争霸游戏的智能代理。此外,本周五 FAIR 主...

44670
来自专栏机器之心

Facebook田渊栋开源游戏平台ELF,简化版《星际争霸》完美测试人工智能

选自Facebook 作者:田渊栋 机器之心编译 参与:李泽南、李亚洲 在人工智能有能力进入现实世界之前,游戏是一种完美的测试环境。此前,谷歌 DeepMind...

297110
来自专栏新智元

【AI大突破】Ian Goodfellow: 2016年是谷歌翻译,17年看医药领域

【新智元导读】Future of Life 网站采访了 Richard Mallah 和 Ian Goodfellow,讨论 AI 在过去一年取得的进步,以及对...

26450
来自专栏企鹅号快讯

DeepMind AI只需要4个小时的自我训练即可成为国际象棋霸主

图片来自网络 我们在10月份了解到了DeepMind主导的游戏AI 。其新的神经网络不断完善自己去击败了先期优点,在感知方面,为了实现自我训练的成功,人工智能只...

23360
来自专栏机器之心

学界 | 阿里人工智能新研究:在星际争霸中实现多兵种协同作战

选自arXiv 作者:Peng Peng等 机器之心编译 参与:李泽南 在围棋和德州扑克后,RTS 游戏《星际争霸》已经成为人工智能研究者们征服的下一个目标。近...

436110
来自专栏AI科技大本营的专栏

算法还是算力?周志华微博引爆深度学习的“鸡生蛋,蛋生鸡”问题

作者 | 波波 上周,由强化学习加持的AlphaZero,把DeepMind在围棋上的突破成功泛化到其他棋类游戏:8小时打败李世石版AlphaGo,4小时击败国...

39160
来自专栏数据的力量

史上最好的思维导图中文教程

12410

扫码关注云+社区

领取腾讯云代金券