当 AI 遇见体育

作者: justin

导语: 体育分析是一个市场价值很大的产业,近年来异常火爆。本文简单科普了AI相关技术在体育产业的几个应用,希望能起到抛砖引玉的效果,吸引更多同学分享相关的资料。

很早以前看过一部体育题材的电影《点球成金》,英文名MoneyBall。片子讲述了布拉特皮特饰演的球队总经理和耶鲁大学经济系毕业的数据分析师一起通过对棒球比赛数据进行挖掘和分析,淘宝联盟里性价比高、拥有一技之长的球员组队,进而取得成功的光荣事迹。该片充分展现了利用数据来提升球队的价值和意义,令人印象非常深刻。一直想对其中用到的技术手段一探究竟,而KDD 2017上的《Athlytics: Data Mining and Machine Learning for Sports Analytics》这个topic实在是再合适不过了。

这个讲座由KonstantinosPelechrinis (University of Pittsburgh),EvangelosPapalexakis (University of California, Riverside),Benjamin Alamar (ESPN)三位合作,学术界+工业界的模式保证了实用性。整个topic还是很研究范儿,数学公式比较多,但解决的问题和方法还是相对比较浅。这里可能有两个原因:1.这个领域人们之前并未足够重视,大部分还是依靠专业球探的经验;2. 这个领域价值很大 (权威机构预测到2021年体育数据分析的市场有47亿美金) 更专业更有价值的方法并未公开。具体方法不再一一赘述,挑三个有趣的分享一下,更多可以参考ppt链接

(1) 评估球员实力:修正的正负值指标Plus−minus

正负值是评估球员实力的主要指标,该指标越高,意味着球员能力越强。以安东尼-5为例,就是安东尼上场的时间内,球队输了5分。但该指标只考虑球员在场的得失分差,明显有很多不合理的地方。比如场上领先时,不代表每个人都对这次的成功合作做出了正面的贡献,退一步讲,即使每个人有正面贡献,贡献少 能力低的也很难通过这种数据被区分出来。

如何区分每个球员对胜利的贡献是其中的关键问题,研究者们借助线性模型对每个回合进行回归建模,因变量(DV)是每回合的得分、自变量(IV)则是所有球员,回归的结果就是每个球员会有一个权重,而这个权重代表了球员对胜利贡献。这里自变量的设计很巧妙,针对每一个回合,我方在场球员用1表示,对方在场球员用-1表示,其他球员用0表示,这样起到的一个效果就是本回合的得分和我方在场球员正相关,和对方在场球员负相关,而和不在场球员无关。多个回合经过模型学习后,每个球员都有了自己的一个权重,越大表示这个球员对胜利的贡献越大,同时由于每个回合都考虑我方在场和对方在场的球员,也把其他球员的影响自动考虑进去。

上图图是NBA 07-08赛季头部和尾部Top5的球员,看起来非常靠谱,和大部分球迷的认知还是比较一致的。

(2) 预测比赛胜负:基于PageRank的Sportsnetrank

简单来说Sportsnetrank基于pagerank的思想,将球队之间的比赛建模成图,结点是球队,边是球队之间的战绩(得失分)。然后在图上运行pagerank,就可以得到每个球队的实力评估分数,pr值越大,球队实力越强,胜率越高。下图是基于NFL联赛构建出来的图,结点越大,球队越强。边越粗,说明球队交手时差距越大。

预测比赛胜负时,可以简单根据之前的交手记录构建图,然后计算出每个球队的目前实力。当两个球队交手时,实力更强的球队预测为胜。就是这样一个简单的策略,就能取得很好的效果,按作者的原话是达到了stat-of-the-art的水平。

上图是NFL联赛预测的结果和真实的结果的比较,可以看出确实不简单。

(3) 战术有效性:挡拆识别及评估

挡拆(防守)是NBA最常见的战术,也是得分最有效的手段。有研究者建立并实验了一套自动识别常见挡拆防守套路的系统。利用SportVU球员追踪数据和监督式机器学习方法,建立了一套学习分类器,用于分辨防守挡拆的四种方式:“挤过(over)”、“绕过(under)”、“包夹(trap)”、“换防(switch)”。具体含义如下:

挤过:持球防守者在持球人和掩护者之间,即从掩护上方挤过;

绕过:持球防守者不在持球人和掩护者之间,即从掩护下方绕过;

换防:持球防守者和掩护防守者交换防守对象;

包夹:持球防守者和掩护防守者夹击持球人。

然后作者手动标记了四种类型的若干样本,并进一步训练构建了分类器来发现更多的挡拆。最终识别结果如下:全部270823个挡拆,“挤过”146314个,“绕过”69721个,“换防”37336个,“包夹”17451个。对这些进一步分析可以得到以下一些有趣的结论:

a. 各赛季四类挡拆分布基本一致,但可以注意到“包夹”的比例略有提高,说明随着个人得分能力更强后,包夹会越来越多?

b. 哪些组合不来电?

下图比较了不同防守组合面对挡拆的每回合失分以及他们各自与所有球员搭档的平均每回合失分。克里斯-保罗和布雷克-格里芬是使用挤过的效果是最差的之一,平均失去1.2分。另外伊巴卡和雷吉-杰克逊组合的换防很差,但各自挡拆防守效率很接近。【题外话,如今这两对组合已经都被拆散了,是不是经理看到了这个研究?】

结语:AI在体育产业的应用才刚刚开始,还有很多amazing的应用正在展开或者即将展开。感兴趣的同学可以自行搜索相关资料进行学习研究。Slides地址:http://www.pitt.edu/~kpele/kdd2017-tutorial.html

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏专知

【专知荟萃02】自然语言处理NLP知识资料大全集(入门/进阶/论文/Toolkit/数据/综述/专家等)(附pdf下载)

【导读】主题荟萃知识是专知的核心功能之一,为用户提供AI领域系统性的知识学习服务。主题荟萃为用户提供全网关于该主题的精华(Awesome)知识资料收录整理,使得...

1.2K8
来自专栏机器之心

前沿 | 潘建伟团队用6个光子实现18个量子比特纠缠,再次刷新世界纪录

据介绍,潘建伟及其同事陆朝阳、刘乃乐、汪喜林等通过调控六个光子的偏振、路径和轨道角动量三个自由度,实现了 18 个光量子比特的纠缠。该成果以「编辑推荐」的形式于...

1142
来自专栏大数据文摘

NBA球星是如何投篮的?把詹姆斯、库里的投篮数据图3D打印出来

2017-2018的NBA赛季已经落幕。虽然勇士夺冠的结果没有出乎太多人的意料,但是一些扣人心弦的戏码还是令人印象深刻。

760
来自专栏DT数据侠

如何才能像勇士队一样科学地扔三分球?

这两年库里和他的金州勇士队让整个NBA都刮起三分雨。几乎所有的球队都开始围绕三分球布置战术,甚至连高大的中锋们都不得不跑出去扔起了三分球。“小球”风格被公认成为...

710
来自专栏腾讯高校合作

【IJCAI系列报道】最牛论文

小编 这是一篇在IJCAI-15大会与会者微信朋友圈疯传的论文。他的表达方式如此古典、天然!手写、剪切、粘贴三样技能一个也没少,还在箭头所指处放了...

3134
来自专栏量子位

詹皇比肩乔丹!如何防住他?这是AI给出的回答

这是腾讯体育给出的评价。今天上午,依靠詹姆斯关键时刻的发挥,NBA季后赛骑士104-100险胜步行者,将总比分扳成2-2平。

911
来自专栏CDA数据分析师

逢赌必赢的秘密

本文由CDA作者库成员麻赛原创,并授权发布 原文来自公众号麻大湿讲数据(ID:madashi_data)。 ? 首先是麻大湿的老实交代 这篇文章标题党了,你不能...

2198
来自专栏新智元

【北马助跑】KDD 2017:体育运动分析中的数据挖掘与机器学习

【新智元导读】北京马拉松今天正在如火如荼地跑着,AI在体育产业的应用越来越受到关注。这篇文章是对KDD 2017上一篇《Athlytics:体育运动分析中的数据...

2586
来自专栏量子位

“快到没朋友”的目标检测模型YOLO v3问世,之后arXiv垮掉了…

一是以“快到没朋友”著称的流行目标检测模型YOLO推出全新v3版,新版本又双叒叕提升了精度和速度。在实现相近性能时,YOLOv3比SSD速度提高3倍,比Reti...

822
来自专栏斑斓

统计学中的相关性分析

掌握一点儿统计学介绍了统计学中常用到的函数,特别重点介绍了Standard Deviation(标准差)。接下来结合一个案例来谈谈相关性(Correlation...

2937

扫码关注云+社区