当 AI 遇见体育

作者: justin

导语: 体育分析是一个市场价值很大的产业,近年来异常火爆。本文简单科普了AI相关技术在体育产业的几个应用,希望能起到抛砖引玉的效果,吸引更多同学分享相关的资料。

很早以前看过一部体育题材的电影《点球成金》,英文名MoneyBall。片子讲述了布拉特皮特饰演的球队总经理和耶鲁大学经济系毕业的数据分析师一起通过对棒球比赛数据进行挖掘和分析,淘宝联盟里性价比高、拥有一技之长的球员组队,进而取得成功的光荣事迹。该片充分展现了利用数据来提升球队的价值和意义,令人印象非常深刻。一直想对其中用到的技术手段一探究竟,而KDD 2017上的《Athlytics: Data Mining and Machine Learning for Sports Analytics》这个topic实在是再合适不过了。

这个讲座由KonstantinosPelechrinis (University of Pittsburgh),EvangelosPapalexakis (University of California, Riverside),Benjamin Alamar (ESPN)三位合作,学术界+工业界的模式保证了实用性。整个topic还是很研究范儿,数学公式比较多,但解决的问题和方法还是相对比较浅。这里可能有两个原因:1.这个领域人们之前并未足够重视,大部分还是依靠专业球探的经验;2. 这个领域价值很大 (权威机构预测到2021年体育数据分析的市场有47亿美金) 更专业更有价值的方法并未公开。具体方法不再一一赘述,挑三个有趣的分享一下,更多可以参考ppt链接

(1) 评估球员实力:修正的正负值指标Plus−minus

正负值是评估球员实力的主要指标,该指标越高,意味着球员能力越强。以安东尼-5为例,就是安东尼上场的时间内,球队输了5分。但该指标只考虑球员在场的得失分差,明显有很多不合理的地方。比如场上领先时,不代表每个人都对这次的成功合作做出了正面的贡献,退一步讲,即使每个人有正面贡献,贡献少 能力低的也很难通过这种数据被区分出来。

如何区分每个球员对胜利的贡献是其中的关键问题,研究者们借助线性模型对每个回合进行回归建模,因变量(DV)是每回合的得分、自变量(IV)则是所有球员,回归的结果就是每个球员会有一个权重,而这个权重代表了球员对胜利贡献。这里自变量的设计很巧妙,针对每一个回合,我方在场球员用1表示,对方在场球员用-1表示,其他球员用0表示,这样起到的一个效果就是本回合的得分和我方在场球员正相关,和对方在场球员负相关,而和不在场球员无关。多个回合经过模型学习后,每个球员都有了自己的一个权重,越大表示这个球员对胜利的贡献越大,同时由于每个回合都考虑我方在场和对方在场的球员,也把其他球员的影响自动考虑进去。

上图图是NBA 07-08赛季头部和尾部Top5的球员,看起来非常靠谱,和大部分球迷的认知还是比较一致的。

(2) 预测比赛胜负:基于PageRank的Sportsnetrank

简单来说Sportsnetrank基于pagerank的思想,将球队之间的比赛建模成图,结点是球队,边是球队之间的战绩(得失分)。然后在图上运行pagerank,就可以得到每个球队的实力评估分数,pr值越大,球队实力越强,胜率越高。下图是基于NFL联赛构建出来的图,结点越大,球队越强。边越粗,说明球队交手时差距越大。

预测比赛胜负时,可以简单根据之前的交手记录构建图,然后计算出每个球队的目前实力。当两个球队交手时,实力更强的球队预测为胜。就是这样一个简单的策略,就能取得很好的效果,按作者的原话是达到了stat-of-the-art的水平。

上图是NFL联赛预测的结果和真实的结果的比较,可以看出确实不简单。

(3) 战术有效性:挡拆识别及评估

挡拆(防守)是NBA最常见的战术,也是得分最有效的手段。有研究者建立并实验了一套自动识别常见挡拆防守套路的系统。利用SportVU球员追踪数据和监督式机器学习方法,建立了一套学习分类器,用于分辨防守挡拆的四种方式:“挤过(over)”、“绕过(under)”、“包夹(trap)”、“换防(switch)”。具体含义如下:

挤过:持球防守者在持球人和掩护者之间,即从掩护上方挤过;

绕过:持球防守者不在持球人和掩护者之间,即从掩护下方绕过;

换防:持球防守者和掩护防守者交换防守对象;

包夹:持球防守者和掩护防守者夹击持球人。

然后作者手动标记了四种类型的若干样本,并进一步训练构建了分类器来发现更多的挡拆。最终识别结果如下:全部270823个挡拆,“挤过”146314个,“绕过”69721个,“换防”37336个,“包夹”17451个。对这些进一步分析可以得到以下一些有趣的结论:

a. 各赛季四类挡拆分布基本一致,但可以注意到“包夹”的比例略有提高,说明随着个人得分能力更强后,包夹会越来越多?

b. 哪些组合不来电?

下图比较了不同防守组合面对挡拆的每回合失分以及他们各自与所有球员搭档的平均每回合失分。克里斯-保罗和布雷克-格里芬是使用挤过的效果是最差的之一,平均失去1.2分。另外伊巴卡和雷吉-杰克逊组合的换防很差,但各自挡拆防守效率很接近。【题外话,如今这两对组合已经都被拆散了,是不是经理看到了这个研究?】

结语:AI在体育产业的应用才刚刚开始,还有很多amazing的应用正在展开或者即将展开。感兴趣的同学可以自行搜索相关资料进行学习研究。Slides地址:http://www.pitt.edu/~kpele/kdd2017-tutorial.html

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏DT数据侠

NBA的三分球革命:数据揭秘“三分策略是否真有效”?

新赛季的NBA已经在本周打响了第一枪,热血的全球第一篮球联赛的热情高涨,同时高涨的还有大家对数据科技的追求。本期DT数据侠与纽约数据科学学院合作的数据专栏中,作...

862
来自专栏新智元

【2018世界杯数据分析】梅西为什么进不了球?

1032
来自专栏量子位

人类一败涂地!OpenAI血虐Dota2半职业战队!马斯克仅评价了两个字

北京时间早上5点58分,人类半职业Dota高手队对战OpenAI Five第二局接近尾声,被称为“大老师”的dota plus大数据对人类战队宣判了死刑。

850
来自专栏新智元

【北马助跑】KDD 2017:体育运动分析中的数据挖掘与机器学习

【新智元导读】北京马拉松今天正在如火如荼地跑着,AI在体育产业的应用越来越受到关注。这篇文章是对KDD 2017上一篇《Athlytics:体育运动分析中的数据...

2636
来自专栏大数据文摘

「体育大数据」分析解读NBA背后的大数据

28310
来自专栏PPV课数据科学社区

世界杯11大数据:20位前冠军出战

随着全部32支参赛队的23人名单基本敲定,国际足联官方列出本届杯赛的11大数据,本届杯赛共有236人参加过世界杯,包括20位前冠军,最年轻及最年...

3136
来自专栏华章科技

世界杯29场点球大战的269个点球数据都在这里!霍金的公式帮了英格兰吗?

进入淘汰赛阶段,点球大战这种残酷的游戏模式就已开启,西班牙、丹麦和哥伦比亚成了最新一波悲情主角。相比之下,英格兰历史上第1次在世界杯赛场上赢得点球大战却成了刷屏...

663
来自专栏ACM算法日常

谁是史上最强将领?算法证明:拿破仑

编者按:本文编译自towardsdatascience原标题为Napoleon was the Best General Ever, and t...

931
来自专栏海天一树

青少年信息学奥林匹克竞赛流程(完整版本)

全国青少年信息学奥林匹克联赛(National Olympiad in Informatics in Provinces,简称NOIP)。初赛在每年的10月,复...

1312
来自专栏大数据文摘

「体育大数据」职业体育大数据应用之橄榄球

17610

扫码关注云+社区