当 AI 遇见体育

作者: justin

导语: 体育分析是一个市场价值很大的产业,近年来异常火爆。本文简单科普了AI相关技术在体育产业的几个应用,希望能起到抛砖引玉的效果,吸引更多同学分享相关的资料。

很早以前看过一部体育题材的电影《点球成金》,英文名MoneyBall。片子讲述了布拉特皮特饰演的球队总经理和耶鲁大学经济系毕业的数据分析师一起通过对棒球比赛数据进行挖掘和分析,淘宝联盟里性价比高、拥有一技之长的球员组队,进而取得成功的光荣事迹。该片充分展现了利用数据来提升球队的价值和意义,令人印象非常深刻。一直想对其中用到的技术手段一探究竟,而KDD 2017上的《Athlytics: Data Mining and Machine Learning for Sports Analytics》这个topic实在是再合适不过了。

这个讲座由KonstantinosPelechrinis (University of Pittsburgh),EvangelosPapalexakis (University of California, Riverside),Benjamin Alamar (ESPN)三位合作,学术界+工业界的模式保证了实用性。整个topic还是很研究范儿,数学公式比较多,但解决的问题和方法还是相对比较浅。这里可能有两个原因:1.这个领域人们之前并未足够重视,大部分还是依靠专业球探的经验;2. 这个领域价值很大 (权威机构预测到2021年体育数据分析的市场有47亿美金) 更专业更有价值的方法并未公开。具体方法不再一一赘述,挑三个有趣的分享一下,更多可以参考ppt链接

(1) 评估球员实力:修正的正负值指标Plus−minus

正负值是评估球员实力的主要指标,该指标越高,意味着球员能力越强。以安东尼-5为例,就是安东尼上场的时间内,球队输了5分。但该指标只考虑球员在场的得失分差,明显有很多不合理的地方。比如场上领先时,不代表每个人都对这次的成功合作做出了正面的贡献,退一步讲,即使每个人有正面贡献,贡献少 能力低的也很难通过这种数据被区分出来。

如何区分每个球员对胜利的贡献是其中的关键问题,研究者们借助线性模型对每个回合进行回归建模,因变量(DV)是每回合的得分、自变量(IV)则是所有球员,回归的结果就是每个球员会有一个权重,而这个权重代表了球员对胜利贡献。这里自变量的设计很巧妙,针对每一个回合,我方在场球员用1表示,对方在场球员用-1表示,其他球员用0表示,这样起到的一个效果就是本回合的得分和我方在场球员正相关,和对方在场球员负相关,而和不在场球员无关。多个回合经过模型学习后,每个球员都有了自己的一个权重,越大表示这个球员对胜利的贡献越大,同时由于每个回合都考虑我方在场和对方在场的球员,也把其他球员的影响自动考虑进去。

上图图是NBA 07-08赛季头部和尾部Top5的球员,看起来非常靠谱,和大部分球迷的认知还是比较一致的。

(2) 预测比赛胜负:基于PageRank的Sportsnetrank

简单来说Sportsnetrank基于pagerank的思想,将球队之间的比赛建模成图,结点是球队,边是球队之间的战绩(得失分)。然后在图上运行pagerank,就可以得到每个球队的实力评估分数,pr值越大,球队实力越强,胜率越高。下图是基于NFL联赛构建出来的图,结点越大,球队越强。边越粗,说明球队交手时差距越大。

预测比赛胜负时,可以简单根据之前的交手记录构建图,然后计算出每个球队的目前实力。当两个球队交手时,实力更强的球队预测为胜。就是这样一个简单的策略,就能取得很好的效果,按作者的原话是达到了stat-of-the-art的水平。

上图是NFL联赛预测的结果和真实的结果的比较,可以看出确实不简单。

(3) 战术有效性:挡拆识别及评估

挡拆(防守)是NBA最常见的战术,也是得分最有效的手段。有研究者建立并实验了一套自动识别常见挡拆防守套路的系统。利用SportVU球员追踪数据和监督式机器学习方法,建立了一套学习分类器,用于分辨防守挡拆的四种方式:“挤过(over)”、“绕过(under)”、“包夹(trap)”、“换防(switch)”。具体含义如下:

挤过:持球防守者在持球人和掩护者之间,即从掩护上方挤过;

绕过:持球防守者不在持球人和掩护者之间,即从掩护下方绕过;

换防:持球防守者和掩护防守者交换防守对象;

包夹:持球防守者和掩护防守者夹击持球人。

然后作者手动标记了四种类型的若干样本,并进一步训练构建了分类器来发现更多的挡拆。最终识别结果如下:全部270823个挡拆,“挤过”146314个,“绕过”69721个,“换防”37336个,“包夹”17451个。对这些进一步分析可以得到以下一些有趣的结论:

a. 各赛季四类挡拆分布基本一致,但可以注意到“包夹”的比例略有提高,说明随着个人得分能力更强后,包夹会越来越多?

b. 哪些组合不来电?

下图比较了不同防守组合面对挡拆的每回合失分以及他们各自与所有球员搭档的平均每回合失分。克里斯-保罗和布雷克-格里芬是使用挤过的效果是最差的之一,平均失去1.2分。另外伊巴卡和雷吉-杰克逊组合的换防很差,但各自挡拆防守效率很接近。【题外话,如今这两对组合已经都被拆散了,是不是经理看到了这个研究?】

结语:AI在体育产业的应用才刚刚开始,还有很多amazing的应用正在展开或者即将展开。感兴趣的同学可以自行搜索相关资料进行学习研究。Slides地址:http://www.pitt.edu/~kpele/kdd2017-tutorial.html

原创声明,本文系作者授权云+社区-专栏发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏思影科技

第六届脑电数据处理基础班

? 思影科技将于2018年5月31日--2018年6月5日(周四-下周二)在重庆举办第六届脑电数据处理基础班(详见课表安排)。 1、培训简介 脑电相关技术(例...

3865
来自专栏机器人网

看完10张动图,你就明白了身边复杂的机械原理

机器是由一个或一个以上的机构组成,用来作有用的功或完成机械能与其他形式的能量之间的转换。不同的机器往往由有限的几种常用机构组成,如内燃机、压缩机和冲床等的主体机...

35810
来自专栏互联网杂技

有趣的算法、逻辑面试题

1、A、B两人分别在两座岛上。B生病了,A有B所需要的药。C有一艘小船和一个可以上锁的箱子。C愿意在A和B之间运东西,但东西只能放在箱子里。只要箱子没被上锁,C...

2846
来自专栏PPV课数据科学社区

企业如何把“想法”变成“算法”自动执行业务流程?

普兰数据智能——业务流程自动执行“企业大脑” 机器人系统整体方案提供商 企业营销生产管理过程受制于人员的专业水平、理念心态诸多你不能控制的因素,导致大量人员低效...

27711
来自专栏PPV课数据科学社区

大数据变现的关键途径是——可视化

在Google搜索有关“大数据”,会出现很多个由立体0和1组成的图片,一些解释性的信息图示,甚至出现“黑客帝国”的界面。那“大数据”到底是什么,...

3146
来自专栏人工智能头条

Etsy 数据科学主管洪亮劼带你读:WWW 2017 精选论文

1274
来自专栏AI科技评论

开发丨数据整理太繁琐?MIT 发布能化零为整的分析系统

2016年美国CrowdFlower公司从业内80位数据科学家那里得到的调查结果显示,他们平均花费在数据收集和整理上的时间占到整个数据分析过程的80%,而只有余...

3198
来自专栏大数据文摘

【可视化】组图,世界地图原来还可以这样画

1243
来自专栏大数据挖掘DT机器学习

【趣味】数据挖掘(3)—Apriori算法-论文引用与数据血统论

本文先通俗地介绍快速挖掘关联规则的Apriori算法,然后介绍发表这一算法的论文(它被引用了11480+次),最后关注此文的实际影响 与 传统影响因子的...

2876
来自专栏大数据挖掘DT机器学习

【趣味】数据挖掘(1)——"被打"与"北大"的关联

小时候喜欢读趣味数理化,所以久有一个小心愿,写一组趣味数据挖掘的科普博文。要把数据挖掘的一些概念讲得通俗有趣,需要好的例子,正搜寻中,一个有趣的、适合解...

3426

扫码关注云+社区