重磅|如何利用NBA球员推文预测其球场表现?

本文已获论文原作者授权,转载请后台留言申请

原文作者:

Yang Yu (余旸)- Rochester Institute of Technology (罗切斯特理工大学)

Chenyan Xu (许辰燕)- Stockton University (斯托克顿大学)

Chun-Keung Hoi - Rochester Institute of Technology(罗切斯特理工大学)

翻译及案例应用:王昱森 吴怡雯 校对:魏子敏

◆ ◆ ◆

导读

从1-3落后,到4-3夺冠, NBA总决赛历史上,从来没有球队能够在1-3落后的情况下翻盘,骑士做到了,他们创造了奇迹!我们同时要向勇士队致敬,他们打破了篮球之神乔丹曾带队创下的常规赛获胜纪录,他们也创造了历史!在这样一个不断刷新纪录和创造历史的赛季,我们惊叹于球员们在场上所做的一切。

然而,球员的爆发,大劣势下的逆转,这一切的发生都是偶然吗?

大数据文摘发现,在刚刚结束的NBA总决赛最后一场里,骑士队的后卫JR史密斯在比赛前夜与朋友游戏娱乐,并且在Instagram上传了照片,可见JR的心情非常之好。果不其然,他在场上很好的充当了球队第三得分点,13投5中得到12分4篮板2助攻,其中三分球8中2。要知道,对方阵中本场比赛场上三分球最出色的两位球员——库里和汤普森的三分球表现也仅仅是14中4和10中2。尽管他们面临的防守强度不同,但是JR的优异表现极大的抵消了对方三分雨对球队造成的伤害。

这样的例子其实在NBA的赛场上比比皆是,球员并不是机器,他们的语言,行为其实都无时无刻不在透露出大量的可被分析和深度挖掘的信息。如何有效的将这些信息转化为知识,又如何利用这些知识来帮助人们做正确的决策?大数据文摘今日向广大读者推荐一篇很有意思的论文,作者探索了如何在篮球比赛中利用非结构化社交媒体数据来提升现有体育分析模型效率。具体而言,作者展示了如何通过自然语言处理和文本挖掘技术来分析NBA球员的推文从而测算他们的赛前情绪,结合现有赔率的大数据算法达到提高对球员赛场表现的预测的准确性。

文章首先通过统计数据及案例展示了NBA球员如何狂热使用推特来表达自己的情绪。随后讨论了通过分析球员情绪表达作为附加通道来增值现有预测模型的必要性和可行性。另外,通过对技术的剖析详细解释了如何实现对球员推文的分析以及对球员个人效率的预测,包括回答了如何在更广意义上将社交媒体数据(甚至是一般文本数据)分析与具体决策场景有机结合。作者也希望相关的行业从业人员与数据分析人员能够继续思考、讨论并且完善这个技术和理论框架,加快非结构化数据分析技术的落地和产品化。

文章在本赛季,即2015-2016赛季中的应用很有效果。

案例一:2016年4月17日雷霆主场战胜小牛,威斯布鲁克全场比赛出场30分钟,拿下24分,5篮板,11助攻,并获得全场最高的+39效率值。而在比赛前一天,威斯布鲁克连发两条推文,“FASHION ROCKs!!!! (Thought I should share lol )”,“So many great designers out right now”。情感倾向评分分别是4分和3分(正向最强为5分)。众所周知威斯布鲁克是NBA里面最热爱时尚的球员之一,连发两条有关自己兴趣的正向推文显然说明他在比赛前心情不错,或许也是好心情带给了他好的发挥。

案例二:2016年2月9日骑士主场战胜国王,詹姆斯全场比赛出场31分钟,拿下21分,10篮板,10助攻的三双成绩。比赛前一天,詹姆斯发布推文“Good morning! It's that time, time to put that work in.”,情感倾向评分3分。无论从真实内容还是情感倾向得分来看,詹姆斯都有很不错的心情。

案例三:2016年5月9日西部半决赛第四场,雷霆主场战胜马刺,成功扳平大比分。而当地时间是母亲节,杜兰特全场出场43分钟,拿下41分,5篮板,4助攻,成为球队取胜的关键。众所周知杜兰特与母亲感情非常好,其第一次荣获常规赛MVP发表演讲时,更是着重描述了童年时母亲的不易以及与母亲感情的深厚。面对本场的爆发,杜兰特赛后也被球迷戏称“母亲节的杜兰特惹不起”。事实上,在比赛前,两队的明星球员中,只有杜兰特特意发表推文“So proud of my mama”,以此来表达对母亲的感谢,这条推文情感倾向评分不出意外的为正(2分)。这也就不难解释杜兰特在本场比赛的爆发了。

回复“NBA”查看论文全文,以下是论文的精华部分:

◆ ◆ ◆

无论是在国内还是国外,体育行业都蕴含巨大的商机。例如,美国职业篮球联赛(美职篮,NBA)的纽约尼克斯队在2013年就产生了2.87亿美元的收入。各支球队为了最大化自己的收入,必须在球场上不断赢球。尽管存在很多限制,比如球队预算和联盟规定的工资帽,但是球队的管理人员,包括教练组和总经理,必须一直做出正确的决策。而在这些决策中,体育的大数据分析扮演了一个日益重要的角色。

传统的体育数据分析包括运用统计工具来分析球员的历史表现。球队经理凭借分析结果来组建球队,(布拉德.皮特主演的名为“点球成金”的电影其实就讲述了这样的一个故事),教练组结合分析结果和他们的专业知识来调整上场阵容,提高球员的赛场表现。目前运动分析的研究和实践大多集中于如何利用球员的基本数据和历史表现等结构化数据,但是这篇文章探索了NBA球队利用非结构化的社交媒体数据来提升现有体育分析模型效率的可能性。这个新的关注点的灵感来源于自然语言处理技术的飞速发展以及过去几年里社交媒体分析在各个商业领域的广泛应用。特别地,文章的目的在于展示如何利用NBA球员的赛前情绪状态(通过他们在推特发布的推文的获取)来预测他们的赛场表现。

我们先来看几个球员Tweet数据预测比赛表现的例子:

日期

推文样本

推文背景

2011年12月

After the recent news about the possible end of the #lockout, we’re all excited to see the light at the end of the tunnel! #WeLoveThisGame — Pau Gasol“看到罢工将要结束的消息后,我们都很兴奋看到黎明的曙光!” ——保罗·加索尔

因劳资纠纷所引发的NBA史上第二长的罢工终于要结束了,很多NBA球员都表达了对新赛季将要开始的兴奋。

2013年5月

Congratulations to Jason - society couldn’t hope for a more eloquent and positive role model: buff.ly/10OvOMd — Steve Nash“祝贺杰森-他是最有说服力的,最正面的典范” ——史蒂夫·纳什

2013年5月6日,NBA中锋杰森·科林斯宣布自己是男同性恋,成为联盟史上第一位公开宣布自己是同性恋的球员,他也因此收到了其他球员铺天盖地的支持。

2013年5月

Jason’s s-xuality doesn’t change the fact that he is a great friend and was a great teammate — Jason Kidd“杰森的性取向无法改变他是一个非常棒的朋友和队友的事实” ——杰森·基德

2014年4月

I couldn’t play for him. — Kobe Bryant“我无法为他打球” ——科比·布莱恩特

2014年4月25日,TMZ公开了一段音频片段,揭露了时任洛杉矶快船队老板的唐纳德·斯特林曾对少数族群发表带有种族性的评论。随后他在推特上受到了NBA 球员强烈的批评,球员们表达了自己的失望和愤怒,并呼吁联盟马上对此进行调查。

2014年4月

All this sterling outrage speaks to how naïve and gullible folks have become about race— David West“所有的这些有关斯特林的愤怒说明了对于种族,人们是如何已经变的天真和易受骗的” ——大卫·韦斯特

◆ ◆ ◆

NBA球员利用推特来对NBA相关大事件进行回应的例子

文章所提出的分析框架可以被用来形成有关比赛日球员评估报告,进而支持阵容轮换和即时战术调整等决策。根据各个球队对体育数据分析长久以来的实践,NBA将是一个完美的的展现本文提出的非结构化体育数据分析框架的应用场景。

◆ ◆ ◆

就文章中的案例分析进行详细论述

我们选取了2012-21013赛季作为案例进行分析,其目的在于详细说明如何通过情感分析来测球员赛前的情绪状态,以及球员赛前的情绪状态是否和多大程度会对其赛场表现产生影响。主要使用的数据集有两个:一是运动员内容生产数据集(Athletes Generated Content,AGC),通过收集NBA球员在赛季中所发的推文而成,二是运动表现(sports performance)数据集,通过收集NBA球员在整个赛季中的效率数据而成。

根据Matsudatira提出的框架,我们利用Tweeting-Athletes.com组建了一个含有2012-2013赛季353位 NBA球员推特账号的完整列表。AGC数据集中所收集的推文,除了内容以外,还包含其他描述性属性,比如发布时间等。从量上来看,整个赛季中,球员一共发布了91,659条推文,75.3%的球员发布了至少100条推文。此外,数据集还标识了一些“狂热用户”,譬如休斯顿火箭队的中锋德怀特·霍华德,仅他自己就发布了1,214条推文。

为了构建运动表现数据集,我们从Basketball-Reference.com提取了2012-2013赛季的球员个人资料和个人技术统计,然后将每场比赛的赛事信息与每一位参加这场比赛的球员的信息结合在一起为一条独立的数据。 赛事信息包括比赛时间,比赛类型,主客场情况,对手,胜负情况和最终比分。球员信息包括比赛日当天的年龄,首发次数,上场时间,命中数(命中率),三分命中数(三分命中率),罚球命中数(罚球命中率)和场上效率正负值。

为了更准确分析推文,我们通过过滤掉单纯的转发推文和包含网址链接的信息类推文来预先处理它们。此外,非英文推文也被移除掉了。但是推文里面还是充满了非标准的英文。因此我们设计了一种数据清理机制。

在非标准英文的使用中,错误拼写(比如把 “stealing”错拼成“stealling”,把“cutting”错拼成“cuting”) 是一种例子,我们通过自动纠错算法(minimum Hamming distance,一种自动纠错算法)来改正所有的错拼。此外,非标准英文还可能来源于字母的重复(比如,人们会用“awwwwful”或者“awfuuuul”来表达“awful”,会用“ruuuude”来表达“rude”)。这时候处理办法就是把一个单词中连续出现三次及以上的字母替换成连续出现两次(比如上例中,经过这种方法处理后的结果为“awwful”,“awfuul”和“ruude”)。随后再用自动纠错算法来进行错拼改正。

我们主要应用AFINN情感词典和一个手工组建的表情符号延伸列表来监测推文中的球员情感信号,以及推文背后隐藏的球员情绪极性和程度。

AFINN由丹麦技术大学(Technical University of Denmark)的高级研究员Finn Årup Nielsen所开发。它是一个更为精简的词典,更关注于社交的语言应用,包括俚语,低级词汇,缩略词和网络流行语。对于每条推文,作者使用R来自动提取与AFINN词典相关的特征,然后将推文内所有单词与AFINN词典相匹配,得出单词的情感正负性,即AFINN得分,最后将其相加得出每条推文的情感正负性。计算出的AFINN得分反映了推文背后的球员情绪。此外,推文可以被不同表情符号所分类,例如,, :) 或者:-)表达了积极情绪,:(表达了消极情绪。因此我们也将推文中的表情符号与手工组建的表情符号延伸列表相比对来获取推文背后的球员情绪。

球员

推文

发布时间

AFINN得分

情绪正负性

艾尔·霍福德 位置:前锋球队:亚特兰大老鹰

Nice win for us on the road vs. Portland. Much better effort tonite. Go Hawks!

2012年11月13日6:13:18 AM

5

Shaq! RT @owen_then: @Al_Horford who’s you alltime favorite center??

2012年11月13日6:53:11 AM

1

Happy Birthday! RT @Md813: @Al_Horford Can ur #1 fan get a birthday tweet??? :)

2012年11月13日8:33:34 AM

2

Thanks. I really enjoy having my own segment! RT @KimberMcCart: Love the @Al_Horford show on Tuesdays with @kingcfb and @RealMattlanta

2012年11月14日4:55:42 PM

4

贾莱特·杰克 位置:后卫球队:克里夫兰骑士

What’s good! Here in Sacramento, getting ready for the game tonite. Go Hawks!

2012年11月16日4:37:43 PM

4

How u gonna fire the owner?

2012年11月28日8:25:12 AM

-1

史蒂夫·纳什 位置:后卫球队:洛杉矶湖人

@Naimthestar haha u sound really upset over there sir and is this a bad time to bring up that game on thanksgiving

2012年11月28日8:39:51 AM

–2

斯宾瑟·霍伊斯 位置:中锋球队:克利夫兰骑士

nomoreyears!

2012年11月6日8:19:45 PM

–1

Philly should be better than this. Damn shame.

2012年11月6日8:43:52 PM

–3

No hope. No change. Nobama.

2012年11月7日6:58:26 PM

–3

◆ ◆ ◆

球员推文反映情绪正负性的例子

在得到球员推文情绪测度之后,接下来一个非常直接的目标就是:测试球员赛前的情绪状态和场上表现的关系。在使用AFINN简单累加来标识球员状态之前,我们对时间戳进行了处理,消除了时区差并设置了预测用区间。在赛程日,NBA比赛一般是下午8:00开始。根据联赛对球员,教练等工作人员的限制,我们选择下午7:00(比赛日)作为“赛前”截止时间。仅计算该时间段内的AFINN得分,累计总得分代表球员赛前的情绪状态,分数越高,显示球员的情绪状态越积极。除此之外,为比较不同球员的状态,我们利用该球员整个赛季得分的均值和标准差,对日AFINN得分进行标准化处理。

为测试情绪--表现的关系,我们建立了关联球员赛前情绪状态与场上表现的数学模型。首先,建立仅有情绪变量的标准基准模型,然后根据基准模型扩展为更完善的多变量模型,变量的选择参考了以往的运动分析文献。

我们引入如下的基准模型:Pi,t = α + βMi,t + εi,t,其中i, t代表球员&赛程日的组合,Pi,t 代表i球员在赛程日t的表现,M代表球员的情绪,β是模型回归系数,εi,t是关于球员其他特征的干扰系数。表5中“Baseline Model”列出的相关参数估计值。

基准模型受到“内生变量”影响在运动分析领域是十分常见。为限制影响,我们引入控制变量作为运动表现的潜在预测因子。根据参考运动分析文献,建立了如下扩展模型:

Pi,t = α + β1 Mi,t + β2Pi,t–1 + β3 Salaryi,t +β4 Agei,t + β5 Agei,t2 + β6Homei,t + β7PosCi + β8PosGi + εi,t

其中Pi,t–1是球员i在比赛日t的一日滞后表现,Salaryi,t是球员i在赛季中取自然对数的薪水。Agei,t2是球员在比赛日的年龄,Homei,t为1是主场比赛,为0是客场比赛,PosCi和PosGi是两个位置虚拟变量(0或1)代表球员所在的位置(中锋,前锋或后卫),从β1到β8是扩展模型的回归系数。表5中“Extended Model”列出的相关参数估计值。

与心理学和运动文献相一致,我们发现情绪状态确实能影响运动员的场上表现,在基准模型中:β = 0.17, p < 0.01,在扩展模型中:β = 0.16, p < 0.01。结论证实:从球员赛前的tweets中提取的情绪状态与他的场上表现是正相关的。这样的发现是重要的,突出了球员tweets的信息价值。球队管理可充分利用情感分析从球员tweets中,识别出球员情绪并预测场上表现。因此教练可重点关注球员的消极情绪或采取激励球员等措施。在该层面上,利用提出的分析框架,教练和管理人员可更有节奏的掌握球员情绪状态。扩展模型更进一步地考虑运动员其他特性,包括站位,年龄,薪水,主客场等。扩展模型在基准模型的基础上,增强了结果的健壮性。

◆ ◆ ◆

结论部分

本文提出的分析框架在体育数据分析上进行了新的尝试,让教练,管理者和相关从业者了解到体育大数据分析的更多可能性。球员的tweets更直接的展示了他们的想法和观点,这些数据是从其他渠道如访谈和调查中是很难获取的。除此之外,很多球员都是Twitter的高频用户,他们会经常进行更新,这又为社交媒体分析提供了丰富的数据资源。我们可以明显的看到将此类社交媒体数据作为体育分析数据源的宝贵价值。

论文全文链接:http://cacm.acm.org/magazines/2015/11/193325-hidden-in-game-intelligence-in-nba-players-tweets/fulltext

回复“NBA”下载论文全文

关于作者:

余旸,Texas Tech University(德州理工大学)管理信息系统博士和北京航空航天大学管理科学与工程博士,现于Rochester Institute of Technology(罗切斯特理工大学)Saunders商学院任职,主要研究方向为文本挖掘与数据分析。本文合作者包括斯托克顿大学的许辰燕博士以及罗切斯特理工大学的Chun-Keung Hoi博士。

原文发布于微信公众号 - 大数据文摘(BigDataDigest)

原文发表时间:2016-06-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI研习社

比AlphaGo Zero更强的AlphaZero来了!8小时解决一切棋类!| 快讯

读过AlphaGo Zero论文的同学,可能都惊讶于它的方法的简单。另一方面,深度神经网络,是否能适用于国际象棋这样的与围棋存在诸多差异的棋类?MCTS(蒙特卡...

38740
来自专栏专知

【DeepMind最新论文】新AlphaZero出世称霸棋界 ,8小时搞定一切棋类!自对弈通用强化学习无师自通!

【导读】从AlphoGo Zero 到AlphaZero只是少了一个词“围棋”(Go), 但是背后却代表着Hassabis将和他的DeepMind继续朝着“创造...

380100
来自专栏机器之心

观点 | 精通国际象棋的AI研究员:AlphaZero真的是一次突破吗?

375100
来自专栏新智元

【强化学习炼金术】李飞飞高徒范麟熙解析强化学习在游戏和现实中的应用

来源: 心有麟熙 作者: Jim 范麟熙 编辑:张乾 【新智元导读】斯坦福大学博士生、师从李飞飞教授的Jim Fan(范麟熙)以轻松有趣的方式介绍了强化学习和游...

45180
来自专栏DT数据侠

扒完社交网络关系才明白,《权力的游戏》凭什么是神作

“Valar Morghuli,凡人皆有一死。” “没错,但那是‘凡人’。会数据的,都不是凡人。” ——DT君

13800
来自专栏AI科技大本营的专栏

谷歌大脑深度学习从入门到精通视频课程[10.3]:自然语言处理——One-Hot编码

AI100 已经引入 Hugo Larochelle 教授的深度学习课程,会在公众号中推送,并且对视频中的 PPT 进行讲解。课后,我们会设计一系列的问题来巩...

30370
来自专栏PPV课数据科学社区

【新闻】:大数据可否算准世界杯?

人类一思考,上帝就发笑;世界杯一来到,上帝笑得血压也升高。倒不是足球踢得多欢乐,而是世界杯预测太恶搞。   我略微总结了下,剔除掉贝利和大校这种...

27350
来自专栏AI科技大本营的专栏

比AlphaGo Zero更强的AlphaZero来了!8小时解决一切棋类! PENG Bo

Photo by Jason Kempin/Getty Images for Agon Limited 作者 | 禀临科技联合创始人 PENG Bo 读过Alp...

31250
来自专栏哲学驱动设计

仓位管理 V4.3

13120
来自专栏自然语言处理

Google Plus 文本提取与分析4

特征词/关键词提取最简单最基础的就是TFIDF,记得5年前我同学让我帮做DI-TFIDF的论文,也就只多了个类内离散度(DI),今年阿里校招笔试题都有,用map...

11210

扫码关注云+社区

领取腾讯云代金券