都在说大数据 可是你真的懂什么是大数据吗?

都在说大数据

可是你真的懂什么是大数据吗?

天天听着身边的老师、同学和你讲互联网思维、大数据,企业级相关数据库……有没有觉得很高端?但是,在如今的社会,即便是大数据已经像无限换防一样泛滥,你又真的知道什么是大数据吗?今天的文章我就带你了解现代意义的大数据,以及它在体育行业的应用!

大数据究竟有“多大”

每天看完比赛,你总会浏览各个交互网站,寻求那么一星半点的高阶数据,试图去记住其中的一部分解释,好在茶余饭后和兄弟们装一下。但是,你就没有好奇过,这些数据球队内部是不是有人在做?是不是有人在看?他们又能知道多少呢?这里,我可以明确地告诉你一个答案:

每场比赛之后,每支球队都会有数量庞大的初级数据团队根据基础数据去整合高阶数据,然后由几名精英级的高阶数据分析师充当战略顾问进行系统疏导。最终,这超过百余人的团队会呈交一份117页的高阶数据报告!!!

我第一次知道这个事情是在雅虎记者对雄鹿管理层采访中了解到,我虽然一直从事高阶数据的开发和整合工作,但是如此庞大的基数的确使我震撼。毕竟净时间不过48分钟的比赛,是何等的精细才会如此?

每名球员的投篮热区、出手时时间所剩分布、回合占有率、真实命中率、有效命中率、WS、PER、ORTG、DRTG、POSS、轮换影响、实时可替换差值……不知不觉就已经很多了!可是,这还只是整个赛季1230场常规赛的普通一场,这也是从84年开始有高阶数据的普通一年……

怎么得到高阶数据呢

首先,我需要和大家挑明一个常见的误区:

在现代大数据交互时代,高阶数据由两部分得出——算法+数据库,而数据库远比算法更重要,各行业均是!

举个例子说明上面的观点:

ESPN高阶数据分析师Kevin·Pelton开发出一套on/off型效率向高阶数据,SI试图引进,但是只开价25万刀。同期的另一笔交易可就大气多了,SI引进官网自84年以来的BOXScore,共花费1200万刀。

我们不禁疑惑,开发出算法公式多耗费脑力,甚至美国一些野生数据向博主终其一生也就开发出那么一两个公式(有没有用还另说),而官网数据库里的数据都是每场比赛后通过追踪系统自动生成的,哪一个更值钱不是明摆着的吗?还真不是大家想的那样。

算法之所以不那么值钱我在后文再展开,但是数据库值钱却是很好解释的。当你能拥有一个行业的深层数据库时,基本意味着你已经掌握了该行业的过往趋势、现阶段状态以及未来走势三样,而这三样正是高层进行初级决断的根基。另外,当一家公司以高阶数据库为根基推演出相关高阶解释时,其他公司经过数次捕捉,并经过人工智能神经元拆分法便可基本推演出公式(即算法),最典型的例子莫过于ESPN的WS值,直到现在仍未公布其准确系数,但是一个野生数据网站FiveThirth-eight,连续跟踪两年该数据,并通过上述办法基本破译该公式,如今与ESPN同期报告该数据,上四分位差值不超过0.001,借此成就,该网站一举成名,成为美国数据界头名野网!但是无论你如何推演,数据库里最基本的BOXScore数据就在那,任谁也偷不走!

现在说说我们是怎么研究算法的:

01

选择模型

高阶数据很明显不能使用单体一次线性函数或者非线性函数,无论怎样,一名球员在场上的表现(或者某一项事物在市场上的趋势)都不是又一项或者简单几项“Input”就能决定的,我们要衡量的因素还很多,有时候我们甚至要加入一些对于隐形因素的考虑。

可能我们好不容易筛选出应该用那些因素作为考量标准了,却不知道公式的具体系数,比如下面这个公式:

POSS=(FGA+0.44×FTA-ORB+TOV)/2

这里面的0.44我们是怎么确定的?这里我们采用了一个人工智能系统(也是目前各个行业普遍应用的)——神经网络。这类模型是一种自适应系统,具备学习功能,可以从数据中自动拟合出数据之间关系的具体形式。神经网络的基本结构如下:输入的变量先是通过计算激活中间隐层的神经元,再通过隐层的神经元计算得到最后要预测的输出。实际中使用我们可以调整神经网络的层数和神经元个数。神经网络的表达能力非常强,理论上的分析表明:只要神经元的个数足够多,单隐层的神经网络可以拟合任意形式的函数。

模型的对应训练

02

在确定了具体的模型以后,我们就会用数据库里的数据对模型进行训练,以使其达到我们的创造目的。以下图为例:横轴x和纵轴y的关系是线性的(黑线),实际数据有其他随机因素的影响,所以得到的数据如黑点分布所示,这样的话如果我们用很复杂的模型去拟合黑点,总能得到一个模型能完美符合(如蓝线所示),但得到的模型与实际的模型相去甚远,因为模型过分去凑已知的数据点了,这也叫过学习(过拟合)。因此我们在实际做的过程中还会通过对模型添加约束等方法来避免。

03

未知模拟

对于神经网络这类比较复杂的模型,一种常用的方法是把数据切成训练集、验证集和测试集,在训练集上训练,在验证集上决定训练什么时候停止和选择最优的模型结构和大小,在测试集上测试最后结果。

一般情况下,我们还是使用十折测试法,用已知数据的十分之九进行模型训练,而使用余下的十分之一进行测试,看看我们所开发出来的高阶数据反映出来的内容是不是和日常观感一样,如果不一样,在后续做因素的调整。

这就是一套完整的关于高阶数据的现世今生,我已尽我所能为大家解读,语言晦涩如球哥的投篮,南辕北辙就好似右手将的出手从身体左侧划过。

还是希望可以帮到日后的各位,大外篮协谨以此恭祝各位毕业学长学姐工作顺利!

杜龙钰/稿件

张曦文/排版

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181111B1KX2I00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券