DataMesh CEO李劼:美国总统大选,大数据究竟是赢了还是输了?

数据猿导读

很多人之前都认为希拉里已经赢定了,在各种预言帝使用各种模型所做的大数据分析预测中,川普都没有任何胜算。结果出现黑天鹅事件,希拉里不仅败北,而且是数学上的惨败,选举人票上输的一塌糊涂,毫无翻盘可能性。

作者 |李劼

本文长度为3500字,建议阅读7分钟

本文为数据猿年关策划活动《大数据的2016,我的2016》系列稿件,感谢本文作者 DataMesh CEO 李劼 先生的投稿。

敬请期待2月16日,由数据猿与中欧商学院、腾讯视频共同举办的高端领袖线下演讲栏目中欧微论坛之《超声波》

我们去反思2016年大数据的发展时,总会提起一个最重要的事件,那就是川普大帝的当选以及希拉里团队的覆灭。很多人,包括我自己在这之前都认为希拉里已经赢定了,在各种预言帝使用各种模型所做的大数据分析预测中,川普都没有任何胜算。结果出现黑天鹅事件,希拉里不仅败北,而且是数学上的惨败,选举人票上输的一塌糊涂,毫无翻盘可能性。

在这之前,希拉里数据团队的副CTO,前Optimizely和奥巴马竞选班组成员Kyle Rush还在炫耀自己的成绩:

50个后端服务,20个前端应用,237个Git Repo,15TB的数据以及大量数据科学家、分析师,大量AB测试提升捐款额,大量数据驱动的体验改进推进用户投票,提高希拉里的投票率。

相比之下川普团队被誉为拒绝使用科技手段,只是不停到农村宣讲的土人。“不懂大数据”,“只雇了一家外国公司打打广告,一共才花了五百万美元”……所有的数据似乎都指出川普输在科技上了,希拉里团队一共募集了14亿美元(包括DNC和Super PAC),而川普团队只募得一半,高下立判?

图 | “投给希拉里”专用App

在大选前几天,无论是Nate Silver的538还是NYT,还是你能想到的几乎所有大数据预言帝们,全都认为希拉里几乎稳赢,问题只在于七点能不能开始庆功了。

结果不仅希拉里全盘崩溃,民主党也丢掉了所有能丢的一切。Nate Silver甚至和NYT在预测结果上公开撕逼,搞得相当难看。

我们不仅要问,大数据预测失败了吗?

在深入讨论这个问题之前,我们先来看一段有趣的真实经历。五年前我在微软Office 365团队刚刚接手数据驱动体验的产品经理时,身上背的任务是如何使用活动用户数据做灰度发布和AB测试。我们的Office大数据团队负责提供所有用户访问日志(PII哈希过),根据自动化工具显示,这些数据的完整度一般保持在96%~99%以上,总量超过六个月,来自三万多台服务器,这在我们看起来应该是非常理想的原始数据。

理论上来说,我们将这些用户哈希后随机分配给不同的组,就可以开始尝试做一些最简单的AB测试了。但在此之前,我们需要有一些追踪活跃度的指标要做。

我们试着跑了一个最简单的模型……跑完之后,团队成员都无话可说,感觉程序哪里错了,用户的增长率虽然好的一塌糊涂,但一除上总用户数就似乎无迹可寻,月活低的可怜,曲线画出来是浪的可以。我的Test是一个平时说话很冲的黑人兄弟,当时脸色都有点发青(感觉,实际看不太出来)说回头研究。几天之后他拿出一份报告,大家大开眼界:

大数据团队所提供的数据完整度其实是自动化工具的部署发生率,而不是实际部署率,更不代表数据上传和完整度。 实际部署率没有追踪,很多情况下工具远程部署之后并没有成功安装,所以数据没有被正确归集。 实际上传率没有追踪,有些情况下甚至服务器与大数据仓库(COSMOS)之间的VLAN都是不通的,即使正确部署工具也无法上传。 实际数据完整度只有13%。

部署发生率实际和最终数据完整度没有任何相关性!可想而知,这样的数据怎么能被用来做计算分析的基础?后来我们团队花了四个月的时间才勉强修复数据管道,原定的灰度发布启动时间也拖了半年之久。

让我们回到川普和希拉里的对决中来。从结果看问题的话,我们会发现各位预言帝的数据集和刚才我们说的失败案例很类似,他们所使用的是各类民意抽样调查结果,总结起来三种人会导致数据失真,而数据失真可能会让你预测分析的结果变得毫无意义:

民调不会去调查的人 有意识或无意识说谎,或是到最后阶段变卦的人 号称支持某人却没有投票的人

第一类人,在四年前平淡的大选中并没有注册为Voter,这次看到两家掐的热血沸腾,决定也来凑凑热闹。这样的人由于不在Voter Database里面,在民调里通常是不会被调查的。我们并不知道这样的比例有多大,但年轻人没有被统计的比例较高是正常的(因年龄问题此前没有投票权)。

第二类人,美国当代精神癌症的体现。由于政治正确和极左派经常不分青红皂白的指鹿为马,导致很多人在公开场合并不会表达自己的真实想法。由于惧怕极端者的攻击,很多美国人选择的是闭口不言、模棱两可,甚至直接违背想法和人交流。一些左派精英创立了一种刻板印象,就是不支持希拉里的人都是“男权”、“低收入者”、“智力低下”、“草根”、“极端保守”、“种族主义”,却不知这样乱划线的做法一时是嘴爽了,结果把很多不相信政治正确的中间派推向偏右。

另外,希拉里的邮件门到最后被FBI再翻出来,也让不少人感觉很差。这些人被民调时所说的和最后投票的结果往往有差异,会不投或者投川普。事后统计全美有240万人参加了投票,但没有投总统。

第三类人,左派支持者,而且也是注册的Voter,但实际到投票的日子却没有投票。这些人很可能是这次的决定因素,我们后面分析。

你可能要问了,前几次大选不也是这样算出来的?模型不是从过往的经验中推导的吗?这三种人怎么这次就决定了胜负呢?当这三类人都在你的数据里无法体现但占比又发生突变时,你用任何旧数据产生的模型去做分析,最后的结果都是可笑的。

Nate Silver事后不停地硬解释自己的模型如何有先见之明,比其他模型好那么一点点……但别忘了,真正对竞选有信心的,其实是川普团队自己。Peter Thiel这个被左派开除Gay籍的硅谷叛徒在最后阶段还自捐一百万美元给川普投名状 – 你相信一个能先搞出Paypal,后来又创造Palantir这样的大数据公司的怪物会盲目下注吗?

别忘了,Palantir的核心理念:将海量不完整的数据有效表达出来,让人脑来分析,从而解决一个实际应用问题。(不要提AI,除非你在融资toVC)所以关键点在于,你分析的角度是否真的是从解决实际问题去出发的。如果是的话,作为数据科学家第一个需要提出的问题就是“我手里的数据是否足以描述应用所面临的场景?”接下来就是“当前数据中的缺陷是否大到需要其他数据做补充?”

如果不从数据角度去看被选举人的话,我们先从人的角度评判一下这次竞选的主要参与者特点:

民主党,希拉里:中左派,财阀利益,女性,有多个被攻击的弱点(前期班加西、后期两个邮件门)。支持者年龄偏大。 民主党,三德子:左派社会主义,自由派的最爱,支持者年轻化。 共和党,川普:可以有任何丑闻,能做出任何意料之外的事。核心支持者是红脖子白人,明显疏离少数族裔。 共和党,科鲁兹:他不是川普。

在民主党的党代会一锤定音前,三德子和希拉里之争已经让左派选民割裂,而此后DNC打压三德子的邮件丑闻又让很多三德子支持者憎恨希拉里,虽然这些人并不会投右派,但突然一下哥俩好让他们投希拉里的可能性也并不大。即使是最后选举人票,也有多人拒投希拉里。

川普则是一个异类,由于有核心保守派的支持他保住了共和党传统选区,同时集中巡回战场州。在民主党和希拉里用两倍于川普团队的在线、电视广告进行“大数据精准投放”狂轰滥炸时,川普团队精准地把他本人投放到了选民们面前,最后的结果是川普赢得了绝大多数的战场州,而希拉里在这些战场州的票数都远少于奥巴马两次拿下的票数。

并不是川普拿到的票更多,而是我们刚才说的第三类人,这次没有被“精准投放”忽悠到,不投票了。事后分析更显示所谓的黑人、拉美裔对希拉里的支持远不如想象中的那么高。

这时候让我们翻回来,再看川普团队五百万公开雇佣的那家英国数据分析公司——Cambridge Analytica,这家公司所做的是对社交媒体用户画像,对他们进行精准投放 。

你可能觉得奇怪,刚刚民主党的精准投放不是不起作用吗?注意这家公司的背景和极右翼媒体Breitbart有关系,曾参与Brexit,而且据说是唯一愿意帮川普团队做投放和监测的大数据公司。他们的目标非常直接,就是提高投票率,动员更多的川普支持者去投票。而相反,希拉里花了大量的广告投放在了如何喷川普上,这样的广告能起多大作用,可想而知。

最后大数据还是赢了, 赢的是在正确的时间点、正确使用大数据去处理正确问题的团队,而不是呆板地使用大数据,靠量堆的那个。

说到最后,2016年这个引发世界格局改变的大事件中能直接教育我们大数据从业者的是:用好大数据,最重要的是理解你要解决什么问题,在正确的时间用正确的手段解决正确的问题,而不是看你现有的数据能画出什么曲线,更不是把简单问题复杂化。把现有数据所表达的(伪)现象和要解决的问题强行捆绑,最后的结果就是自欺欺人。而所产生的蝴蝶效应,有可能最后造成灾难性后果。

关于作者

李劼,DataMesh CEO,目前专注于混合现实与数据科学结合的企业服务及应用。回国创业前在微软总部长期工作,为世界五百强企业提供云计算服务,并作为Office 365大数据团队产品经理设计了平台的灰度发布与AB测试。

原文发布于微信公众号 - 数据猿(datayuancn)

原文发表时间:2017-02-09

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

微软将房间变为屏幕互动打游戏的想法,有团队成功用在了餐桌上

1824
来自专栏ATYUN订阅号

英特尔AI和2500个处理器将栩栩如生的巨齿鲨搬上银幕

《巨齿鲨(The Meg)》是一部关于史前巨型鲨鱼的科幻电影,上周华纳兄弟和Gravity Pictures首次展示了预告片,英特尔表示,其AI硬件,以及大约2...

842
来自专栏镁客网

环保静音:智能机器人割草机Worx Landroid

1736
来自专栏VRPinea

锤子相声大会开完了,但他的VR在哪呢?

3113
来自专栏腾讯数据中心

积水成渊——数据中心用水效率分析

引言 现在人们一提起数据中心,首先想到的关键词是PUE(数据中心电力使用效率的衡量指标),由此可见人们对数据中心电力资源的重视程度。而另外一种资源——水,却往往...

3543
来自专栏镁客网

黑科技 | 发现外星人新方法,全新显微镜技术可远程侦测外太空生命

1855
来自专栏owent

忆往昔ECUST的ACM时代

最初是接受了lpld的邀请来写这篇大总结。我没有LHH华丽的文笔,就只能随便写写了。回想起来,ACM应该是我在大学期间参加的最有意义并且收获最大的活动了。

552
来自专栏腾讯高校合作

Key to the Future-SIGGRAPH Asia 2016游记1

作者: 腾讯SNG音视频实验室 李凯 腾讯CDG社交与效果广告部 卢鑫鑫 腾讯WXG技术架构部 谷沉沉 SIGGRAPH无疑是目前全球最顶级的CG和交互技术领域...

3208
来自专栏腾讯大讲堂的专栏

助推理论——影响人们行为的设计

在《思考快与慢》中书:人有两套思维系统,一套是出于本能和经验的“直觉思维系统”,另一套是出于理性的“理性思维系统”。传统经济学家认为人是理性的,往往根据理性思维...

1869
来自专栏VRPinea

不想当干物女的你,必须使用这些AR美妆应用

28811

扫码关注云+社区