唱衰文:大数据至死 沉迷数据不能让我们正确把握未来

世界上有三种谎言——谎言,该死的谎言,以及统计数据。引自马克·吐温。本文的作者站在这个信息爆炸的时代,从多个角度展示了数据的欺骗性。有些是基于偏见,有些是方法不对,但总之,用数据说话,可能并没有想象的那么简单可靠。

这个世界不断的告诉我们数据会告诉你真相。但是同样的数据往往会告诉我们不同的故事,取决于是何种数据以及你如何解读。两个类似的数据,由于人们进行不同的解读,从而表现出两个截然不同的结论,这样的情况让我很怀疑什么才是真相。数据是人们手里的工具,而我们可以按我们的需要进行解释。需要澄清的是,这个问题并不是想说我们为了自己的目的而刻意隐瞒数据,虽然人们有的时候也有可能会这么做。我只是想强调,人类有可能会在解读数据的时候带有无意识的偏见。

在大数据时代,这是一个巨大的难题。当你看着不同的数据在同一个问题上向你展现完全不同的情况时,你如何找出问题的答案?

无论何时,数据都是可以被操纵的

Pam Baker是《数据占卜者:大数据策略》一书的作者,在书中,她从数据科学的角度来论述这一问题,但是她还是强调,首先你必须问对问题,才能得到正确的答案。

Baker在一封电子邮件中向我解释:“数据是根据其与精确问题的相关性被拉动的。算法包括对于问题尽可能明确的输入和回答方式。”

她说数据科学家有不少工具来做好这项工作,但是错误依然有可能发生。“当然总是有犯错的可能,但是数据科学和数据科学早在大数据出现之前就已经解决了很多的问题。事实上,如果错误的数据点使用的数据和算法是有缺陷的,那么答案就会是错误的或者有缺陷的。”

到目前为止这些都还是有效的,但是我们很清楚数据科学家的局限性。这么多公司中,我好像还没有听过哪家公司表达这样的意思,他们都在讨论数据,但是大部分公司都缺乏经验来理解这样一件事情:数据可以被操纵,给你你想要的答案。

早些时候,我在在波士顿的Gilbane大会上听到一个演讲者说了一大堆类似于,科学家说人们没有装那么多的应用,平均每个人只安装了10个。他同时也表示90%的人不介意收到垃圾短信。不过要知道,他所在的公司是一家专门为短信广告提供解决方案的公司。他分享了一大堆数据,给你提出了一大堆建议,但是如果你真的以这个为依据来设计方案,为你做的应用进行推广,那就真是傻缺了。

这个演讲者接下来展示了一个数据,这个数据告诉我们,每分钟都有15.4万个应用被下载。可是如果每个人只装少于10个应用,那怎么可能会保持在同一时间以那种节奏同时被下载?当你能清楚的认识数据之间的相互矛盾之处,就能理解,这些数据让问题变得不那么清晰。也许那句老谚语比我们想象的更有道理:“世界上有三种谎言:谎言,该死的谎言,以及统计数据。”

掌握数据不难,关键是学会数据的分析、判断

而当我们把数据放到普通人手里,而不是像Baker建议的那样交给数据科学家,那结果可能会很糟。尤其是这些试图利用数据贩卖他们的产品或者服务的营销者手中。更糟的是他们可能会试图用错误的信息来描绘他们美妙的市场结论。

Digital Clarity集团总裁Scott Liewehr表示,这样的情况非常危险。他告诉我,市场研究必须下大力气建立有效的调研,否则他们就有可能使用错误的数据得出错误的结论浪费公司资源。“对于市场营销人员来说,这是一个很大的挑战,每个人都可以拿着数据说任何他们想说的故事。”Liewehr告诉我。“如果他们不知道如何进行调研分析,那就有可能会造成一系列错误决定。”

Baker也同意上面的观点。但是她同时也说,商家也可以为数据整理提供帮助,因为他们的市场人员比数据专家更了解市场动态,如果能把这两者结合到一起,那就能够产生更好的结果。“有的时候市场人员和销售人员比数据科学家更知道该问些什么。这也就是为什么我们需要一个由不同的人组成的数据团队。”她说。

但是她同时也说,即便是可靠的人也并非总是能得到正确的信息。“有的时候企业用户会痛苦挣扎,结果却得出了错误的结论,因为他们不懂统计方法,以及其他必要的方法来完成这项工作。

即便你很小心,数据也并总能让你得出正确的结论

上周我做了一篇报道,是关于最流行的企业同步与分享工具的,而这个工具是基于541 Research的研究的。现在这是一家非常有信誉的公司,他们在公开研究成果之前已经运行着两个研究多个月了。我并非想对他们的研究成果进行毁谤,但是在那篇报道中我也怀疑他们是否问对了问题或者问对了人。他们不应该只是简单的看看一般使用率,而是应该仔细的询问企业用户许可和普通用户许可的比例,如果他们这样做,是不是会看到完全不同的结论?发觉数据并非你想像的那么简单,也并非我在这篇文章中所说的研究那么简单。

首先,451 Research的数据发现超过40%的有效报告使用Dropbox,这个比例远远高于其他企业,我报道这一发现的时候都吓了一跳。Box是整个云计算的典范企业,在市场调查中位列第四,受访者中大约有15%的人选择Box,但是这并不一定是整个故事的全貌。

Ilya Fushman是Dropbox企业产品的主管,他上周告诉我,Dropbox已经拥有了10万个商务用户(既有很小的企业,也有比较大的企业。)考虑到Dropbox是2013年4月刚开放这个产品,这个数字真是非常惊人。有趣的是,作为比较,Box告诉我他们拥有3.9万个企业用户,但是数量不能说明所有问题,因为Box拥有一些非常大的用户。

例如,Box的客户中拥有Eli Lilly,丰田,梦工厂,康卡斯特,MD Andersen以及葛兰素史克等巨头,而最近刚刚将30万份企业授权卖给GE。如果你把Schneider Electric的6.5万份许可,以及保洁的4.4万份许可的算上,你一定可以得出跟451 Research对于企业用户完全不同的结论,即便企业的总数量确实不同。

根据记录,我们很难发现Dropbox拥有多少用户,因为他们并不透露这样的数据,但是他们的大企业用户也包括很多品牌公司,比如Hearst,Hyatt,MIT以及新闻集团。而Dropbox也将一些比较小的企业的商标放在了他们的网站上。

Alan Pelz是451 Research的一位分析员,同时也是本研究的一位作者。他表示,他的团队依然在致力于优化方法,而他们现在公布的数据还只是他们长长的市场研究进程的一个开头而已。

“我认为十月份的调查数据像我们告诉我们一些新的事实——首先,Dropbox在企业领域拥有大量拥趸(这并不让任何人感到吃惊,尤其是他们的竞争对手)。这个市场还很不成熟,但是处在一个增长的阶段,而且现在很多的企业并不愿意把他们的数据放到公共云端。这些发展趋势随着时间的发展会变得非常有趣。而这个新的研究所要挖掘的信息就是谁将会真正成长出价值,而且随时间不断变化。而且我们正在为这个新出现的领域和新层面做细分市场研究以及收入模型的研究。”他在给我的电子邮件写道。

数据确实有巨大的价值,但是即便你非常小心,但依然有可能因为数据的歧义以及麻烦而得出错误的答案。因为即便我们拥有所有的数据,但仍然和现实会有偏差。而且你必须要保证你的数据对于特定的问题来说是准确的,而且遵循最佳的数据归纳法。即使这样,也有可能得出完全意想不到的结果。看来,跟随数据得出结论并不是像说的那么简单。

Source:TC

英语原文:https://techcrunch.com/2014/12/06/lies-damn-lies-and-the-myth-of-following-the-data/

原文发布于微信公众号 - CSDN技术头条(CSDN_Tech)

原文发表时间:2014-12-18

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能快报

欧盟发布机器人技术多年路线图

欧洲机器人技术合作伙伴组织SPARC是全球最大的民用机器人创新计划,2014-2020年获得了欧委会7亿欧元的资助,并将从欧洲产业界获得21亿欧元的配套资助。2...

28440
来自专栏机器人网

真正能和人交流的机器人离我们有多远?

《经济学人》近日刊登文章,称计算机在翻译、语音识别和语音合成上都获得了很大的进步,但它们仍然不了解语言的含义。以下是原文内容: “对不起,戴夫,恐怕我不能这样做...

22730
来自专栏PPV课数据科学社区

你知道吗:机器学习发展的黄金时间只是刚刚开始?

尽管神经网络、人工智能和机器学习的嗡嗡声已经发展到相当的阶段。然后,就像很多人知道的那样,这里仍然没有发展出一套新的研究方法。如果有很多核心的算法和途径在这几十...

28450
来自专栏华章科技

掌握8项技能让你顺利受雇于4种逼格最高的数据科学岗位

你想找到一份数据科学家的工作吗?如果你有这样的想法的话,那么你就有伴儿了。最近由Thomas Davenport和D.J. Patil在《哈佛商业周刊》上面发表...

5010
来自专栏CDA数据分析师

即将到来的AI革命之生存指南

大众媒体相信,人工智能(AI)会偷走你的工作,威胁到我们的生活。如果现在不做准备,我们可能会面临一个人工智能无处不在,并主宰着人类社会的未来。人工智能革命事实上...

18450
来自专栏AI科技评论

动态 | Kaggle16000份问卷揭示数据科学家平均画像:30岁,硕士学位,年薪36万

AI科技评论按,日前,Kaggle官网发布了一份关于数据科学和机器学习的调查报告,他们通过分析超过16000份相关用户的问卷调查,给出了数据科学行业从业人员的基...

36170
来自专栏PPV课数据科学社区

数据分析经典语录

【数据分析三字经】①学习:先了解,后深入;先记录,后记忆;先理论,后实践;先模仿,后创新; ②方法:先思路,后方法;先框架,后细化;先方法,后工具;先思考,后动...

45460
来自专栏大数据文摘

NYU教授给写AI新闻的记者们写了一封推心置腹的信,你也应该读读

18650
来自专栏互联网数据官iCDO

对混乱的市场营销技术的整合模型推荐

译者:Julie Zhou 审校:Nic 本文长度为1477字,预估阅读时间5分钟。 摘要:很多市场从业者对于各种营销技术感到困惑,他们通常不清楚应该怎样对解...

30360
来自专栏DT数据侠

数据可视化:一场设计狮与程序猿的相爱相杀 | 数据侠实验室15期

可视化震撼视觉的背后,是设计师与程序员思想的结晶,也是数据和信息多样化的视觉传达。那么,这一张张炫酷图表是如何实现价值创造呢?本期数据侠实验室,由各路大神为你开...

17500

扫码关注云+社区

领取腾讯云代金券