在大数据的世界中蓬勃发展

美国总统奥巴马在 2012 年竞选中的成功很大程度上要归功于对量化分析的运用。例如,他的团队可以分析出哪些人在收到竞选宣传单张、电话或家访后更有可能去投票,从而改变那些关键的“摇摆州”的局面。沃尔玛通过数据分析发现,在飓风袭击某地之前,不但当地对手电筒的需求会上升,某种果塔饼干的销量也会提升。这阵量化风还吹到了体育界──畅销书《Moneyball》把量化分析的概念普及给了民众。但这些新的量化技巧到底是怎么回事?企业应该如何运用它们?

最近的三本书有助于管理层找到这些问题的答案:《大数据:改变我们生活、工作与思考的革命》(Big Data: A Revolution That Will Transform How We Live, Work, and Think)的作者维克多·梅耶-勋伯格和肯尼斯·库基耶分别是牛津大学互联网管治教授和《经济学人》的数据编辑;《预测型分析》(Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, or Die)的作者艾力·西格尔是 Predictive Analytics World 创始人及哥伦比亚大学前任助教;《跟上量化分析师的脚步》(Keeping Up with the Quants: Your Guide to Understanding and Using Analytics)则由巴布森学院信息技术与管理教授托马斯·H·达文波特与韩国国防大学的 Jinho Kim 合著。前两本书着重讲了大数据与量化分析的威力,第三本书则指导企业如何利用这些技术。三本书既包含介绍也包含建议,加在一起,它们可以成为想理解这个复杂数据时代的管理层的入门读本。

如何理解“数据化”

根据艾力·西格尔的估计,人类如今每天都会增加 2.5 万亿字节的数据。文字成了数据,机械的物理状态成了数据,我们所处的地理位置成了数据,甚至人与人之间的互动也成了数据。“很多时候,数据的收集是被动的。你不但不需要做什么,甚至都不知道自己的数据被记录了。另外,由于存储成本大幅降低,我们没有什么理由要删除任何数据了,”维克多·梅耶-勋伯格和肯尼斯·库基耶写到。两位作者用“数据化”一词来描述这种新现象。的确,数据淹没了我们,不过这究竟意味着什么?

当然,擅长有选择地进行数据分析的公司已经从数据中找出了各种有价值的关联。有些结论并不令人意外。例如西格尔发现那些会购买小绒垫垫在椅子腿下方以保护地板的人的信用记录往往较好。还有一些结果则很出人意料。某些办公室里,吸烟者得腕管综合症的几率比不吸烟的人更低(或许是因为吸烟让他们休息得更频繁)。素食者误机的比率也比较小(或许因为他们提前预定了特餐,所以不想错过这班飞机)。

不过,管理者要获得这样的信息,就必须从过去的“小数据”心态中彻底摆脱出来。梅耶-勋伯格和库基的书非常引人入胜,信息量也很足。他们提出了三个要点:

  1. 企业应该用全部的数据,而不仅仅是某一部分。在过去,企业没有经济能力捕捉、存储与分析关于其各类业务的全部数据,因此只能用其中的一部分。但如今像亚马逊这样的公司已经完全可以把每一个顾客的交易数据都捕捉和存储下来。
  2. 接受混乱。不准确的数据的危害比以前要小了,因为巨大的数据量可以弥补单一数据的不足。用作者们的话说:“更好不如更多。”
  3. 拥抱关联。对于很多目的而言,有关联就足够了,人们不需要知道因果关系。梅耶-勋伯格和库基提到,某个关于二手车的分析发现橙色汽车发生故障的几率比其它颜色的汽车低一半。就算我们不知道这背后的原因,橙色和故障的关联也是有价值的信息。(或许橙色车的车主更热爱汽车,因此更爱护它?)

大数据的另一个要点在于,很多对数据的应用和收集数据时的原始目的完全不同。距离来说,手机公司收集地理位置信息是为了有效地转接电话,但这些数据也可以用来了解人们周末晚上去哪玩──这一信息对于预测房地产价格可能会有帮助。确实,梅耶-勋伯格和库基承认“数据的许多价值源自其次要用途和期权价值,而非主要用途。”事实上,两位作者预测,“每组数据集都很可能包含内在的隐藏价值,现在人们正在抢着发现和捕捉它们。” 虽然如此,我们也要指出很多潜在的数据应用都游走在伦理、道德甚至法律边缘。例如一个人的社交网络可以被用来判断他的信用记录。假若他的朋友中多有信用记录不佳者,那么根据“近墨者黑” 原理,他或她是不是也更有可能拖款?

西格尔的《预测型分析》主要讲的是如何将一个人做某件事──无论是拖款、升级有线电视套餐还是跳槽──的可能性量化。作者描述了如何通过量化技巧在数据中寻找有价值的规律,从而帮助企业预估顾客、员工等人的行为。根据书中的信息,联邦快递能以 65% 到 90% 的准确率预测哪些用户更容易转用别家快递服务。美国公民银行(Citizen Bank)可以通过更加复杂的量化分析手法将支票诈骗带来的损失减少 20%。另外,惠普一直在依靠预测型分析来预判哪些员工更有可能离职,从而给经理们留出充分的时间挽留员工,或是为其离职做好准备。(有趣的是,惠普的某个部门里,获得升职的员工若是薪水没有明显增加,反而更加容易离职。)

当然,每人的情况不同,出现“黑天鹅”事件的几率也必须考虑进去。但整体而言,人类的确是习惯性动物,这种惯性让企业得以预测某些行为发生的可能性。此外,西格尔对“预报”和“预测”做了明确区分:“预报讲的是下个月在内布拉斯加州总共会卖出多少个甜筒,预测则会告诉你哪些内布拉斯加人最有可能买甜筒。”

《预测型分析》的某些段落有点冗长(作者花了很长的一章专门讲 IBM 的华生电脑如何在美国的益智抢答节目 Jeopardy! 上获胜),但它仍然包含了足够多简明有力的见解,翻一翻至少是有益的。书中提到了所谓的“预测效应”。具体而言,预测效应是指哪怕预测的准确度只有微小提升,都有可能极大节省开支。例如,西格尔说有家保险公司通过预测性分析将赔付率(赔款支出除以保费收入)减少了仅 0.5%,结果一年就省下了 5000 万美元。

把握量化分析的力量

知道预测性分析能帮公司省 5000 万美元是一回事,知道如何利用这种分析工具是另一回事。的确,管理者必须超越对着大数据和量化技巧惊叹的蜜月期,了解企业如何能够最好地从这个新的复杂计算年代获益。《跟上量化分析师的脚步》一书就能提供很好的帮助。如书名所暗示,本书是给并非分析专家、但渐渐需要理解这一类专家的管理者(包括企业内部与外部的)看的。

在本书中,作者达文波特与 Kim 介绍了量化分析师的思考方式。整个框架包括三大步:定义问题、解决问题、沟通结果。

1.定义问题。这一步看上去或许简单直接,其实不然。举例来说,若企业想要了解邮件直销的成功率,就会问“多少人收到邮件后会买我们的产品?”但其实应该问的是“有多少原来不会买我们产品的人,收到邮件后会买?”(即在本例中因果关系很重要,企业想知道的是邮件的效果如何。)

在定义问题时,管理者必须让所有利益相关者参与进来。这不仅仅是为了了解他们的观点,也是为了搞清楚在分析结束后他们会不会认同其结果。这里的一个关键问题是:这次分析会带来什么样的行动?达文波特和 Kim 讲述了一家连锁餐厅的故事。这家餐厅想研究自己的菜单上的每一道食品的盈利能力。当管理者们被问到打算拿这次分析的结果来干什么时,一位管理者说打算取消那些不赚钱的菜,但另外一位管理者则反驳说,餐厅在过去二十年里从来没有取消过一道菜。经过进一步讨论后,管理者们转而决定研究菜品定价,而非盈利能力。

2.解决问题。这一步由建模、数据收集和数据分析构成。作者强调了新信息源的价值──更多、更好的数据往往比更好的用来分析那些数据的算法更加重要。举例来说,保险公司 Progressive 利用 FICO 公司提供的数据分析评估了某个特定顾客未来可能发生车祸的几率,从而超越了竞争对手。另外,在 Hadoop 和MapReduce 等工具的帮助下,企业不仅可以考虑使用结构化的数据(例如顾客的年龄与收入),也可以开始用非结构化的信息(例如文字与图片)。

3.沟通结果,并采取行动。许多量化分析师都犯了一个错误:假定他们可以单纯“靠结果说话”。这是不对的。“把结果呈现得越清晰,量化分析越能导向决策与行动──毕竟进行量化分析最初的目的就是这个,”达文波特和 Kim 写到。有时光是清晰还不够,结果还需要以引人入胜、友好的形式展现。举例来说,德勤咨询为 Delta 航空公司开发了一个 iPad 软件,让管理者能够迅速查询航班的运营情况。软件用不同的颜色表示各机场的状态,触摸地图上的某个机场则能够调出有关当地的额外信息。管理者若想深挖,还可以进一步取得更细致的信息:员工、客服水平、相关问题。

《跟上量化分析师的脚步》中提到的一个重要观点是,全新的计算时代来临并不意味着人们不再需要直觉和创意。这点对于那重要的第一步──定义问题──尤其适用。“解决问题和决策的过程有一半是在于用富于创造性的方式定义问题 / 决策,从而让人们可以高效地解决它,”达文波特和 Kim 说。例如一位聪明的研究员卢俊翔(音)找到了一种方式来预测顾客对于电信业的终身价值。他很有创意地将问题重新定义为“生存分析”。这是一种生物统计技巧,用来决定某个生物群体中有多少能够存活超过一定的时间。

未解决的问题

当然,大数据和预测性分析为我们带来了一些难题。隐私就是其中的一个热点话题。2012 年,美国的Target 超市采用量化分析手法预测哪些顾客已经怀孕,从而引起了一场媒体风暴。(西格尔在《预测型分析》一书中讨论了这一事件。)此外,跟很多新工具一样,技术发展的速度往往超越了法律与政府管治。根据梅耶-勋伯格和库基的说法,“我们的社会已经发展出一套用来保护个人信息的规则。但在大数据的时代,这些法律条款基本上只是一条无用的马奇诺防线。”

另一个棘手的问题是如何为数据定价。在过去,企业花了很多心力去评估其品牌、专利、商业秘密以及其它知识财产的价值。现在我们也应该将数据纳入其中。但是,企业在 Facebook 上收获的那些“赞”究竟值多少钱?谷歌的搜索信息全部加起来值多少钱?此外,消费者是否有权共享这些价值?尤其是当信息被收集起来,以和原本目的不同的方式盈利的时候?

先抛开这些难题,有一件事情是肯定的:大数据和量化分析的时代刚刚开始。“将世界视为数据,视为数据的海洋,可以不断更深、更广地去探索它,这种思维方式让我们对现实有了全新的视角,”梅耶-勋伯格和库基写到。那些正在尝试把握这一新现实的公司很可能会在竞争中胜出──这,很可能就是预测型分析为我们画出的未来商业图景。

摘自:MIT科技评论

原文发布于微信公众号 - 大数据文摘(BigDataDigest)

原文发表时间:2014-08-30

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

学界 | 让机器人互相学习:MIT科学家实现知识传输新方式

选自Science 作者:Matthew Huston 机器之心编译 参与:Quantum、李泽南、黄小天 在不久的将来,机器人助理会走进每个人的生活,不过前提...

298120
来自专栏数据科学与人工智能

【机器学习】机器学习创业机会在哪里?

机器学习淘金热正在到来!Libby Kinsey 是 Nesta 资本的投资经理,关注技术创新已经有 12 年。她根据自己的观察,总结出这波淘金热的创业机会,其...

426100
来自专栏新智元

【OpenAI对标DeepMind】马斯克要用开源对抗巨头,现在却饱受质疑

【新智元导读】 DOTA2的比赛让OpenAI 火了一把。对于Open AI, 我们知道它是一家非盈利的,要用开放的方法研究通用人工智能,为人类带来福祉的研究机...

37250
来自专栏新智元

【AI TOP 10】百度王海峰获全国创新争先奖;谷歌 TPU 之后,苹果也研发 AI 专用芯片;福布斯评6大AI思想家

新智元每日AI TOP 10 新智元 “每日AI ·TOP 10” 是新智元从 2017年5月起推出的一档快读栏目,精选汇集每日国内外最重大产业新闻,第一...

36170
来自专栏人工智能头条

CCAI 2017 | 蚂蚁金服人工智能部技术总监李小龙:蚂蚁金服智能金融实践

11930
来自专栏京东技术

智能预测技术在京东的发展与实践

今天让我们从预测系统的起源说起,聊聊预测技术在京东的发展与实践,看预测技术如何推进京东业务发展。

30830
来自专栏AI科技评论

从谷歌TPU谈起,人工智能正如何撼动芯片市场

编者按:本文原作者为 Wired 高级作家 Cade Metz。原标题为《How AI Is Shaking Up the Chip Market》。以下为雷锋...

33480
来自专栏灯塔大数据

谷歌 Ngrams :大数据如何创造错觉?

大数据如果我说美国人现在开始越来越以自我为中心了,你也许会想这个老家伙肯定又要嘟囔些「过去才是好日子」之类的。但是,如果我说我有着对1500亿个文本词语的分...

305100
来自专栏量子位

李飞飞倡导的AI“民主化”成了Google霸权的面具?

唐旭 编译整理 量子位 报道 | 公众号 QbitAI Google I/O大会结束了,身在很难接触相关服务的区域,我们可能很快就会忘记会上推出的种种面向普通用...

29860
来自专栏AI科技评论

剖析|AI可以写剧本了,能写出魔兽那样4天10亿的剧本吗?

GAIR 今年夏天,雷锋网将在深圳举办一场盛况空前的“全球人工智能与机器人创新大会”(简称GAIR)。大会现场,谷歌,DeepMind,Uber,微软等巨头的人...

50390

扫码关注云+社区

领取腾讯云代金券