硅谷教父皮埃罗独家访谈:创造大数据“杀手级”应用

文|WZS全媒体记者 牛金霞

来源|《浙商》杂志2016年3月上

导读

中国唐宋时期的思维方法毫不过时,如今中国在“大数据时代”寻求一种全新的“大数据思维”时不妨回溯历史,重新发现自己独有的处理复杂社会问题的方法。

全球范围内都在掀起一股大数据应用的热潮。在过去的一年中国出现了一股“大数据热”,以阿里巴巴为首的企业提出了“从IT时代到DT时代”以及“一切业务数据化、一切数据业务化”的口号。相关机构预测,到2020年世界将有200亿到300亿个网络连接装置,这意味着每年都会产生比之前20万年积累的更多的数据。

大数据领域的“杀手级”应用还未出现

记者:中国在过去的一年出现了一股“大数据热”,阿里巴巴为首的企业提出了“从IT时代到DI时代”以及“一切业务数据化、一切数据业务化”的口号。这是否意味着大数据应用全面商业化时代的来临?

皮埃罗:全球范围内都在掀起一股大数据应用的热潮。如今的硅谷应该被重新命名为“数据谷”,权威机构预测,到2020年将有200到300亿个网络连接装置,这意味着我们每年都会产生比之前200,000年更多的数据。在硅谷,人们将数据称之为新的“石油”,石油可以产出汽油和电力,而“数据石油”一旦提炼出来,将会产生无人驾驶汽车(运用GPS数据和交通数据)、无人机、可穿戴设备等等。石油和数据之间的不同在于,石油的产品无法再产出更多石油,而数据的产品(无人驾驶汽车、无人机和可穿戴设备等)却能产出更多的数据。

然而,颇让人失望的是,我们并不知道该拿这些正在“大爆炸”的数据怎么办。大都数情况下我们会做“数据分析”,但数据分析至少从60年代就开始了,这有什么新鲜呢?不过是通过对数据的分析试图发现事物之间隐藏的规律性或潜在的问题,然后优化整个流程,最终赚更多的钱而已。

自计算机被发明后迄今,让人汗颜的是,数据分析最主要的应用还是使大公司利润最大化。比如,大家提到大数据最有名的应用案例时都会提到亚马逊和阿里巴巴的“推荐引擎”,即通过分析其他消费者的数据来建议你该买什么;再比如,频繁被提到的关于大数据的故事还有美国最大零售连锁店之一的塔吉特(Target),它让一个父亲意外的发现自己还是高中生的女儿怀孕了,这一度让大数据声名显赫。事实上,塔吉特的算法识别购买系统特别关注准妈妈们,唯一的原因就是想要给她们推送特别促销广告,这就是我们能用大数据对孕妇做的事情?

记者:如今中国很多中小企业也在积极构建自己的大数据系统,比如服装企业用数据分析实现个性化生产和销售,或者制造水杯的企业考虑将杯子内置传感器,再增加一个APP,将其变成智能水杯。

皮埃罗:没错,但这些商家用数据分析做的也只是销售更多的产品,或者决定到底该发布哪种广告。这就是我们能对海量数据所做的事情?太有限了吧?可以说,大数据的真正“杀手级”应用还没有被发明出来。

我们先来看下大数据目前的现状。谁在产生大部分数据?机器。又是谁在阅读大数据?不管你相信与否,网上大约30%的“读者”都是机器人,而非人类,甚至连世界新闻大多数都是被机器人阅读的。

未来,数据的主要读者将是机器人。大数据世界的真实图景是:机器产生数据,机器阅读数据,并带来一个以机器为中心的数据世界。这也是为什么大数据迄今为止唯一有用的应用是数据分析,因为机器最擅长数学和统计,却不擅长理解人类世界。我们还没有“大数据”领域真正伟大的“杀手级”应用,正是因为是机器,而非人类在“阅读”这些数据。

大数据时代需要的不仅是“数据分析”

记者:的确如此,最近几年来,很多制造业企业纷纷建立了智能工厂,由于机器与机器的连接产生并收集了大量的数据,但到底能用这些数据做什么,到底如何挖掘数据的价值还让很多人困惑。目前为止,很多人还是寄希望于数据分析,足够精巧的数据分析总能带来很大改变吧?

皮埃罗:大数据时代必然要求数据分析能力的不断提高。如今,在很多大学里,计算和统计方法、可视化分析方法等都在不断改善和提升。但这些复杂的方法只是为了一个简单的目的,即让快速计算变得更便宜,因为大数据分析通常费用昂贵。

数据分析能力的快速提升确实让人惊叹,起初人们破译人类基因组需要花上10年时间,现在却有创业者能在不到一天的时间里就完成。这种能力也受到越来越多的重视,比如,斯坦福大学最受计算机系本科生欢迎的教材是《大规模数据挖掘》。这本书的第二版已经在2014年由剑桥大学出版(详见http://www.mmds.org/ )。也就是说,没有任何秘密,任何人都可以使用书中的方法来分析大数据。

但是,一种新的数学方法并不能给我们带来更有用的大数据应用,最多只能带来更便宜的数据分析。原因很简单:数学家们并不了解世界上的重大问题。要解决大的问题,仍然需要一种跨学科的方法,需要一种不仅仅只有“数据分析”的应用。

再比如,大数据分析比较典型的方法是寻找数据之间的相关性。典型的逻辑是,如果你跟许多拖欠信用卡贷款的人拥有几乎一样的购买记录,很可能你也会跟他们一样拖欠贷款。在技术层面,数据分析会试图将这种关联性建立模型。不过我们也就此又回到了大多数的数据都是被机器阅读和分析这个话题中。

数据分析会存在哪些问题呢?数个世纪以来,我们早就发现“假设—形成”这个方法有一个弱点:在大量数据中发现相关性并不难,难的是理解其中的因果关系。比如,如果有人发现,昨天在意大利都灵所有患上流感的人都穿着黑白相间的汗衫,这并不意味着这种汗衫引起了流感,或者卖这种汗衫的人就是传染源,这很有可能意味着这些患上流感的人都是尤文图斯足球俱乐部的球迷,因为这个俱乐部的官方球服就是黑白相间的汗衫。

都灵一半的人口都是尤文图斯足球俱乐部的球迷,从来不踢足球也对足球毫不了解的数学家们很可能会得出错误的结论,一个对足球一无所知的机器分析出来的结果很可能错的更离谱。相反,一位了解都灵的人会很快意识到这种数据上的相关性并不直接包含因果关系,而会推测这场流感是在尤文图斯球队昨天踢球的体育场爆发的。

这种数据之间因果关系难以判定的问题随着统计学诞生就存在了,然而,当我们面临的数据量特别大的时候,这个问题就显得尤其棘手,因为大量数据中的数据偶然相关性也是巨大的。

大数据时代我们当然需要更好的数学家,但我们同样需要来自各个学科的学者们。毕竟,解决人类社会的问题并不是一场数学竞赛。

大数据在医药生物领域尤其有用

记者:那您认为大数据应该关注和解决哪些“大问题”?您更看好它在哪个领域的应用?

皮埃罗:大数据可以应用的更广泛,最让人津津乐道的是预测未来。比如,可以用大数据预测大气污染什么时候会到达一个危险的水平,在那之前就采取措施;可以预测犯罪活动最有可能在哪里、在什么时候集中爆发,进而提前部署警力;也已有不少银行已经在使用一种类似大数据分析的系统来决定是否要给顾客贷款。

总的来说,我认为,大数据预测在医药生物领域特别有用。因为这个领域的数据实际上是无穷尽的,可惜的是我们甚至都没有将已有数据储存下来。人类基因组包含数十亿碱基对,我们目前对这些碱基对到底在人类基因中发挥什么作用,又是如何相互作用导致了疾病实在是所知甚少。但是,我们有80亿人生活在这个星球上,这是一个巨大的潜在数据库。大数据预测可以帮助我们找到哪些基因组合会带来疾病,而哪些组合又会带来强大的免疫力。比如,有些人对疟疾免疫。我们就可以专门研究这些人体内基因组中的碱基对的分布情况,找出其中的奥秘。

斯坦福大学曾举行了一个名为“生物医学领域的大数据”的年度峰会,峰会提出的口号就是“数据科学将重塑21世纪人类健康”。谷歌也曾按照地区搜索和预测流感的爆发,它还发起了一个研究世界范围内基因数据分布情况,进而预测疾病的项目。(详见https://www.dnastack.com)。 非常可惜的是,很多项目需要一些特定的大数据才能给公众提供有用的应用,但这些数据却掌握在一些不愿意向研究者开放数据库的公司手里。此外,我们身边触手可及的数据也可以提供很多有用的信息,但被我们“浪费”掉了。比如,斯隆基金会正在赞助这样一个大数据项目,该项目专门收集人们在火车站的机器触摸屏上留下的微生物信息,因为这些微生物可以让我们知道该城市人们的健康状况。

大数据带来商业合作大趋势

记者:大数据解决大问题确实需要广泛的合作,这是否意味着大数据领域的“杀手级应用”也会在合作中诞生,而不仅仅是几个大公司之间的游戏?

皮埃罗:确实如此。大公司确实对大数据的应用做出了很大的贡献。谷歌和脸书作为世界上屈指可数的两个大数据公司,其贡献主要是实现了实时处理海量数据的能力。

我们简单回顾一下大公司在处理大数据上的技术史。谷歌的团队由杰夫•迪安(Jeff Dean)和桑杰·格玛沃尔特(Sanjay Ghemawat)(约2004年)领导。他们开发了并行、分布式算法MapReduce,可以对大量、多种类的服务器机群提供极大的扩展能力,解决了公司管理数十亿搜索查询数据以及与其他用户交互的实际问题。

脸书的团队则开发了Cassandra(一套开源分布式非关系型数据库系统)。这个系统利用了亚马逊和谷歌的技术,解决了脸书的数据管理问题。脸书在2008年将其赠送给了阿帕奇开源社区。乔纳森·埃利斯(Jonathan Ellis) and 马特·派菲儿(Matt Pfeil)与2010年在加州圣克拉拉成立了DataStax公司。该公司使用Cassandra并把它发展成把它变成能够与甲骨文竞争的关键任务数据库管理系统,在业内数一数二。

2005年,一位雅虎的工程师道格·卡丁(Doug Cutting),以及迈克·卡夫拉(Mike Cafarella)开发了MapReduce服务以及一个分布式文件系统(HDFS)。从2006年以后我们称之为Hadoop,用于在机群服务器上存储和处理大量的数据集。Hadoop曾经在雅虎内部使用并最终变成另一个阿帕奇的开源框架。此后,随着Hadoop成为行业标准,出现了不少以它为基础的大数据创业公司。于此同时,谷歌也开发了自己的大数据服务引擎Dremel(2010年对外宣布,实际上2006年就已在内部使用)。

目前,我们确实还没有大数据领域的“苹果手机”或“脸书”之类的杀手级应用。但切记,相关的软件已经有了,而且是免费的。大数据的最大使用者谷歌和脸书已经将他们的大数据基础设施做成了面向公众的开源软件,包括脸书开发的Cassandra以及谷歌的诸多大数据技术服务。此外,其他不少由美国高校或政府研发的大数据分析软件也都是开源的。

为什么呢?因为我们想要越来越多的创业者在大数据领域探索和试验,甚至连大公司也希望更多的小公司能够参与进来。我们想要看一下是否有人能发明大数据领域的“杀手级应用”。

大公司将它们的大数据服务作为开源平台面向公众释放的信号是,即便竞争最激烈的商业领域也更看重合作而非竞争,这也是未来商业的大势所趋。

中国有潜力创造全新的大数据思维

记者:很多人认为,大数据时代最重要的是培养“大数据思维”,这可能也是产生大数据“杀手级”应用的必要条件,您认为这是一种怎样的思维方式? 我们又该如何培养?

皮埃罗:毫无疑问,大数据时代确实需要一种全新的思维方式。因为数据有着多种多样的来源,任何一个专家(无论是人类还是机器)都不可能吸收所有的数据,这仍旧要求具有跨学科的方法。

1930年代,有两个人在美国开创了“大科学”,麻省理工学院的范内瓦·布什(Vannevar Bush,二战时期美国最伟大的科学家和工程师之一)和欧内斯特·劳伦斯(Ernest Orlando Lawrence,美国著名物理学家、1939年诺贝尔物理学奖得主)。虽然两人合作的动机来自战争,受益的却是和平时期的社会。

布什和劳伦斯意识到,解决大问题需要很多不同的头脑:“大科学”正是将不同学科的科学家们聚集在一起。这种“大科学”方法给我们带来了很多影响深远的发明,比如核能和互联网。可以说,“大科学”就是“大数据”的最早应用,区别是数据当时都存在于不同科学家们的大脑里,但当时和现在使用的方法必须是相似的,即为了能用大数据解决大问题,我们需要一种跨学科的方法来创造、创新。

这样跨学科的研究机构已经在不断涌现。比如,哈佛大学量化社会科学研究所主任盖瑞·金(Gary King)就召集和组建了一个由社会学家、经济学家、物理学家、律师、心理学家等组成的研究团队。你可以从网站上看到他们目前的阵容组成:http://www.iq.harvard.edu/team-profiles。伯克利大学也建立了数据科学研究所(BIDS),成员中同样有人种志学者、神经系统科学家、社会学家、经济学家、物理学家、生物学家以及心理学者们,甚至还包括一位地震学家。

用大数据解决大问题实际上还有更早的例子,古代中国。我认为,当今中国也最有潜力创造全新的大数据思维模型,因为中国人几百年前就已经发明并使用了这种思维。唐宋时期,理想的“君子”一定是一位跨学科的学者,他必须同时是政治家、历史家、作家、画家、诗人、书法家……他需要学习所有的经典书籍。可以说,中国早就创造了一种“多任务处理思维”,唐宋时期的读书人能够肩负起解决社会大问题的责任,正是由于他从不同的领域吸收了足够多的知识。

有人会问,书法到底跟解决社会大问题有什么关系?当然有,它在无形中塑造着你的头脑和精神,使你更有智慧。而只要拥有一个足够智慧的大脑,不管面临什么问题,你总能找到正确的解决方案。

我认为,中国唐宋时期的思维方法毫不过时,如今中国在“大数据时代”寻求一种全新的“大数据思维”时不妨回溯历史,重新发现自己独有的处理复杂社会问题的方法。

END

版权声明:

转载文章均来自公开网络,仅供学习使用,不会用于任何商业用途,如果出处有误或侵犯到原作者权益,请与我们联系删除或授权事宜,联系邮箱:holly0801@163.com。转载大数据公众号文章请注明原文链接和作者,否则产生的任何版权纠纷与大数据无关。

原文发布于微信公众号 - 大数据(hzdashuju)

原文发表时间:2016-06-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏镁客网

不只针对AI!微软CEO提出10条AI和人类行为准则

1362
来自专栏数据科学与人工智能

【数据科学】需求高涨的数据科学家

从技术方面来看,硬盘价格下降,NoSQL数据库等技术的出现,使得和过去相比,大量数据能够以廉价高效的方式进行存储。此外,像Hadoop这样能够在通用性服务器上工...

3628
来自专栏PPV课数据科学社区

【人工智能】达沃斯看好的人工智能发展到了哪一步

看似巧合,从《星际穿越》《火星救援》《2001太空漫步》到热映的《星球大战》,无数科幻片的主角身边,总有个机器人助手或者人工智能协助系统。这就是人类设想的未来吗...

3426
来自专栏媒矿工厂

虚拟现实技术及其广泛应用

近日,上海交通大学电子系图像所宋利教授及其研究生罗莹在《科学》杂志2018年1月刊上发表了一篇名为《虚拟现实技术及其广泛应用》的综述性科普文章,清晰扼要地为大众...

3514
来自专栏AI科技评论

CNCC 2018 字节跳动马维英演讲:人工智能赋能内容创作和交流

AI 科技评论按:2018 中国计算机大会(CNCC2018)于 10 月 25-27 日在杭州国际博览中心举办,会议由中国计算机学会(CCF)主办,杭州市萧山...

922
来自专栏PPV课数据科学社区

【观点】大数据专家舍恩伯格最新演讲全文

6月19日上午消息,第十二届中国国际软件和信息服务交易会在大连世界博览广场开幕。本次会议时间为6月19日-22日,聚焦智慧城市、云计算、物联网等技术热点和产品服...

3527
来自专栏大数据文摘

到底人工智能会不会统治世界?

1202
来自专栏程序员笔记

藏在游戏外表之下的

1874
来自专栏VRPinea

押注AR:Oculus正秘密建设孵化团队,打造AR硬件

2523
来自专栏新智元

【彭博研究巨献】2016 机器学习生态全景图 3.0:机器智能改变世界

【新智元导读】Bloomberg Beta 团队回顾总结全球机器学习 2016 一年发展,总结技术、应用、产业等各方面并展望未来。核心请看他们绘制的《机器学习生...

3999

扫码关注云+社区

领取腾讯云代金券