大数据的下半场:谁参透数据的本质,谁就能破局称王

大数据与人工智能为人们带来了曙光,也引发了担忧。暂且撇开我们会不会被机器人侵略这个问题,人类真的已经充分利用了自己的潜能了吗?数据是一种信仰, 我们应该善用这个宝藏,为人类创造更美好的世界。

来源 |腾讯文化《数据的本质》

一场以大数据为核心的智能盛宴

时下仿佛大家都在谈人工智能,就像当年人人都在谈大数据一样。在不同场合上,阿里巴巴的马云、百度的李彦宏及腾讯的马化腾分别谈过自己对人工智能的看法和观点。这种对话有点儿像金庸小说中的华山论剑。到底是气宗( 大数据)还是剑宗(人工智能)更有战略意义?我认为,两者是相辅相成的。经历了互联网20 年的发展,我们已经积累了足够多的数据去驱动一场“智能盛宴”,以大数据为核心的人工智能渐露端倪。

有一天晚上准备睡觉时,听到隔壁传来女儿跟苹果智能语音助手Siri 对话的声音。我太太问我,这样正常吗?我告诉她不用担心,这是目前的趋势。根据不久前美国“用户普及率调查”的结果,语音助手的使用已经达到引爆点,并在走向大规模普及的阶段。

前段时间,我在美国旧金山就拜访了Semantic Machines 的创始人兼CEO 丹· 罗斯(Dan Roth),这家公司的成员很多都是Siri 和Echo 的幕后功臣。如今,罗斯领导着一个汇集了自然语言处理、语义理解、会话计算等领域专家的顶级团队,目标是攻破人机对话领域这个老大难的题目。

罗斯把他们正在研发的革命性技术称为对话式人工智能(Conversational AI)。与Siri 相比,这种技术能够更真实地了解用户本人的意图,哪怕用户从一个话题跳到另一个话题,又或者说的话不完整、不连贯,而这些正是人类对话的自然特点。这些特点正是目前这类技术的难点所在,相信了解破解自然语言难度的人都清楚,这项研究一旦成功,必然会改变世界。

2010 年,“数据科学家”这个称谓的发明者帕蒂尔(D.J.Patil)和杰夫· 哈默巴赫(Jeff Hammerbacher)认为,一切应该以产品为中心,从数据获取、数据清洗、搭建和管理数据设施、原型开发、产品设计等方面,去实践数据的价值。我在阿里就经历了从“数据产品”到“数据作为产品”的阶段,后者其实才是大数据的真正产物,也是人工智能的源泉。

谁掌握“完美信息”,谁就将拥有整个世界

刚开始进入数据行业时,我一直秉承着这样一个理念:在“假设数据都是可获取的”基础上,思考问题。随着整个社会数据化程度的进一步加深,以及人与物之间的高度互联,以前很多信息的盲点被快速解开。由不同领域积累下的数据形成的“完美信息”渐露端倪,这其实是一个数据从量变到质变的过程。这一“完美信息”具有无限潜能,足以让人工智能所向披靡,催生各种智能场景,并让其如潮涌至。智能时代,秉承“假设数据都是可获取的”这一思维方式,才可让你比别人更胜一筹,从而做到心中有数。

现实中,我们从数据收集、整合、判断,以至行动、再到反馈的过程并不完美,而形成数据闭环系统的阻力往往是人为因素居多。谷歌无人驾驶汽车项目的伟大之处正是给了我们重要的启发,让我们意识到自动化及智能化所需要的数据闭环系统是如何做到了既封闭又开放,其中的里应外合正是未来的发展趋势。我在阿里就经历了4 个不同阶段:数据驱动决策、数据驱动流程、数据驱动产品、数据驱动业务。在此过程中,你会发现,数据驱动的目标越模糊、数据越零散、人的互动环节越多,智能项目开展起来就越吃力。

从数据战略到数据治理,别让数据成为累赘

如前所述,数据资源的积累是发展数字经济的前提。企业在向往智能时代所带来的机遇的同时,更要为企业的未来目标制定数据战略。企业不仅要关注自己现在有什么数据,更要了解未来会欠缺什么。然后,再去探讨欠缺的部分有多少可以靠自己补充,有多少需要求助他人、与他人合作以实现补充。有人把数据比喻为电能,这个比喻很生动,但与电能不一样的是,数据是可以被重复使用的。

在阿里时,我是怎么处理部门间数据互通这件事情的呢?很简单,首先是找出大家有意愿共用的部分,我称其为企业内的公共数据,然后安排资源把这一部分先建设起来。选择公共数据也有一定的技巧,简单归类就是:各部门已经在高频率但低效率的单线流通的数据,被野蛮重复复制到各部门的相同数据,大家都有意愿首先标准化的数据。当这些带有公共性质的核心数据建立起来之后,大家就能更容易地感受到数据高质量流通的意义及好处。要保证这些数据的质量和新鲜度也相对变得容易了。

所以从战略意义上来说,第二使用权的合规性变得非常微妙。大数据背后的逻辑是数据积累越多越好,在过去两三年,很多企业都相信有了大量数据资源后,就能对企业的业务产生更大价值。

但人们往往很快就会发现,除了技术能力之外,如何妥当地管理、利用这些资源并非易事:安全合规是一方面,降低数据使用的阻力及风险也是困难重重。所以我一直倡议,数据治理不是数据部门的工作,而是公司总体的战略。这意味着,“本性纯善”的大数据也容易变成一个累赘。

数据是一种信仰,“善”用才是本质

2016 年,一场围棋大战让人类引以为傲的智力顶配瞬间被AlphaGo 践踏得体无完肤。而在我看来,这场大战其实不过是一帮人赢了另一帮人,而且大部分人仅注意到了智“能”,而忽略了它与智“慧”的差别:“能”是能力的表现,而“慧”是心除杂念,将智能用在具有普世价值的地方。同样的科技能力是被善用还是被滥用只有一线之差。

2016 年在英国伦敦召开的一场数据大会上,有人预测:英超联赛莱斯特城足球俱乐部的中场球员里亚德· 马赫雷斯(RiyadMahrez)将成为值得关注的球员。当时他在演讲中说:“根据我们的数据,目前马赫雷斯不仅是英国最好的中场球员,也是欧洲最好的中场球员之一。我敢说,在本赛季结束时,他的价值将非常巨大。”其数据显示,马赫雷斯在各类足球比赛期间,先后出场35 次,总体评分1118 分,在欧洲排名第6 位,仅次于1 635 分的“阿根廷球王”梅西等5 位球员。

结果,莱斯特城足球俱乐部2017 年1 月爆出超级大冷门,首次获得英超联赛冠军。表现神勇的马赫雷斯不但是最大功臣,更荣膺英超联赛最佳球员,即“足球先生”,成了第一位获此荣誉的非洲球员。

这位堪称“ 神预测” 的仁兄叫瓦莱里· 博利埃(ValeryBollier),是一家体育运营商Oulala 的联合创始人兼CEO,其公司以其复杂精妙的数学矩阵闻名。他们的系统包含了70 个取决于球员位置(守门员、后场、中场、前锋等)的不同标准,总共能够衍生出275 种或得分或丢分的方式。这些方式多种多样,从进球和助攻,到具体射中球门和成功阻截等,尽量量化了接近比赛的真实情况。

为什么博利埃能够未卜先知,竟在年前就作出如此准确的预测?其实答案就是大数据和信息。球队的班主、教练和星探等,都被这种量化管理震惊。他们难免开始担忧,在大数据领域落后了怎么办?那就等着被淘汰吧。

几千年来,人类习惯了生存在信息稀缺的年代,大数据与人工智能则为人们带来了曙光,同时也引发了担忧。暂且撇开我们会不会被机器人侵略这个问题,人类真的已经充分利用了自己的潜能了吗?数据是一种信仰, 我们应该善用这个宝藏, 为人类创造更美好的世界。

- Read More -

本文来自企鹅号 - 技术潮媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能头条

AI黑科技:久等了中国,我们来了!

从芯片巨头到如今的数据公司,英特尔可谓是如今人工智能球场上的头号玩家。英特尔正在把AI能力释放到各种各样的应用场景,推动应用落地,致力于“用技术造福社会”。

743
来自专栏镁客网

全球传媒巨头纷纷布局,VR影视内容的爆点可期

1043
来自专栏CDA数据分析师

农夫山泉、阿迪达斯、《纸牌屋》……5个关于数据挖掘的真实故事

就在制作这期“大数据专题”时,编辑部发生热烈讨论:什么是大数据?编辑记者们旁征博引,试图将数据堆砌的商业案例剔除,真正的、实用性强的数据挖掘故事留下。 我们报道...

2418
来自专栏VRPinea

厂商专访︱米多娱乐:内容为王的同时,VR+互动非常必要

3388
来自专栏企鹅号快讯

智能机器人崛起背后的中国力量

近年来,新一轮科技革命和产业变革蓄势待发,几乎所有的制造业强国都默契的把目光集中在了机器人领域。 日本政府在2015年公布《机器人新战略》,提出了三大核心目标:...

2027
来自专栏VRPinea

顾客新宠柜姐福音,AR试妆引领购物新体验

2706
来自专栏镁客网

最新研发!AI筛选胚胎,有效提升体外受精成功率

借助AI工具能够让35岁以下没有潜在健康问题的女性在接受试管受精治疗时,由50%的成功率提升到了70%。

713
来自专栏机器人网

干货!无人机基本知识攻略

一、无人机是什么   无人机是无人驾驶飞机的简称(Unmanned Aerial Vehicle),是利用无线电遥控设备和自备的程序控制装置的不载人飞机,包括无...

3014
来自专栏机器人网

国产外骨骼机器人将步入商业化,偏瘫患者有望重新“走”起来

对于脊髓损伤和脑卒中(中风)患者而言,站起来已经是个遥不可及的梦想,自己走路更是想都没想过的事情,然而,外骨骼机器人的诞生却给了他们希望。11月11日,深圳迈步...

3306
来自专栏华章科技

高效能码农的自我修养:5本书教你怎样科学学习,拒绝无用功

导读:作为一枚苦逼的码农,你需要学习很多东西。但在开始的开始,你学会学习了吗?科学、高效的学习方法,会让你事半功倍。今天书单姐推荐5本书,为你带来26种黄金学习...

782

扫码关注云+社区