专栏首页大数据文摘大咖 | 车品觉:我们为什么要认识数据的本质

大咖 | 车品觉:我们为什么要认识数据的本质

大数据文摘作品

作者 :车品觉

一场以大数据为核心的智能盛宴

时下仿佛大家都在谈人工智能,就像当年人人都在谈大数据一样。在不同场合上,阿里巴巴的马云、百度的李彦宏及腾讯的马化腾分别谈过自己对人工智能的看法和观点。这种对话有点儿像金庸小说中的华山论剑。到底是气宗( 大数据)还是剑宗(人工智能)更有战略意义?我认为,两者是相辅相成的。经历了互联网20年的发展,我们已经积累了足够多的数据去驱动一场“智能盛宴”,以大数据为核心的人工智能渐露端倪。

有一天晚上准备睡觉时,听到隔壁传来女儿跟苹果智能语音助手Siri对话的声音。我太太问我,这样正常吗?我告诉她不用担心,这是目前的趋势。根据不久前美国“用户普及率调查”的结果,语音助手的使用已经达到引爆点,并在走向大规模普及的阶段。

前段时间,我在美国旧金山就拜访了Semantic Machines 的创始人兼CEO 丹· 罗斯(Dan Roth),这家公司的成员很多都是Siri和Echo的幕后功臣。如今,罗斯领导着一个汇集了自然语言处理、语义理解、会话计算等领域专家的顶级团队,目标是攻破人机对话领域这个老大难的题目。

罗斯把他们正在研发的革命性技术称为对话式人工智能(Conversational AI)。与Siri相比,这种技术能够更真实地了解用户本人的意图,哪怕用户从一个话题跳到另一个话题,又或者说的话不完整、不连贯,而这些正是人类对话的自然特点。这些特点正是目前这类技术的难点所在,相信了解破解自然语言难度的人都清楚,这项研究一旦成功,必然会改变世界。

2010 年,“数据科学家”这个称谓的发明者帕蒂尔(D.J.Patil)和杰夫· 哈默巴赫(Jeff Hammerbacher)认为,一切应该以产品为中心,从数据获取、数据清洗、搭建和管理数据设施、原型开发、产品设计等方面,去实践数据的价值。我在阿里就经历了从“数据产品”到“数据作为产品”的阶段,后者其实才是大数据的真正产物,也是人工智能的源泉。

《决战大数据》《数据的本质》作者:车品觉

谁掌握“完美信息”,谁就将拥有整个世界

刚开始进入数据行业时,我一直秉承着这样一个理念:在“假设数据都是可获取的”基础上,思考问题。随着整个社会数据化程度的进一步加深,以及人与物之间的高度互联,以前很多信息的盲点被快速解开。由不同领域积累下的数据形成的“完美信息”渐露端倪,这其实是一个数据从量变到质变的过程。这一“完美信息”具有无限潜能,足以让人工智能所向披靡,催生各种智能场景,并让其如潮涌至。智能时代,秉承“假设数据都是可获取的”这一思维方式,才可让你比别人更胜一筹,从而做到心中有数。

我在阿里时就曾参与设计了一款智能营销工具 “Look-Alike”。通过机器学习,我们可以利用过去积累的客户消费特征(每个客户有高达上万个标签),作出精准推送广告的决策。有别于过去的广告规划,我们不会问广告主如何描述其目标客户群,而是让广告主给出500个喜欢某品牌的用户名单,我们就可以帮他找出5000个,甚至5万个类似的客户。这种方法可以在几个小时之内快速“扫描”出最有效的营销方案。通过这项技术,我们基本可以实现让广告主喜出望外的精准广告投放效果。但问题是,这种产品真的能为广告业及阿里带来新的价值吗?这还只是大数据革命的开端,大家可以拭目以待!

现实中,我们从数据收集、整合、判断,以至行动、再到反馈的过程并不完美,而形成数据闭环系统的阻力往往是人为因素居多。谷歌无人驾驶汽车项目的伟大之处正是给了我们重要的启发,让我们意识到自动化及智能化所需要的数据闭环系统是如何做到了既封闭又开放,其中的里应外合正是未来的发展趋势。我在阿里就经历了4个不同阶段:数据驱动决策、数据驱动流程、数据驱动产品、数据驱动业务。在此过程中,你会发现,数据驱动的目标越模糊、数据越零散、人的互动环节越多,智能项目开展起来就越吃力。

从数据战略到数据治理,别让数据成为累赘

如前所述,数据资源的积累是发展数字经济的前提。企业在向往智能时代所带来的机遇的同时,更要为企业的未来目标制定数据战略。企业不仅要关注自己现在有什么数据,更要了解未来会欠缺什么。然后,再去探讨欠缺的部分有多少可以靠自己补充,有多少需要求助他人、与他人合作以实现补充。有人把数据比喻为电能,这个比喻很生动,但与电能不一样的是,数据是可以被重复使用的。

在阿里时,我是怎么处理部门间数据互通这件事情的呢?很简单,首先是找出大家有意愿共用的部分,我称其为企业内的公共数据,然后安排资源把这一部分先建设起来。选择公共数据也有一定的技巧,简单归类就是:各部门已经在高频率但低效率的单线流通的数据,被野蛮重复复制到各部门的相同数据,大家都有意愿首先标准化的数据。当这些带有公共性质的核心数据建立起来之后,大家就能更容易地感受到数据高质量流通的意义及好处。要保证这些数据的质量和新鲜度也相对变得容易了。

所以从战略意义上来说,第二使用权的合规性变得非常微妙。大数据背后的逻辑是数据积累越多越好,在过去两三年,很多企业都相信有了大量数据资源后,就能对企业的业务产生更大价值。

但人们往往很快就会发现,除了技术能力之外,如何妥当地管理、利用这些资源并非易事:安全合规是一方面,降低数据使用的阻力及风险也是困难重重。所以我一直倡议,数据治理不是数据部门的工作,而是公司总体的战略。这意味着,“本性纯善”的大数据也容易变成一个累赘。

数据是一种信仰,“善”用才是本质

2016 年,一场围棋大战让人类引以为傲的智力顶配瞬间被AlphaGo 践踏得体无完肤。而在我看来,这场大战其实不过是一帮人赢了另一帮人,而且大部分人仅注意到了智“能”,而忽略了它与智“慧”的差别:“能”是能力的表现,而“慧”是心除杂念,将智能用在具有普世价值的地方。同样的科技能力是被善用还是被滥用只有一线之差。

2016 年在英国伦敦召开的一场数据大会上,有人预测:英超联赛莱斯特城足球俱乐部的中场球员里亚德· 马赫雷斯(RiyadMahrez)将成为值得关注的球员。当时他在演讲中说:“根据我们的数据,目前马赫雷斯不仅是英国最好的中场球员,也是欧洲最好的中场球员之一。我敢说,在本赛季结束时,他的价值将非常巨大。”其数据显示,马赫雷斯在各类足球比赛期间,先后出场35 次,总体评分1118 分,在欧洲排名第6 位,仅次于1 635 分的“阿根廷球王”梅西等5 位球员。

结果,莱斯特城足球俱乐部2017 年1 月爆出超级大冷门,首次获得英超联赛冠军。表现神勇的马赫雷斯不但是最大功臣,更荣膺英超联赛最佳球员,即“足球先生”,成了第一位获此荣誉的非洲球员。

这位堪称“ 神预测” 的仁兄叫瓦莱里· 博利埃(ValeryBollier),是一家体育运营商Oulala 的联合创始人兼CEO,其公司以其复杂精妙的数学矩阵闻名。他们的系统包含了70 个取决于球员位置(守门员、后场、中场、前锋等)的不同标准,总共能够衍生出275 种或得分或丢分的方式。这些方式多种多样,从进球和助攻,到具体射中球门和成功阻截等,尽量量化了接近比赛的真实情况。

为什么博利埃能够未卜先知,竟在年前就作出如此准确的预测?其实答案就是大数据和信息。球队的班主、教练和星探等,都被这种量化管理震惊。他们难免开始担忧,在大数据领域落后了怎么办?那就等着被淘汰吧。

几千年来,人类习惯了生存在信息稀缺的年代,大数据与人工智能则为人们带来了曙光,同时也引发了担忧。暂且撇开我们会不会被机器人侵略这个问题,人类真的已经充分利用了自己的潜能了吗?数据是一种信仰, 我们应该善用这个宝藏, 为人类创造更美好的世界。

本书内容内容摘自车品觉老师新书《数据的本质》

本文分享自微信公众号 - 大数据文摘(BigDataDigest)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-11-03

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 国务院印发《促进大数据发展行动纲要》(全文)

    大数据文摘
  • 关于数据分析,管理者的4个常规错误

    大数据文摘
  • Nature:中国的科学进步仰赖于数据公开

    大数据文摘
  • 大数据兴起预示“信息时代”进入新阶段

    导读:大数据已成为媒体与大众关注的新技术,大数据的应用也预示着信息时代将进入一个新阶段,但人们对大数据的认识有一个不断加深的过程。首先从“信息时代新阶段”、数据...

    钱塘数据
  • 投稿 | 现阶段我为什么不看好纯粹的数据交易?

    原力大数据创始人江颖表示,尽管大数据交易平台建设正值爆发期,数据交易号称的市场规模也在不断壮大,同时也有国家大力的政策支持。但是短期内,我仍然不看好数据交易,因...

    数据猿
  • 大数据24小时 | 美国创企LogicMonitor完成 1.3亿美元融资 ,京东金融再扩版图布局车联网大数据

    <数据猿导读> 提供数据中心监测服务的美国创企LogicMonitor完成 1.3亿美元融资;东南卫视与认知数据合作,布局影视文化大数据;京东金融再扩版图,合作...

    数据猿
  • 英国2020《国家数据战略》与世界各国对比解析

    2020年9月9日,英国数字、文化、媒体和体育部(DCMS)发布《国家数据战略》(下文简称《战略》),支持英国对数据的使用,帮助该国经济从疫情中复苏,并将在20...

    明悦数据
  • 透过数据魔镜看人看物看世界

    万物皆数,透过数据的魔镜能够帮助人类照出万物的本质,看人看物看世界。正如实现心愿的如意——如意如意快快显灵,数据的如意如今已经成为评判人和物的标尺,给人给物画像...

    机器思维研究院
  • 盛世的阴影:大数据时代的挑战渐渐浮出水面

    数据猿导读 6月29日,由数据猿主办的金融大数据峰会在上海盛大召开,现场汇集了众多来自大数据领域内执牛耳的重量级嘉宾。大数据被誉为第四次工业革命的能源,整个产业...

    数据猿
  • 数据清洗 Chapter01 | 数据清洗概况

    这篇文章讲述的是数据存储方式和数据类型等基本概念、数据清洗的必要性和质量评价的关键点。希望这篇数据清洗的文章对您有所帮助!如果您有想学习的知识或建议,可以给作者...

    不温卜火

扫码关注云+社区

领取腾讯云代金券