【大咖说】英特尔首席工程师:大数据是上帝智能

本文作者:吴甘沙

全文3214字,建议阅读时间:5分钟

上期回顾:【大咖说】吴军:数据为王和机器智能的时代

一、大数据之道

我认为把一件事情讲清楚,就要从这五个方面阐述:势、道、法、术、器。我今天主要从道、法、术三方面阐述大数据。

2010年,谷歌每两天产生的数据量相当于人类文明曙光到2013年数以万计的时间长河所产生的数据总和,数据产生了指数级增长,我们可以看下指数曲线当中有一个有趣的特征:一开始的进展是非常缓慢的,但是突然到了一个转折点后,就以爆炸式的方式发展,下一步的进步可以是前面所有步的总和。因此,我们说,任何一个时间点的进步都不会太晚,而不是说机会都被前人拿走了。

二、大数据为什么会产生指数级的增长?

因为摩尔定律,一旦一个事情可以形成规律,就可以有预测能力,就有自我实现能力;摩尔定义不仅仅是技术的规律,也是经济的规律,如果两年以后你生产的东西和今天的东西一模一样,你的营业额会下降一半,因此,这意味着你必须得不停地奔跑,光跑得快,还不够,还得“更快”。

人是大数据的第一推动力;我认为有三个特点:最小化信息不对称,消费者有选择权;交易成本趋向于零,消费者行为高频化,比如电商;覆盖长尾人群,更多消费者参与。

杰文斯悖论指出技术进步导致资源利用率的提升,进而导致价格降低,最终增加资源的使用量,形成正向反馈。

三、从大数据理论的层面理解:

第一,第四范式;

数据探索可能会超越实践、理论和模式,成为新的范式。未来大家会看到越来越多社会科学和大数据的结合,比如通过和社会学的结合,你会看到计算社会学。

第二,理论已死,数据方法论(经验主义)万岁?

我们如何获得理论呢?传统的科学方法是先大胆假设、小心求证,先建立一个模型,做实验,从实验中看到一个数据,然后看到更多数据,从而发现有些假设是不对的,同时又留下了一些假设,形成我们对于世界的理解。·牛顿的机械力学理论、爱因斯坦的相对论,再到量子力学,我们发现当我们采集的数据越多,越缺乏一个最简单的理论可以解释。当数据多到一个程度,理论已经是奢望,数据即是模型。大数据只能发现当下知识疆域里面隐藏的未知部分,你还是需要靠你的天才想象力和理性拓展新的知识疆域。

第三,大数据的结论具有或然性;

大数据顶多不过是一个消息比较灵通的算命先生而已,大数据获得的任何一个结论都是以概率的视角去审视的。下面我给大家介绍三本书:《黑天鹅》(论点:这个世界是不可预测的)、《爆发》(论点:人类行为是可预测的)、《随机漫步的傻瓜》(虽然世界不可以预测,但是可以找到其中的概率)。

四、大数据的特征

第一,大的量度;

现在说大数据,都是ZB(十万亿亿字节:1000,000,000GB)的概念。制造业总量非常大,但是平均每家公司很小,它有非结构化、颗粒度细、多维度、高活性四个特征。其实,大不如“杂”和“快”重要,当你数据增长的速度够快的话,都可以称之为大数据,它强调多元化和高速的流转。

第二,杂;

数据来源具有结构化、非结构化、多样性。一个人有没有思想,就在于他能不能从各个侧面找到信息之后,从彼此的关联中总结出规律。

第三,快;

数据跟新闻和金融行情一样,具有时效性,你比别人快,就占有了先机。反映“快”的一个属性就是数据活性,这是数据价值的另外一个重要维度。

五、大数据三大思维的思辨

1、要全集,不要采样

传统采样带来了一些好处,但是它有百分之几的误差,更会丢失黑天鹅的信号,所以要全集。大家一直形容大数据是一个矿山,但其实它是贫矿。更多的数据,就一定可以胜过采样吗?好的采样优于不均匀的大量。

2、要混杂,不要精确

拥抱混杂性,等于喜欢混杂性吗?否。数据失去辨识度、失去有效性,就该扔了。“少量高质量数据+复杂算法”被“大量低质量数据+简单算法”打败吗?未必。

3、要相关性,不要因果性

人容易快思考,根据一些表面的相关性得出一个结论。比如服用中药,被治好和中药的服用存在相关性,但是不是因果性?未必。西药如果治好了你,它会做大规模的、随机的对照,把治好病的相关因素都列出来,然后一个个排除,看最终是哪个药治好了你的病。因此,我们要防止伪因果性,有些伪因果性是弱向性。

六、大数据的价值变现方式

1、知著(见天地、见众生)

传统收视率的调查是通过打电话问询,现在是通过数据机顶盒。同样,我们可以在Twitter上预测股民的情绪指数,这是从定性向定量计算的。我们常说个体是理性的,群体是非理性的,但是通过大数据,可以看到非理性的轨迹。

2、见微(见自己)

人群可以从细分到微分再到个人,对个人的刻画已经从个性化变成个体化。作为消费者,我们也希望商户以个性化的方式来对待我们。

3、当下

当下的价值是提高时间效率,抓住先机,就是快鱼吃慢鱼的概念。

4、皆明

皆明是同时考虑过去、当下和未来。预测性分析是预料未来会发生什么,而处方性预测是希望未来发生什么,然后提前做一些事情让未来发生。比如预测东风会来,这是预测性分析,而草船借剑就是处方性分析。

5、辩讹(求真)

湖南发现有一个地方用电异常,后来发现竟然有人在偷偷制造枪支。

6、晓意

电影《魔球》里面,一位棒球经理利用数据分析找到被忽略的人才,然后把他们集合在一起获得了很好的成绩。数据分析的秘密是让球探去评估,这是传统数据分析没有办法响应的地方。

七、大数据的境界

1、量化

量化虽然不能带来直接的好处,但是量化相当于给你的企业加上仪表盘,相当于数据史观,完成日志化、无纸化、自动化、工具化、移动化、社交化。我们说我们创造了技术,其实技术也影响了人,我们通过数据的不断刻画,成了“数据人”,“数据人”也会对真实人的行为发生影响和改变。

2、效率

通过量化、洞察、行动这三步可以提高效率。因为数据有噪声、有欺骗性、不全面,这个时候你把它泛化成所有数据是有问题的。我们很容易受到相关“快思考”的诱惑,其实大数据只能做预测,不能预言,它能够告诉你的是概率。

3、个性

首先你要获得客户数据,不断对客户做画像,然后实现基于兴趣图谱、社交图谱、事件图谱的个性化和精准广告、推荐、促销,甚至完成交叉销售等。

4、创造(新产品和服务)

从营销的个性化到产品的个性化;从产品设计的人性化到产品设计的新奇性;产品的拟人化;从数据换取免费服务;利用前后“皆明”获取跨时空的价值。

5、生态

互联网一直强调生态是“应用+终端+平台”,形成真正的价值,它既是数据的提供者,也是数据的创意者,也可以进一步提供数据的基础设施服务,它可以丰富自己的生态系统。

未来,我们会基于云计算的开放生态,解决计算速度的问题,现在我们有一个愿景:2020年前,做完全基因检测序、锁定癌症相关基因,形成个性化治疗。注意,主义,生态是开放创新的温床。

原文发布于微信公众号 - 钱塘大数据(qtbigdata)

原文发表时间:2017-01-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

清华大学邓志东教授:国内研究氛围浮躁,原创性算法太少

AI 科技评论按:自去年 3 月 AlphaGo 战胜李世乭后,人工智能「突如一夜春风来」地步入人们视线,业已成为家喻户晓的一个名词。目前,以深度卷积神经网络为...

307120
来自专栏大数据文摘

李飞飞四大视角看视觉智能:AI会改变世界,谁会改变AI(完整演讲+PPT)

25550
来自专栏新智元

双刃剑 | 机器学习的潜力与陷阱

最近这段时间,机器学习吸引了媒体和从业者大量的关注。的确,机器学习是一种变革性的技术。但是,尽管众人对这个话题喋喋不休,尽管风投为机器学习提供了许多资金,尽管谷...

28840
来自专栏大数据文摘

人机对话这件事为什么难?| 清华x-lab人工智能研习社

13710
来自专栏新智元

德勤 | 思维与机器:人工智能时代的预测之术

【新智元导读】预测对经济和社会极其重要。金融、医疗、政治以及反恐、自然灾害预防等等领域,预测都有着不可替代的作用。然而,此前的研究表明,即便是最顶级的专家,在预...

509160
来自专栏机器之心

观点 | SwiftKey联合创始人谈智能的基础:创造智能机器也许还需要身体

选自aeon 作者:Ben Medlock 机器之心编译 参与:黄小天、吴攀 本文作者 Ben Medlock 是 SwiftKey 的联合创始人。SwiftK...

353120
来自专栏新智元

中国常春藤联盟院校都参与,腾讯广告算法大赛30万大奖出炉!

【新智元导读】7月30日,2018腾讯广告算法大赛决赛结果出炉:来自吉林大学、哈工大和北邮同学组建的“葛文强”队夺得大赛冠军,赢得30万元奖金!这次大赛赛题是L...

10930
来自专栏华章科技

人工智能 = 深度学习?

该书选取了如何让机器“智能”地理解“短文本”(比如搜索查询、广告关 键字、标签、微博、问答、聊天记录等)这一前沿研究课题,汇集了王仲远博士及其合作作者在国际顶级...

15320
来自专栏大数据文摘

2小时, 从权游到自动驾驶, 英伟达创始人黄仁勋北京演讲说得最多的是“省钱”!(精华ppt)

13210
来自专栏新智元

【清华 AI 公开课】IJCAI理事长杨强:人工智能在企业的落地是一门大学问

17230

扫码关注云+社区

领取腾讯云代金券