前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【大咖说】英特尔首席工程师:大数据是上帝智能

【大咖说】英特尔首席工程师:大数据是上帝智能

作者头像
钱塘数据
发布2018-03-02 17:06:51
7810
发布2018-03-02 17:06:51
举报
文章被收录于专栏:钱塘大数据钱塘大数据

本文作者:吴甘沙

全文3214字,建议阅读时间:5分钟

上期回顾:【大咖说】吴军:数据为王和机器智能的时代

一、大数据之道

我认为把一件事情讲清楚,就要从这五个方面阐述:势、道、法、术、器。我今天主要从道、法、术三方面阐述大数据。

2010年,谷歌每两天产生的数据量相当于人类文明曙光到2013年数以万计的时间长河所产生的数据总和,数据产生了指数级增长,我们可以看下指数曲线当中有一个有趣的特征:一开始的进展是非常缓慢的,但是突然到了一个转折点后,就以爆炸式的方式发展,下一步的进步可以是前面所有步的总和。因此,我们说,任何一个时间点的进步都不会太晚,而不是说机会都被前人拿走了。

二、大数据为什么会产生指数级的增长?

因为摩尔定律,一旦一个事情可以形成规律,就可以有预测能力,就有自我实现能力;摩尔定义不仅仅是技术的规律,也是经济的规律,如果两年以后你生产的东西和今天的东西一模一样,你的营业额会下降一半,因此,这意味着你必须得不停地奔跑,光跑得快,还不够,还得“更快”。

人是大数据的第一推动力;我认为有三个特点:最小化信息不对称,消费者有选择权;交易成本趋向于零,消费者行为高频化,比如电商;覆盖长尾人群,更多消费者参与。

杰文斯悖论指出技术进步导致资源利用率的提升,进而导致价格降低,最终增加资源的使用量,形成正向反馈。

三、从大数据理论的层面理解:

第一,第四范式;

数据探索可能会超越实践、理论和模式,成为新的范式。未来大家会看到越来越多社会科学和大数据的结合,比如通过和社会学的结合,你会看到计算社会学。

第二,理论已死,数据方法论(经验主义)万岁?

我们如何获得理论呢?传统的科学方法是先大胆假设、小心求证,先建立一个模型,做实验,从实验中看到一个数据,然后看到更多数据,从而发现有些假设是不对的,同时又留下了一些假设,形成我们对于世界的理解。·牛顿的机械力学理论、爱因斯坦的相对论,再到量子力学,我们发现当我们采集的数据越多,越缺乏一个最简单的理论可以解释。当数据多到一个程度,理论已经是奢望,数据即是模型。大数据只能发现当下知识疆域里面隐藏的未知部分,你还是需要靠你的天才想象力和理性拓展新的知识疆域。

第三,大数据的结论具有或然性;

大数据顶多不过是一个消息比较灵通的算命先生而已,大数据获得的任何一个结论都是以概率的视角去审视的。下面我给大家介绍三本书:《黑天鹅》(论点:这个世界是不可预测的)、《爆发》(论点:人类行为是可预测的)、《随机漫步的傻瓜》(虽然世界不可以预测,但是可以找到其中的概率)。

四、大数据的特征

第一,大的量度;

现在说大数据,都是ZB(十万亿亿字节:1000,000,000GB)的概念。制造业总量非常大,但是平均每家公司很小,它有非结构化、颗粒度细、多维度、高活性四个特征。其实,大不如“杂”和“快”重要,当你数据增长的速度够快的话,都可以称之为大数据,它强调多元化和高速的流转。

第二,杂;

数据来源具有结构化、非结构化、多样性。一个人有没有思想,就在于他能不能从各个侧面找到信息之后,从彼此的关联中总结出规律。

第三,快;

数据跟新闻和金融行情一样,具有时效性,你比别人快,就占有了先机。反映“快”的一个属性就是数据活性,这是数据价值的另外一个重要维度。

五、大数据三大思维的思辨

1、要全集,不要采样

传统采样带来了一些好处,但是它有百分之几的误差,更会丢失黑天鹅的信号,所以要全集。大家一直形容大数据是一个矿山,但其实它是贫矿。更多的数据,就一定可以胜过采样吗?好的采样优于不均匀的大量。

2、要混杂,不要精确

拥抱混杂性,等于喜欢混杂性吗?否。数据失去辨识度、失去有效性,就该扔了。“少量高质量数据+复杂算法”被“大量低质量数据+简单算法”打败吗?未必。

3、要相关性,不要因果性

人容易快思考,根据一些表面的相关性得出一个结论。比如服用中药,被治好和中药的服用存在相关性,但是不是因果性?未必。西药如果治好了你,它会做大规模的、随机的对照,把治好病的相关因素都列出来,然后一个个排除,看最终是哪个药治好了你的病。因此,我们要防止伪因果性,有些伪因果性是弱向性。

六、大数据的价值变现方式

1、知著(见天地、见众生)

传统收视率的调查是通过打电话问询,现在是通过数据机顶盒。同样,我们可以在Twitter上预测股民的情绪指数,这是从定性向定量计算的。我们常说个体是理性的,群体是非理性的,但是通过大数据,可以看到非理性的轨迹。

2、见微(见自己)

人群可以从细分到微分再到个人,对个人的刻画已经从个性化变成个体化。作为消费者,我们也希望商户以个性化的方式来对待我们。

3、当下

当下的价值是提高时间效率,抓住先机,就是快鱼吃慢鱼的概念。

4、皆明

皆明是同时考虑过去、当下和未来。预测性分析是预料未来会发生什么,而处方性预测是希望未来发生什么,然后提前做一些事情让未来发生。比如预测东风会来,这是预测性分析,而草船借剑就是处方性分析。

5、辩讹(求真)

湖南发现有一个地方用电异常,后来发现竟然有人在偷偷制造枪支。

6、晓意

电影《魔球》里面,一位棒球经理利用数据分析找到被忽略的人才,然后把他们集合在一起获得了很好的成绩。数据分析的秘密是让球探去评估,这是传统数据分析没有办法响应的地方。

七、大数据的境界

1、量化

量化虽然不能带来直接的好处,但是量化相当于给你的企业加上仪表盘,相当于数据史观,完成日志化、无纸化、自动化、工具化、移动化、社交化。我们说我们创造了技术,其实技术也影响了人,我们通过数据的不断刻画,成了“数据人”,“数据人”也会对真实人的行为发生影响和改变。

2、效率

通过量化、洞察、行动这三步可以提高效率。因为数据有噪声、有欺骗性、不全面,这个时候你把它泛化成所有数据是有问题的。我们很容易受到相关“快思考”的诱惑,其实大数据只能做预测,不能预言,它能够告诉你的是概率。

3、个性

首先你要获得客户数据,不断对客户做画像,然后实现基于兴趣图谱、社交图谱、事件图谱的个性化和精准广告、推荐、促销,甚至完成交叉销售等。

4、创造(新产品和服务)

从营销的个性化到产品的个性化;从产品设计的人性化到产品设计的新奇性;产品的拟人化;从数据换取免费服务;利用前后“皆明”获取跨时空的价值。

5、生态

互联网一直强调生态是“应用+终端+平台”,形成真正的价值,它既是数据的提供者,也是数据的创意者,也可以进一步提供数据的基础设施服务,它可以丰富自己的生态系统。

未来,我们会基于云计算的开放生态,解决计算速度的问题,现在我们有一个愿景:2020年前,做完全基因检测序、锁定癌症相关基因,形成个性化治疗。注意,主义,生态是开放创新的温床。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-01-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 钱塘大数据 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档