前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >袁岳:数据不在数量大,胜在“多元”

袁岳:数据不在数量大,胜在“多元”

作者头像
CDA数据分析师
发布2018-02-23 17:54:24
6520
发布2018-02-23 17:54:24
举报
文章被收录于专栏:CDA数据分析师

本文由CDA数据分析师小编 整理自零点研究咨询集团董事长袁岳在“2015年中国数据分析师行业峰会”上的演讲,转载请注明出处

大数据既是一个科学,它同时是一个艺术,我重点是代表艺术那个方面的。为什么呢?因为我从初中开始,数理化很少超过60分的。等到我上大学的时候,走一个狗屎运考了84,一直是文科,本科学法律,研究生也是学法律,博士的时候是社会学,后来学管理,主要是公共管理,还不是工商管理的,所以我基本的特点是典型的文科男。

但是我对数据会有自己的感觉,而且很大程度上,我今天思路的出发点不是从大规模数据的拥有者的前提出发谈这个问题,今天讲到大数据的时候,其实有两种人:一种人拥有非常大的数据来源,无论是国家统计局,还是阿里巴巴和京东,它们有很大的数据来源;还有一部分人拥有强大的数据开发能力,比如英特尔、IBM等等。这两组人结合在一起玩儿大数据,玩大的。

其实大数据最大的一个问题,就是很多学了大数据,想用大数据,或者受益大数据的人,在大数据的世界里你所得到的是一些结果,是数据运算以后的东西,你基本上没有机会接触到数据源,甚至你也没有能力或者资源充分地应用数据工具,这就产生了一个巨大的大数据鸿沟。大数据鸿沟是在未来DT时代一个最重要的(特征),就像我们以前说的财富鸿沟。大数据鸿沟是未来区分企业与企业,个人与个人之间的一个很重要的东西。

请注意,大数据本身是可以操纵的。也就是说,我运算出来一个大数据,因为你无法接触数据源和大规模应用核心的大数据,所以你只是接受了一个结果,只是人们用了大数据的结果,所以你在用的过程中本身就可以被操纵了。实际上我们要用的数据只能是大数据源。你用阿里巴巴数据,其实不能直接给你用的,无论你是学者或者什么,用的机会非常少。所以我们在过去的这么多年来一直在探讨,就是如何我们可以使用上(数据源),可以慢慢增大数据。

今天我们所说的大部分数据,是大数据来源整合之后的大数据。而我们致力于要解决的问题是,如果没有大数据源,如何能够获取较大的数据。

过去我在国家部委给领导当文秘的时候,我给领导写报告,经常写“广大群众一致认为”。我们会问领导,一个人没问过,怎么叫一致认为呢。领导说,不用问,我们代表他们。同样的道理,我们为什么做民意调查或社会调查,它是挨个儿搜集极微小的数据,累积一定规模量的数据。

这个小的数据建立的是单个人的意见行为,但是累积更多的数据库分析的时候,它就比单个的数据库更大,所以从这个意义上来说数据大小不是一个绝对的概念。就像阿里巴巴平台上所有的数据,它不能跟京东的平台数据简单的整合分析。所以阿里巴巴数据可以看做是一个单一数据,所以这方面来讲是一个小数据。国家统计局说我的数据是准的,有的学者说不准,统计局说你拿一套给我看,没有。所以在这个意义上来说,大的国家统计的数据在单一来源上说它也相当于是一个小数据,因为没有多元可印证的数据来源。

因此,我个人认为在今天多元数据的意义重于数量意义上的大!明白了这点之后,我们再来探讨数据的广。其实中国银行过去有很多数据,但是中国银行的信用数据你能随便调用吗,只有中国人民银行能调用;阿里巴巴能调用人民银行的数据,人民银行调用阿里巴巴的数据吗,都不行。所以看起来有很多个很大的孤岛,在数据不连接的情况下,你称其为大,也只是孤岛意义上的大,在大数据的视野中是小的,这是我给大家的第一个核心要强调的概念。

我们要打破数据的孤岛。比如说在公司里,像万科,够大,它是在住宅房地产中间最大的公司,但是如果到某一个分公司会发现,它的分公司的数据都是互相不互通的,像销售数据和物业管理部门的数据,和它财务掌握的相关的业务数据,之间是不连通的。也就是说,万科本来是一个单一数据源,在一个单一数据源里面它的数据本身都还是一个信息孤岛。可见信息孤岛现象很严重,你说政府数据不公开,你到政府里面会发现发改委不知道人事部的数据,人事部不知道发改委的数据,这两个部委之间互相是孤岛。

再比如,发改委重大项目办的数据和下面另一个部门之间的数据也是不共享的,所以在小孤岛里还有微孤岛,表面上看是一个挺大的数据源,其实这个数据源很多时候只是满足领导说,你多长时间把这个数据整合出来,它再整合出来解决问题。这就是我们常规运行的状况,孤岛的状态比我们想象得严重、普遍和广泛的多。所以在这个意义上来说,今天站在推动数据工程前进的角度来说,打破孤岛是这项工作一个很重要的组成部分。

我们现在有很多的数据,比如信用数据,销售数据,几乎所有的电商平台,只要能够呈现在页面上的数据,我们全部能够抓取。但是抓取的只是前台数据,而后台的支付数据,服务数据等,你就很难抓取。所以前台获得的数据意味着我获得了跨平台的数据,但是后台的拿不到,某种意义上我只有一部分数据,而没有全面的数据。阿里巴巴提出来说你用我们的数据,你就可以知道什么东西好卖,所以你的研发和产品等等可以往这个方面努力,故事真的是这样吗?

不是的。因为阿里巴巴只有单一来源的数据,而且这个单一来源数据有一个很重要的特性:今天在淘宝和天猫上卖的绝大部分是传统化产品,按照雷军的说法,如果今天有一个非常好的符合互联网时代消费者眼光的产品,消费者会尖叫。所谓尖叫的意思是说,你的行为痕迹和你的行为趋向表现出你有那个方面的兴趣倾向时,有人把握你这个倾向,把这个产品做出来了,你说噢,已经有了,这个时候你会尖叫。但是你在淘宝待半天,你不叫,为啥?因为都是你看过的。

如果你在一个平台上,这个平台本身拥有的东西并不是人们的理想的选择,它反映的是人们无奈的选择,所以无奈的大数据本身不能供应理想。人们真正理想的东西不止是在黑暗摸索出来的大数据,我们的大数据是如此之大,以至于像黑暗本身一样。所以你有那么多统计学数据,有那么多淘宝数据,它依然代表着黑暗,只是大而已。所以在这个地方大数据本身获得光明,数据的特性和数据交互中间给我们提供的缝隙,就像我们在黄山看到一线天,它不是大数据,而是小空间,但是它是代表光明的。

这意味着我们要在这黑暗中寻找一线天,而且有些数据本身还不是由大数据本身提供的,很可能那道光线是由设计师和在黑暗中间摸索的这些消费者之间交互产生的,这就是小米提供的MIUI系统说,如果能让铁杆粉丝,发烧友跟我们参与互动的话,我们在互动中间发现了怎样产生一个人大家满意的产品的方式。其实之前小米并没有大数据。当然有大数据更好,因为把你那线光明在黑暗的阴沉中显得多么的更加的夺目的光明。我说的这个是不是更像艺术青年说的,所以叫大数据艺术。

但是这个问题在于什么?有的时候光明不是只有一线天,有一线天就简单了,问题是有的时候有八线天,这些进来哪个是合适的?所以这个时候大数据,如果把数据充分整合的情况下,它帮助我们在判断方向和特性的时候,有相当的帮助,这就是为什么对今天来说,做一个大数据非常认真的工作就是认真的积累小数据,它来自不同的地方,它可能来自无论坛,可能来自于专项调查,可能来自于用户的投诉,可能来自于扒取某方面的数据。所以多元数据的观念,让我们知道说任何一个个体,我们在生活中任何一个个体,你甚至去了很多不同的互联网的终端,你在不同的地方,都可以累积不同的信息。有的地方,比如有的人只去一个地方,有的人去了三个地方,但是有些人从来不累积,从来不用大数据方式进行整合,所以即使很小的东西,当你每次累积,随着数据量扩大大数据累积,尤其数据能贯通的话,就为你提供看见一线天不同的方法。

零点做了23年的调查公司,差不多有20万个不同的项目。当我们把这些不同的调查项目的数据(整合对比),比如说汽车的研究和内裤的研究,两者好像没有什么关系。但你会发现,从十年前,到五年前,再到现在,穿什么内裤跟开什么车有密切的关系,就是生活方式改变了,在贫困和物质缺乏的时代,人们选择东西是凑合的,生活是各种凑合的堆积。一个人开吉普车和穿内裤有相同的价值观,这里面有内在的关联性。

那个时候他们觉得我们做所有的调查是在不同方面的,但是你可以拼接出来不同生活方式的图景将是什么样的。这是我们建立新数据立方的系统,不断的贯穿比如说啤酒、健康、家庭理财,我们发现不同的人群生活方式和他匹配的价值观模式都有差别。从而我们为他们进行产品研发和新产品前进的思路,以及寻找可以整合合作的差异化的品牌、差异化领域的合作伙伴提供了很强的依据。

一个企业里面有很多数据,不同的部门也有不同的数据,这些数据基于过去保密的原因和工作的原因形成孤岛,我们现在的工作就是把孤岛打穿,把这些小的孤岛之间再打穿变成一个中型的大数据,我们把这样的数据叫做中数据工程。其实做中数据是一件非常重要的事情,比如零点做了数据立方以后,我就具有筹码,存在数据交换的机会。如果你没有任何的数据资源,我们要用你的数据,除非有一些学者因为公益的原因,在大部分情况下如果你没有真正可消化的数据资源,你可能就没有机会来使用。

在个体中间普通拥有的中数据,就是可以用来数据交易和数据合作的前提和基础。零点除了用大数据之外,还帮助客户打通微和小的数据孤岛,从而形成中数据的级别。一旦数据孤岛打破之后,原来孤立的市场调查数据被充分的挖掘出来了,我们根据数据中心解决用户需求的能力也会提高。通过这些数据,我们给你提出典型的方案充分考验你的能力水平,以及你需要做的能力建设方案,变成一个更加可行的解决方案。

消费者有很多的需求,但是我们很少考虑与自己能力的匹配度。如果我们把企业内部的数据和做的外部数据打通,再有专项交互数据支持的时候,就能找到创新的方向,也能够知道你的能力有支撑的空间。以及如果我们把你的产品创新的方向和其他关联的合作伙伴和品牌,跟他们的方向相整合的时候,我们可以找到更多的资源。

很多产品在生活方面不见得是主导的,但是你明白生活方式作为一个大数据的价值,你可以参考跟你临近的产品他们的发展趋向,可以帮你推导,以及支持在你自己的产品和研发方面进行一些工作。

这些工作,是我们在过去很长时间做的所谓由小数据往中数据,中数据的整合工作从而走向大数据。

事实上,我们今天很大程度上所谓的大数据,很大人讲比较多的是在讲基于互联网意义上获得的大数据。刚才说互联网大数据分两大大类别,一个是互联网本身的巨头和大公司掌握的数据库,它基本上是跟合作伙伴有一部分的分享,但是对外部基本是不开放的。所以今天我们再去看网络上面的数据的时候,现在会看到我刚才说的两组重要的数据。事实上,今天掌握这些数据的人们会因为他自己把自己的前台和后台数据加起来,然后说这是大数据。

中国的互联网经历了两个很重要的发展阶段,第一个是传播互联网,第二个是交易互联网还,没有真正进入的产品本身的互联网化,这个结果是什么?互联网数据最大的弱项,就是你即使拥有了整个阿里巴巴数据依然不能告诉你最理想的眼镜是什么样的。即使你有了所有京东数据,依然不能告诉你哪一款手环会卖的很火。为什么?因为今天站在非互联网意义上的那些本身不能告诉你未来,因为他们本身是无奈在便宜货平台上形成的便宜货大数据。所以这是今天茫茫黑暗的大数据,今天的我们的扒取数据能获得所有大平台的大数据,虽然这些数据本身不能洞察真正消费者需要的内心的东西是什么,所以今天的方式是通过扒取方法获取那些平台的大数据的方法,我们用交互的方式产生一线天、二线天等等的方式,当然我们会来解剖和应用大数据。

大家知道,现在餐饮还是挺火,这也产生了很多数据,这些数据累积起来,我们一方面能认知市场的现象,但是一方面是我们通过更多交互的数据,不同人群的交互人群,能发现哪个人群中的一线天是什么。这样我们就来提供解决方案,就是基于参与的大数据,但是最终找到在参与中间,什么样的东西是代表未来。未来告诉我们,中国正在产生一种非常新的队伍,这跟以前很不一样的。

过去中国的餐饮意识正在走向单品化。从供应链数据中可以看到,像做150个以上的菜的餐馆,会发现供应链和活跃度是低的,因为它要维护不同的小供应链,它的成本又过高……这些数据没有我们看起来像海量阿里巴巴那么多,它直接决定了一个企业,你的餐饮如何做,你可能更有未来和前提。

所以从这个意义上讲,我们应该破除对大数据的简单理解,我认为大数据是用小数据出发,构建中数据多元连接,形成了大数据。真正的大数据的逻辑构建是小数据出发的多个中数据源构成的大数据,所以我们就有交易机会,交易能力,构成了大数据的交易世界。在这个过程中正因为多元所以数据有竞争,因为竞争才有检验,因为检验才可以优化,而在检验和优化之后的数据会重新构建新的小数据,只有新的小数据才能落地,作为一个企业,作为一个部门,作为一个实施单元,你做决策时候的支持依据。

简单地说,任何一个具体单位不可能简单的依靠一个单一来源。就像一个普通的淘宝店,它也想上几款走俏的女装,不能简单的依靠阿里巴巴底下所有的大数据加以解决,再加上这个数据本身最你那款女装急需的人群的数据是不掌握的。所以在这个意义上来说,我们所谓大数据实际上进入的是多元数据时代,每个有数据源的人都应该意识到,构建、拓展、丰富、打通这些数据,使这些数据变得越来越大。我们数据交易能力和数据筹码决定了我们今天在DT时代你真正的地位,你在其中牟利的关键。所以每个数据拥有者都应该致力于把更多的小数据累积起来,从而构建我们在DT时代的数据竞争力,在这个时代获得更多的数据红利的能力。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2015-09-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CDA数据分析师 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档