专栏首页CSDN技术头条大数据时代需要转变的思维

大数据时代需要转变的思维

大数据时代要转变的思维:

  • 要分析所有数据,而不是少量的数据样本
  • 要追求数据的纷繁复杂,而不是精确性
  • 要关注事物的相关关系,而不是因果关系

1. 分析所有数据,而非少量数据

至今为止,人们搜集数据的能力有限,因此采用的是“随机采样分析”。

例如,要想知道中国顾客都联想笔记本的满意度,不可能对所有买了联想笔记本的人做问卷调查。通常的做法是随机找1000个人,用这1000个人的满意度来代表所有人的。

为了使结果尽可能准确,我们会设计尽可能精确的问卷,并使样本足够随机。

这就是“小数据时代”的做法,在不可能搜集全部数据的情况下,随机采样分析在各领域取得了巨大的成功。

但是,随机采样有三个问题:

  1. 依赖随机性,而随机性很难做到。例如,使用固定电话随机打给1000户人家,这样也是缺乏随机性的,因为没有考虑到年轻人都使用手机的情况。
  2. 远看不错,一旦聚焦到某一点,就模糊了。例如,我们用1000个人来代表全国,这1000个人是随机从全国选取的。但是,如果用此结果来判断西藏的满意度,却是缺乏精确的。也就是说,分析结果不能适用于局部。
  3. 采样的结果只能回答你事先设计好的问题,不能回答你突然意识到的问题。

在”大数据时代“,样本=总体

如今,我们已经有能力搜集到全面而完整的数据。大数据是建立在掌握所有数据、至少是尽可能多的数据的基础上的。

2. 追求混杂性,而非精确性

在“小数据”时代,最重要的就是减少测量的错误,因为收集的信息较少,所以必须保证记录尽可能精确,否则细微的错误会被放大。为了精确,科学家必须优化测量的工具。现代科学就是这么发展过来的,物理学家开尔文(温度的国际单位)说:“测量就是认知”。很多优秀的科学工作者必须要能准确收集和管理数据。

在“大数据”时代,使用所有数据变为可能,且通常是上万亿个数据,要保证每一个数据的精确性是不可想象的,混杂性不可避免。但是,当数据量足够大时,混乱不一定会带来不好的结果。并且,由于放松了容错的标准,所能搜集的数据多了起来,还可以利用这些数据来做更多的事。举一个例子:

要测一个葡萄园的温度,如果只有一个温度计,那必须保证这个测量仪精确且能一直工作。但是如果每100棵葡萄树就有一个测量仪,则虽然有些测量数据是错误的,但是所有数据合起来却能得到一个更准确的结果。

因此,“大数据”通常用概率说话,而不是板着”确凿无疑“的面孔。”大数据“时代要求我们重新审视精确性的优劣。由于数据量太大,我们不再期待精确经,也无法实现精确性。

在图书馆我们可以看到,所有的书都被分类,例如,要找一本C语言的书籍,必须先找到”工科“分类,然后再找到”计算机“分类,再根据编号(类似于803.53x)找到需要的书籍,这是传统的方法。如果图书馆的书少,可以这么检索,如果有1亿本呢?10亿本呢?网络上的数据可远非图书馆的藏书量可比,动则数十亿,如果使用清晰的分类,那么不仅分类的人会疯,查询的人也会疯。因此,现在互联网上广泛使用”标签“,通过标签来检索图片、视频、音乐等。当然,有时人们会错标标签,这让习惯精确性的人很痛苦,但是,接受”混乱“给我们带来了两个好处:

  1. 由于拥有了远比”分类”数量多得多的标签,我们能够获得更多的内容。
  2. 可以通过标签组合来过滤内容。

例如,如果我们要检索“徐长卿”。“徐长卿”至少有三种身份:是一种中草药,是命名草药的人的名字,是仙剑3的主人公之一。如果按照传统分类法,可能“徐长卿”会被分到“中草药”类里,这还取决于分类的人。那么查询的人就不会知道它还有另外两重身份,或者只想查“徐长卿”这个人的人根本就不会到”中草药“类里查询。但是,如果使用”标签“,那么输入”徐长卿“+”草药“,即可查到草药;输入”徐长卿“+”仙剑3“即可查到游戏的主人公。

因此,使用”标签“代替”分类“,虽然有很多不精确的数据,但是却得到了大量标签,使得检索更方便,得到的结果更好了。

3. 关注相关关系,而非因果关系

知道”是什么“就够了,没有必要知道”为什么“,要让数据自己”发声“。来看一个例子:

沃尔玛是世界上最大的零售商,掌握了大量的零售数据。通过分析,沃尔玛发现,每当季节性飓风来临之前,不仅手电筒销售量增加了,而且蛋挞的销量也增加了。因此,当季节性暴风来临时,沃尔玛会把库存的蛋挞放在靠近飓风用品的位置,以方便顾客。

看到这里,马上有人问”为什么飓风一来,人们都要买蛋挞“?

你问”为什么“,说明你注重的是因果关系。而这个“因”,可能是极难分析、且复杂的,而且即便研究出来,意义真的很大吗?对沃尔玛来说,只要知道“飓风来了,快摆蛋挞,准备大赚一笔”就行了,这就是注重的相关关系。

飓风与蛋挞有关,OK,行了,还能赚钱,太好了。为什么?不管,反正有关。

这也是大数据时代需要转变的思维,即关注相关关系,而非因果关系。

通过探求”是什么“,而非”为什么“,能够帮助我们更好地理解世界。但是,由于因果关系在我们的思维中根深蒂固,而且有时会臆想出一些因果关系,反而带来了错误的认知。例如:

父母经常告诉孩子,天冷时不带帽子和手套就会感冒。然而,研究表明,感冒和穿戴之间没有直接的联系。在某餐馆吃饭后,晚上肚子疼,我们会想到原因是餐馆的食物有问题。实际上很可能是和某人握手,或饭前没有洗手的关系。

相关关系能给我们分析问题提供新的视角,我们不需要事事去探究为什么,并且,它使我们相信,不探究”为什么“也是合理的。

但是,并不是说因果关系就应该完全摒弃,而是要灵活地以相关关系的立场来思考问题。


本文总结自《大数据时代》,作者Viktor Mayer-Schonberger。

整理者:馒头华华

本文分享自微信公众号 - CSDN技术头条(CSDN_Tech)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2015-07-01

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 【BDTC 2015】互联网大数据分论坛:滴滴、百度、京东等大数据实践

    2015年12月10-12日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所、北京中科天玑科技有限公司与CSDN共同协办,...

    CSDN技术头条
  • 来自大数据的反思:需要你读懂的10个小故事

    自2011年以来,大数据旋风以“迅雷不及掩耳之势”席卷中国。毋庸置疑,大数据已然成为继云计算、物联网之后新一轮的技术变革热潮,不仅是信息领域,经济、政治、社会等...

    CSDN技术头条
  • 唱衰文:大数据至死 沉迷数据不能让我们正确把握未来

    世界上有三种谎言——谎言,该死的谎言,以及统计数据。引自马克·吐温。本文的作者站在这个信息爆炸的时代,从多个角度展示了数据的欺骗性。有些是基于偏见,有些是方法不...

    CSDN技术头条
  • 大数据时代:缺乏能动性的大数据是没有价值的!

    不是所有的大数据都是有价值的,大数据只有“动起来”才能体现其价值,否则,很可能是无用的。很多有着海量数据流的公司,虽然有着大把客户资源和现金流,本来是非常适合进...

    挖掘大数据
  • 大数据时代的到来,为我们提供了哪些便利之处?

    以前还没有进入大数据时,社会发展相对比较慢,比如工作生活,交通出行,互联网并没有那么的便利,大家都是各顾各的,进入了大数据时代,大家开始相互分享资源,抱团取暖。...

    墨者安全筱娜
  • “中国数据创新行”上海站交接仪式暨2017上海静安国际大数据论坛今天举行

    7月6日上午,由国家发展改革委、国家工信部、中央网信办为指导,上海市经济信息化委与静安区政府共同主办,市北高新集团与上海数据交易中心共同承办的“中国数据创新行”...

    数据猿
  • 制约大数据分析的三大误区

    用户1756920
  • 跨过互联网数据思维 传统企业转型要经历4重考验

    传统产业由于行业利润率及经营思维,相比互联网型企业在技术设备及信息化方面投入有着天壤之别,不少大型制造业甚至连较为完整的数据统一平台也没有,更别谈论基于数据统一...

    CDA数据分析师
  • 王叁寿:数据资产运营有望在2019年下半年爆发

    地方政府将数据资产运营视为唤醒政府数据价值的最佳路径,掀起政府大数据应用的发展高潮。随着政府大数据资产价值的释放,数据资产运营迎来高速发展期,有望在2019年下...

    企鹅号小编
  • 大数据时代的10个重大变革

    大数据时代的到来正在改变人们的生活方式、思维模式和研究范式,我们可以总结出10个重大变革。 NO.1目标驱动型 数据驱动 决策方式 传统科学思维中,决策制定...

    企鹅号小编

扫码关注云+社区

领取腾讯云代金券