【干货】十分钟读完《大数据时代》

钱塘数据

发布于 2018-03-02 14:25:30

1.1K0

发布于 2018-03-02 14:25:30

文章被收录于专栏：钱塘大数据

1、震人心魄的数据

2003年，人类第一次破译人体基因密码的时候，辛苦工作10年才完成了三十亿对碱基对的排序；大约10年后，世界范围内的基因仪每15分钟就可以完成同样的工作。在金融领域，美国股市每天的成交量高达70亿股，而其中三分之二的交易都是邮件里在数学模型和算法之上的计算机程序自动完成的。

在2007年，所有数据中只有7%是存储在报纸、书籍、图片等媒介上的模拟数据，其余全部是数字数据；在2000年时，数字存储信息仍只占全球数据量的四分之一；当时，另外四分之三的信息都存储在报纸、胶片、黑胶唱片和盒式磁带这类媒介上。

2、大数据的精髓

大数据带给我们的三个颠覆性观念转变：是全部数据，而不是随机采样；是大体方向，而不是精确制导；是相关关系，而不是因果关系。

A.不是随机样本，而是全体数据：在大数据时代，我们可以分析更多的数据，有时候甚至可以处理和某个特别现象相关的所有数据，而不再依赖于随机采样（随机采样，以前我们通常把这看成是理所应当的限制，但高性能的数字技术让我们意识到，这其实是一种人为限制）；

B.不是精确性，而是混杂性：研究数据如此之多，以至于我们不再热衷于追求精确度；之前需要分析的数据很少，所以我们必须尽可能精确地量化我们的记录，随着规模的扩大，对精确度的痴迷将减弱；拥有了大数据，我们不再需要对一个现象刨根问底，只要掌握了大体的发展方向即可，适当忽略微观层面上的精确度，会让我们在宏观层面拥有更好的洞察力；

C.不是因果关系，而是相关关系：我们不再热衷于找因果关系，寻找因果关系是人类长久以来的习惯，在大数据时代，我们无须再紧盯事物之间的因果关系，而应该寻找事物之间的相关关系；相关关系也许不能准确地告诉我们某件事情为何会发生，但是它会提醒我们这件事情正在发生。

3、大数据的核心是预测

大数据的核心就是预测，它通常被视为人工智能的一部分，或者更确切地说，被视为一种机器学习。大数据不是要教机器人像人一样思考，而是把数学算法运用到海量的数据上来预测事情发生的可能性。

不是随机样本，而是全体数据

历史上，因为记录、储存、分析数据的工具都不够好，为了让分析变得简单，我们选择了把数据量减少，统计学的一个目的就是用尽可能少的数据来证实尽可能重大的发现。

1、传统抽样的精确性

采样分析的精确性随着采样随机性的增加而大幅提高，但与样本数量的增加关系不大，大致原因是当样本数量达到某个值后，我们从新个体身上得到的信息会越来越少，这与经济学中的边际效应类似。

2、随机采样的问题

随机采样有一个很大的问题：人们只能从随机采样中得出事先设计好的问题的结果，调查得出的数据不可以重新分析以实现计划之外的目的，而且一旦采样过程中存在任何偏见，分析结果就会相去甚远。

3、样本=总体

采样的目的就是用最少的数据得到最多的信息，当我们可以获得海量数据的时候，它就没有什么意义了；生活中真正有趣的事情经常藏匿在细节之中，而采样分析却无法捕捉到这些细节（因为采样不能得到计划之外的东西）；大数据建立在掌握所有数据，至少是尽可能多的数据的基础上，所以我们就可以正确地考察细节并进行新的分析。

不是精确性，而是混杂性

执迷于精确性是信息缺乏时代和模拟时代的产物，只有5%的数据是结构化且能适用于传统数据库的，如果不能接受混乱，剩下的95%的非结构化数据都无法被利用。

1、小数据时代的精确性

在“小数据时代”，人们收集、处理数据的能力有限，对“小数据”而言，最基本、最重要的要求就是减少错误，保证质量（收集信息的有限意味着细微错误会被放大，甚至有可能影响整个结果的准确性）。人们创造了很多精确的系统，这些系统试图让我们接受一个世界困乏而规整的惨象——假装世间万物都是整齐地排列的；事实上现实是纷繁复杂的，天地间存在的事物也远远多于系统所设想的。

2、我们要的是概率

我们总是为了一个“答案”而活着，精确性似乎一直是我们生活的支撑，但认为每个问题只有一个答案的想法是站不住脚的。“一个唯一的真理“的存在是不可能的，而且追求这个唯一的真理是对注意力的分散。大数据也许是拯救我们的关键方法：大数据通常用概率说话，而不是板着“准确无疑”的面孔。

不是因果关系，而是相关关系

在大数据时代，我们不必知道现象背后的原因，而是要让数据自己“发声”。我们不再一味追求人们为什么这么做，知道人们为什么这么做可能是有用的，但这个问题目前并不是很重要，重要的是我们能通过大数据分析出人们的相关行为。

1、相关关系

相关关系的核心是量化两个数据值之间的数理关系：相关关系强是指当一个数据值增加时，另一个数据值很有可能也会随之增加；相关关系弱就意味着当一个数据值增加时，另一个数据值几乎不会发生变化。相关关系通过识别有用的关联物来帮助我们分析一个现象，而不是通过揭示其内部的运作机制。相关关系没有绝对，只有可能性。

2、人们的直接目的就是寻找因果关系

人们的直接愿望就是了解因果关系，我们已经习惯了信息的匮乏，故此亦习惯了在少量数据的基础上进行推理思考。以前我们用实验来证明因果关系，它是通过是否有诱因来分别观察所产生的结果是不是和真实情况相符。但是，凡事皆有因果的话，那么我们就没有决定任何事的自由了。如果说我们做的每一个决定或者每一个想法都是其他事情的结果，而这个结果又是由其他原因导致的，以此循环往复，那么就不存在人的自由意志这一说了——所有的生命轨迹都只是受到因果关系的控制了——这显然是不正确的。

3、相关关系和因果关系并不矛盾

相关关系分析本身意义重大，同时它也为研究因果关系奠定了基础，通过找出可能相关的事物，我们可以在此基础上进行进一步的因果关系分析，如果存在因果关系的话，我们再进一步找出原因。在大多数情况下，一旦我们完成了对大数据的相关关系分析，而又不再满足于仅仅知道“是什么”时，我们就会继续向更深层次研究因果关系，找出背后的“为什么”。在小数据时代，我们会假象世界是怎么运作的，然后通过收集和分析数据来验证这种假象；在大数据时代，我们会在数据的指导下探索世界，不再受限于各种假想；我们的研究始于数据，也因为数据我们发现了以前不曾发现的联系。

A.大量的数据意味着“理论的终结”：用一系列的因果关系来验证各种猜测的传统研究范式已经不实用了，如今它已经被无需理论指导的相关关系研究所取代；

B.现在已经是一个有海量数据的时代，应用数学已经取代了其他的所有学科工具，而且只要数据足够，就能说明问题，如果你有一拍字节的数据，只要掌握了这些数据之间的相关关系，一切就迎刃而解了；

C.“理论的终结”：所有的普遍规则都不重要了，重要的是数据分析，它可以揭示一切问题；但大数据并不意味着理论已死，因为大数据就是在理论的基础上形成的。

大数据时代的商业变革

在一个可能性和相关性占主导地位的世界里，专业性变得不那么重要了；行业并不会消失，但是他们必须与数据表达的信息进行博弈。

1、数据化：一切皆可量化

大数据的核心发展动力来源于人类测量、记录和分析世界的渴望。为了得到可量化的信息，我们要知道如何计量；为了数据化量化了的信息，我们要知道怎么记录计量的结果。如今我们经常把“数字化”和“数据化”这两个概念搞混，但是对这两个概念的区分实际上非常重要：

A.数据化：一种把现象转变为可制表分析的量化形式的过程；

B.数字化：把模拟数据转换成0和1表示的二进制码；

数字化带来了数据化，但是数字化无法取代数据化；数字化是把模拟数据变成计算机课读的数据，和数据化有着本质的不同。

2、当方位变成了数据

1978年见证了一个伟大的转变，当时构成全球定位系统（GPS）的24颗卫星第一次发射成功，通过与技术手段的融合，全球定位系统能够快速、相对低价地进行地理定位，而且不需要任何专业知识。地理位置信息汇集起来，可能会揭示事情的发展趋势；位置信息一旦被数据化，新的用途就犹如雨后春笋般涌现出来，而新价值也会随之不断催生。

3、当沟通变成数据

社交网络平台不仅给我们提供了寻找和维持朋友、同事关系的场所，也将我们日常生活的无形元素提取出来，再转化为可作新用途的数据。数据化不仅能将态度和情绪转变为一种可分析的形式，也可能转化人类的行为，这些行为难以跟踪，特别是在广大的社区和其中的子人群环境中。

A.Facebook将关系数据化——社交关系在过去一直被视作信息而存在，但从未被正式界定为数据，直到Facebook“社交图谱”的出现；

B.Twitter通过创新，让人们能轻易记录以及分享他们零散的想法，从而使情绪数据化得以实现。

4、“取之不尽，用之不竭“的数据创新

尽管数据长期以来一直是有价值的，但通常只是被视作附属企业经营核心业务的一部分，或者被归入知识产权或个人信息中相对狭窄的类别，但在大数据时代，所有数据都是有价值的。我们的时代，数据收集不再存在固有的局限性，由于存储成本的大幅下降，保存数据比丢弃数据更加容易，这使得以较低成本获得更多数据的可能性比以往任何时候都大。不同于物质性的东西，数据的价值不会随着它的使用而减少，而是可以不断地被处理，信息不会像其他物质产品一样随着使用而有所损耗。数据的价值并不仅限于特定的用途，它可以为了同一目的而被多次使用，也可用于其他目的。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2016-12-15，如有侵权请联系 cloudcommunity@tencent.com 删除

大数据