写在前面的
大数据这个概念在最近这几年很火,大家也大概知道大数据到底是个什么东西,它是如何运作的。现在好多产品上面都会有“猜你喜欢”这一功能,这就是利用大数据实现的。我们每天都在利用大数据或被大数据利用,但是我们当中应该没有多少人真正知道大数据时代给我们带来什么改变。这本书主要从大数据带来的思维变革、商业变革、管理变革三个方面来写。我主要会把这本书中的思维变革和商业变革写出来(因管理变革目前我们中大部分人还用不到,所以就先不写),本篇写思维变革、商业变革下篇连载。
(本书框架图)
在信息处理能力受限的年代,世界需要数据分析,却缺少用来分析所收集数据的工具,所以只能用随机抽样的方式进行数据分析。
但是真正的大数据时代是指不用随机分析法这样的捷径,而采用所有数据的分析方法。通过观察所有数据,来寻找异常值进行分析。
比如:信用卡诈骗是通过异常情况来识别的,只有掌握了所有数据才能做到这一点,在这种情况下,异常值是最有用的信息,你可以把他与正常交易情况作对比从而发现问题。
在如今的信息时代。我们掌握的数据库越来越全面,她不再只包括我们手头那一点可怜的数据,而是包括了与这些现象相关的大量甚至全部的数据。数据量的大幅增加会造成结果的不准确,与此同时,一些错误的数据也会混进数据库。但是正因为我们掌握了几乎所有的数据,所以我们不再担心某个数据点对整套分析的不利影响。我们要做的就是要接受这些纷繁的数据并从中受益,而不是以高昂的代价消除所有的不确定性。这就是由“小数据”到“大数据”的改变。
有时候当我们掌握了大量新型数据时,精确性就不那么重要了,我们同样可以掌握食物的发展趋势,大数据不仅让我们不再期待准确性,也让我们无法实现准确性。
值得注意的是,错误并不是大数据本身固有的。他只是我们用来衡量、记录和交流数据的工具的一个缺陷。如果说哪一天技术完美无缺了,不精确度的问题就不复存在了。错误不是大数据固有的特性,而是一个需要我们去处理的实际问题,并且可能长期存在。
混杂性不是竭力避免,有的时候可以为我们所用。互联网最火的产品都会表明,不精确性、混杂性要更好点。
比如微信朋友圈:朋友的发动态时间,在一小时之内的会显示多少分钟之前,在一小时以外的就只显示几小时前。
在微信公众号阅读量显示,为什么超过十万以后显示地是100000+,而不是具体数据,因为超过十万以后的数据,我们心中或许就没啥概念了,没有一个参考衡量的标准了,十万已经会让我们觉得这篇文章很厉害了,能达到目的,就没必要精确。
知道是很什么就够了,没必要知道为什么。在大数据时代,我们不必非得知道现象背后的原因,而是要让数据自己发声。
比如:知道用户对什么感兴趣即可,没必要去研究用户为什么感兴趣。
相关关系的核心是量化两个数据值之间的数据关系。相关关系强是指当一个数据值增加时,其他数据值很有可能也会随之增加。
相关关系是通过识别关联物来帮助我们分析某一现象,而不是揭示其内部的运作。
注意:即使很强的相关关系也不一定能揭示每一种情况,比如两个事物看上去行为相似,很有可能只是巧合。相关关系没有绝对,只有相似。
通过给我们找到一个现象良好的关联物,相关关系可以帮助我们捕捉现在和预测未来。
比如:如果A和B经常一起发生,我们只需要注意到B发生了,就可以预测A也发生了。
在小数据时代,数据分析专家会使用一些建立在理论基础上的假想来指导自己选择适当的关联物。然后收集与关联物相关的数据来进行分析,以证明假设是否正确。但是由于这是建立在假设的基础上,那么分析结果也是有受偏见影响的可能。
在大数据时代,我们拥有如此多的数据,如此好的计算机能力,所以不再需要人工选择一个关联物或者一小部分相似数据来逐一分析。通过去探求“是什么”而不是“为什么”,相关关系帮助我们更好的了解这个世界。
本篇完