为什么说你的数据不是大数据?

言必称大数据的时代,让我们多少有些“审美疲劳”。但如果严格按照大数据的定义来判断,相信大多数公司是根本不存在大数据问题的。你也许有很多数据,但那并不意味着就是大数据。数据库即服务公司MongoHQ的@Codepope最近在博客上探讨了这个问题,以及为何我们要存储这么多的数据,但无法从中获取相应的价值。

大数据实际上是范围极广、数量极大的,超乎你的想象。你也许认为维基百科的数据很大,但它也只是冰山一角而已。人们往往认为“很多的”数据就是所谓的“大”,因此他们无时无刻不在与大数据打交道。这种想法是不对的,我们从很早以前就已经有海量的数据了,那时候甚至还没有大数据的概念。那么大数据究竟是从哪里来的呢?为什么我们需要大数据呢?

时间倒退到上世纪90年代,人们开始认识到以数位的方式存储各种数据是非常便宜的,要比把它们保存在纸上便宜的多。而当某种事物变得足够便宜的时候,它就成为了一种标准。将所有信息都保存起来似乎成为了人类的一种本能,以便我们能够在未来需要的时候找到它。特别是在成本低廉的情况下,何乐而不为?

尤其是在科学领域,科学家们从很早以前就梦想能够把实验中的所有数据都妥善地保存起来。几十年前,美国的Peter Denning就阐述了NASA在保存哈勃空间望远镜的数据时所面对的难题:它每天生成的数据就需要2500张光盘来存储,这不仅对对网络和存储设备造成了极大压力,甚至已经超出了人类能够理解的范围。随着存储技术以及经济的飞速发展,现在想一想,要存储2500张光盘大小的数据,只需要几百元的普通硬盘就可以实现。

大数据的有限价值

现如今,我们已经能够保存下每个业务流程当中的数据,甚至已经可以保存下用户访问页面的数据或者观众观看哪些节目的数据。物联网的出现改变了游戏规则,为我们开启了一扇门。然而每一条数据、每一条记录的价值却在下降。

可以这样说,一条信用卡的交易记录是相对丰富的数据,它包含了人、地点、时间以及更多附加在数据上的价值,因此很自然我们想要收集这些数据,用来促进销售的循环。然而相比而言,一条用户在网上的浏览点击行为数据就没有那么“值钱”了。这些数据也许包含了用户的行为习惯信息,但单独拿出一条记录也许是没有任何价值的。你只有在想要分析用户的行为时,才会大量收集这样的数据。

而现在的情况是,存储这些数据的成本是比较低的,而且你收集越多的数据,通过比对不同的趋势,你就可能获得更多的价值。拿观众观看电视的数据来说,大量收集这些记录,然后与节目表和广告数据整合在一起进行分析,就能更好地理解观众喜欢什么样的节目,爱看什么样的电视剧,客户也可以更精准地投放广告。这时候大数据的价值就会凸显出来,就像最近火的一塌糊涂的《纸牌屋》。

因此我们可以判断,当应对大量的记录时,如果每一条单独记录越小(数据量,关联性),那么它是大数据的可能性就越大。而“大数据分析”所面临的挑战是,从这些信息的小小元素中提炼出意义,我们可能要把它们与上述的丰富的数据放到一起来提供上下文,识别其中隐藏着的模式。这算不上是大海捞针,更准确的说法应该是从一堆针头中找到你所需要的那一个。

大数据与“热”数据

还有一种常见的错误观点,即你不仅拥有很多数据,而且用户访问这些数据的频率很高,因此就需要我们用“大数据思维”来处理这些数据。

这些数据其实不一定是大数据,而是所谓的“热数据”,它们并不适用于处理大数据的方式。热数据是纯粹的扩展性问题,你需要把系统的性能调整到最佳,降低系统的延迟同时确保它能够被所有提出访问需求的用户访问到。

大数据与它正相反,我们可以说它是“冷数据”。也就是说,大数据并不是你频繁访问的数据,除了作为分析之用,甚至你从来不会去用到它。事实上,除了分析之外,我们可以把大数据“冷冻”起来。尽管有时候我们会把大数据与新鲜快速的记录一起进行分析,但大数据池至少需要从概念上与活动的热数据隔离开来。否则二者会互相造成不良的影响。将冷热数据分开存储是公认的最佳实践,无论是存储还是应用,它们都是完全不同的数据。

很不幸的是,有很多人并没有认清这一点,他们还在将大数据处理方式应用到各种各样的数据类型当中。最终的结果也就可想而知。

不要轻视其他数据的价值

现在,你需要从大数据的狂热中退一步思考,你现在最重要的数据也许并不是那些大数据,而是我们所说的热数据。你也许已经建立了大数据系统,时刻准备从大数据金矿上挖掘潜在的价值,但一定不要忽视其他数据的价值。你还有业务数据,它需要你快速、高效、一致地交付这些数据,同时要解决扩展性的问题。记住,大数据的最佳实践并不适合这些数据。你的数据也许这是一些重要的有价值的数据,它们并不是大数据。

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2014-09-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CDA数据分析师

【干货】数据分析师的完整知识结构

作为数据分析师,无论最初的职业定位方向是技术还是业务,最终发到一定阶段后都会承担数据管理的角色。因此,一个具有较高层次的数据分析师需要具备完整的知识结构。 1....

2106
来自专栏老九学堂

人工智能研发的热门编程语言:不死 Java、不朽 C/C ++,以及新贵 Python

流水的编程语言,铁打的 Java、C/C++。 ? 进行人工智能机器人研发,应该选择哪种编程语言? 而回归本文主题,对于首选编程语言的选择,没有最佳的答案,在很...

4838
来自专栏喔家ArchiSelf

老曹眼中的敏捷开发

但确实可能存在一种开发方式,可以帮助我们一步步构造出需要的软件和架构——这有可能就是敏捷开发。

1023
来自专栏钱塘大数据

【干货】数据分析师的完整流程与知识结构体系

导读:一个完整的数据分析流程,应该包括以下几个方面,建议收藏此图仔细阅读。完整的数据分析流程:1、业务建模。2、经验分析。3、数据准备。4、数据处理。5、数据分...

29111
来自专栏灯塔大数据

一图看史上最完整的数据分析流程

一个完整的数据分析流程,应该包括以下几个方面,建议收藏此图仔细阅读。完整的数据分析流程: 1、业务建模。 2、经验分析。 3、数据准备。 4、数据处理。 5、...

4236
来自专栏PPV课数据科学社区

7大板块 组成数据分析师的完整知识结构

作为数据分析师,无论最初的职业定位方向是技术还是业务,最终发到一定阶段后都会承担数据管理的角色。因此,一个具有较高层次的数据分析师需要具备完整的知识结构。 1...

3624
来自专栏机器学习算法与Python学习

优秀程序员和一般程序员,你是哪一种?

优秀程序员:在有需求与任务时,会不断地询问需求与任务,并且多次确认想要的结果,再动手写代码。

1151
来自专栏PPV课数据科学社区

数据科学家知识体系与数据分析完整流程

一个完整的数据分析流程,应该包括以下几个方面,建议收藏此图仔细阅读。完整的数据分析流程:1、业务建模。2、经验分析。3、数据准备。4、数据处理。5、数据分析与展...

4038
来自专栏PPV课数据科学社区

为什么说你的数据不是大数据?

言必称大数据的时代,让我们多少有些“审美疲劳”。但如果严格按照大数据的定义来判断,相信大多数公司是根本不存在大数据问题的。你也许有很多数据,但那并不意味着就是大...

2695
来自专栏编程

C加加能用来干什么?为什么要学C加加?学C加加了能干嘛?

20世纪80年代,AT&T Bell(贝尔)实验室的Bjarne Stroustrup博士及其同事在C语言的基础上成功开发出C++语言。C++语言是一种混合型语...

3229

扫码关注云+社区

领取腾讯云代金券