为什么说你的数据不是大数据?

言必称大数据的时代,让我们多少有些“审美疲劳”。但如果严格按照大数据的定义来判断,相信大多数公司是根本不存在大数据问题的。你也许有很多数据,但那并不意味着就是大数据。数据库即服务公司MongoHQ的@Codepope最近在博客上探讨了这个问题,以及为何我们要存储这么多的数据,但无法从中获取相应的价值。

大数据实际上是范围极广、数量极大的,超乎你的想象。你也许认为维基百科的数据很大,但它也只是冰山一角而已。人们往往认为“很多的”数据就是所谓的“大”,因此他们无时无刻不在与大数据打交道。这种想法是不对的,我们从很早以前就已经有海量的数据了,那时候甚至还没有大数据的概念。那么大数据究竟是从哪里来的呢?为什么我们需要大数据呢?

时间倒退到上世纪90年代,人们开始认识到以数位的方式存储各种数据是非常便宜的,要比把它们保存在纸上便宜的多。而当某种事物变得足够便宜的时候,它就成为了一种标准。将所有信息都保存起来似乎成为了人类的一种本能,以便我们能够在未来需要的时候找到它。特别是在成本低廉的情况下,何乐而不为?

尤其是在科学领域,科学家们从很早以前就梦想能够把实验中的所有数据都妥善地保存起来。几十年前,美国的Peter Denning就阐述了NASA在保存哈勃空间望远镜的数据时所面对的难题:它每天生成的数据就需要2500张光盘来存储,这不仅对对网络和存储设备造成了极大压力,甚至已经超出了人类能够理解的范围。随着存储技术以及经济的飞速发展,现在想一想,要存储2500张光盘大小的数据,只需要几百元的普通硬盘就可以实现。

大数据的有限价值

现如今,我们已经能够保存下每个业务流程当中的数据,甚至已经可以保存下用户访问页面的数据或者观众观看哪些节目的数据。物联网的出现改变了游戏规则,为我们开启了一扇门。然而每一条数据、每一条记录的价值却在下降。

可以这样说,一条信用卡的交易记录是相对丰富的数据,它包含了人、地点、时间以及更多附加在数据上的价值,因此很自然我们想要收集这些数据,用来促进销售的循环。然而相比而言,一条用户在网上的浏览点击行为数据就没有那么“值钱”了。这些数据也许包含了用户的行为习惯信息,但单独拿出一条记录也许是没有任何价值的。你只有在想要分析用户的行为时,才会大量收集这样的数据。

而现在的情况是,存储这些数据的成本是比较低的,而且你收集越多的数据,通过比对不同的趋势,你就可能获得更多的价值。拿观众观看电视的数据来说,大量收集这些记录,然后与节目表和广告数据整合在一起进行分析,就能更好地理解观众喜欢什么样的节目,爱看什么样的电视剧,客户也可以更精准地投放广告。这时候大数据的价值就会凸显出来,就像最近火的一塌糊涂的《纸牌屋》。

因此我们可以判断,当应对大量的记录时,如果每一条单独记录越小(数据量,关联性),那么它是大数据的可能性就越大。而“大数据分析”所面临的挑战是,从这些信息的小小元素中提炼出意义,我们可能要把它们与上述的丰富的数据放到一起来提供上下文,识别其中隐藏着的模式。这算不上是大海捞针,更准确的说法应该是从一堆针头中找到你所需要的那一个。

大数据与“热”数据

还有一种常见的错误观点,即你不仅拥有很多数据,而且用户访问这些数据的频率很高,因此就需要我们用“大数据思维”来处理这些数据。

这些数据其实不一定是大数据,而是所谓的“热数据”,它们并不适用于处理大数据的方式。热数据是纯粹的扩展性问题,你需要把系统的性能调整到最佳,降低系统的延迟同时确保它能够被所有提出访问需求的用户访问到。

大数据与它正相反,我们可以说它是“冷数据”。也就是说,大数据并不是你频繁访问的数据,除了作为分析之用,甚至你从来不会去用到它。事实上,除了分析之外,我们可以把大数据“冷冻”起来。尽管有时候我们会把大数据与新鲜快速的记录一起进行分析,但大数据池至少需要从概念上与活动的热数据隔离开来。否则二者会互相造成不良的影响。将冷热数据分开存储是公认的最佳实践,无论是存储还是应用,它们都是完全不同的数据。

很不幸的是,有很多人并没有认清这一点,他们还在将大数据处理方式应用到各种各样的数据类型当中。最终的结果也就可想而知。

不要轻视其他数据的价值

现在,你需要从大数据的狂热中退一步思考,你现在最重要的数据也许并不是那些大数据,而是我们所说的热数据。你也许已经建立了大数据系统,时刻准备从大数据金矿上挖掘潜在的价值,但一定不要忽视其他数据的价值。你还有业务数据,它需要你快速、高效、一致地交付这些数据,同时要解决扩展性的问题。记住,大数据的最佳实践并不适合这些数据。你的数据也许这是一些重要的有价值的数据,它们并不是大数据。

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2014-03-01

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器人网

工业机器人的编程语言和种类

机器人的开发语言一般为C、C++、C++ Builder、VB、VC等语言,主要取决于执行机构(伺服系统)的开发语言;而机器人编程分为示教、动作级机器人编程语...

5674
来自专栏SDNLAB

ODL应用案例之云和网络功能虚拟化应用案例

概述 近年来,大公司和中小企业已经认识到云计算技术是提高自己的竞争力的核心技术。混合云和公共云虽然具备了提高业务灵活性并降低总成本的潜力,但它们对于传统网络的需...

34310
来自专栏钱塘大数据

【干货】数据分析师的完整流程与知识结构体系

导读:一个完整的数据分析流程,应该包括以下几个方面,建议收藏此图仔细阅读。完整的数据分析流程:1、业务建模。2、经验分析。3、数据准备。4、数据处理。5、数据分...

28811
来自专栏腾讯社交用户体验设计

设计效果检验之道

904
来自专栏PPV课数据科学社区

学习Python:做数据科学还是网站开发?

本文的英文原文地址是:Python for Data Science vs Python for Web Development,发布时间是10月29日。译者一...

2544
来自专栏CDA数据分析师

【干货】数据分析师的完整知识结构

作为数据分析师,无论最初的职业定位方向是技术还是业务,最终发到一定阶段后都会承担数据管理的角色。因此,一个具有较高层次的数据分析师需要具备完整的知识结构。 1....

2056
来自专栏PPV课数据科学社区

为什么说你的数据不是大数据?

言必称大数据的时代,让我们多少有些“审美疲劳”。但如果严格按照大数据的定义来判断,相信大多数公司是根本不存在大数据问题的。你也许有很多数据,但那并不意味着就是大...

3469
来自专栏PPV课数据科学社区

7大板块 组成数据分析师的完整知识结构

作为数据分析师,无论最初的职业定位方向是技术还是业务,最终发到一定阶段后都会承担数据管理的角色。因此,一个具有较高层次的数据分析师需要具备完整的知识结构。 1...

3594
来自专栏喔家ArchiSelf

老曹眼中的敏捷开发

但确实可能存在一种开发方式,可以帮助我们一步步构造出需要的软件和架构——这有可能就是敏捷开发。

943
来自专栏程序员的知识天地

前端菜鸟是这样入门学习的,点进来!

现在从事IT方向的人有很多。由于Web前端薪资水平高,职业前景广阔,岗位缺口大,就业口径宽,想通过学习Web前端开发从而进入到该行业工作的人越来越多。当然也有很...

1981

扫码关注云+社区