【学习】7 个你不可不知的大数据定义

在大多数人根本不知道大数据(Big Data)到底是什么的时候,不可否认的是,大数据已经在 21 世纪掀起一场惊涛骇浪。根据研究机构 IDC(国际数据资讯公司)的分析,这个世界上的资料正在以每两年就翻倍的惊人速度增加中。了解大数据、如何利用巨量资料,成了人人关心的重点议题。 尽管大数据的定义各家歧异,但基本上,大数据领域里的每个人都同意一点:大数据不仅仅是指更多资料而已。这篇文章整理出 7 个重要的大数据观点,希望大家不只是看着大数据的表皮,而能用不同的角度深入检视大数据。

1) 最基本的大数据定义 The Original Big Data 大数据的 3Vs 定义是目前为止最受推崇且最广为人知的说法。3Vs 由 Gartner 的分析师 Doug Laney 最早在 2001 年时提出,分别代表资料量 Volume、资料传输速度 Velocity、资料类型 Variety。从那之后,便有人在 3Vs 之外陆续提出更多「V」, Veracity、Validity、 Value、Visibility 等,其中又以 Veracity (真实性)最被普遍认同。 3Vs 定义在上一篇文章中有仔细介绍,在这就不详述了,请参考《巨量资料的时代,用「大、快、杂、疑」四字箴言带你认识大数据》。 2) 大数据即科技 Big Data as Technology 大数据并不是什么崭新的概念,好几十年前 CERN 的科学家就在处理每秒上看 PB (Peta Bytes)巨量资料。那为什么一直到近几年「大数据」这颗塬子弹才被投到科技圈,轰得人人叁句不离大数据? 现今要处理的资料量更庞大、资料产生跟处理速度更惊人、资料来源更多样,于是处理、储存大量资料的新技术跟工具快速发展,像是开源软体 Hadoop 跟 NoSQL 资料库。新科技诞生后,开发者跟使用者需要一个专业名词来与之前的科技作出区别,于是「大数据」一词因应而生。 因此大数据不只是指资料,也指这些用来分析、处理巨量资料的新兴科技。 “Big Data is the new tools helping us find relevant data and analyze its implications.”

3) 大数据即不同的资料类型 Big Data as Data Distinctions 现今「大数据」所涉及的资料已经和过去的资料已经不同了。根据 Hortonworks 公司战略副总裁 Shaun Connolly 的说法1,过去的资料大部分是人工手记下来的交易纪录(Transactions),现在则是机器替我们记录下来的交易资料;除此之外,还有人们跟事物、企业间的互动资料(Interactions),例如人们在网路上点击网页跟连结的纪录;最后则是机器自动生成、累积下来的观察资料(Observations),例如智慧型家居产品记录下来的室温变化等。 因此 Shaun Connolly 定义大数据是由交易、互动、观察资料所组成的资料型态。 "Big Data = Transactions + Interactions + Observations" 4) 大数据即讯号 Big Data as Signals SAP 公司的高管 Steve Lucas 不以资料型态来看待大数据,而是以目的(intent)跟时机(timing)。在过去,企业收集到的资料只能在事情发生后引以为鉴,但现在企业收集到的是「新讯号」2,可以在事情发生前得到前兆跟提示,进而做出行动来影响事情结果。例如某品牌广告在社群网站上的「赞」数、点阅率如果跌落谷底,公司便可以预期接下来产品销售量一定也会惨不忍睹;同样的情形在过去时,公司所得到的数据就是产品发售后的销售量。 “Big Data is the new signals.” 5) 大数据即机会 Big Data as Opportunity 根据 451 Research 的数据专家 Matt Aslett,他将大数据定义为「以前因为科技所限而忽略的资料」3,这个说法也受到许多人的赞同,因为多半提起大数据时,都是在讨论这些以前无法分析处理、囊括其中的资料。 "Big Data is data that was previously ignored because of technology limitations." 其实他在文中并不是用 Big Data 一字,而是使用「Dark Data(暗数据)」。事实上许多公司都使用暗数据这个字,因为当资料变「暗」了,便表示一个漏掉的讯息、错失的机会,在企业策略中留下一个盲点4。一直以来,各企业雇用数据专家的目的就是希望能「点亮」这些暗数据(illuminate the Dark Data),观察到以前不曾注意过的趋势、做出更全面的考量。 也因此,SAP 曾经做过一个调查显示,将近 76% 的企业高管们视大数据为「机会」。个人也满喜欢这个观点,毕竟现在各公司在推动大数据的塬因,就是希望能掌握全面的讯息、把握住这些机会! "A new survey by SAP suggests that nearly 76 percent of executives see “Big Data” as an opportunity" 5

6) 大数据的哲学定义 Big Data as Metaphor 着名的摄影师和出版人,前《Time(时代)》、《Life(生活)》、《National Geographic(国家地理)》杂志摄影师,负责过有史以来最大摄影项目的 Rick Smolan ,在他的着作《大数据的人性面孔》(The Human Face of Big Data)一书中,则给了大数据一个最完美的哲学定义 ——「大数据是帮助地球建构神经系统的一个过程,在这系统中,我们(人类)不过是其中一种感测器。」6 “Big Data is the process of helping the planet grow a nervous system, one in which we are just another, human, type of sensor.” 深奥吧?如果你读过《大数据的人性面孔》一书,相信你应该会对这个比喻点头如捣蒜。求方便的话,这本书也提供了 iPad App 版本可以阅读,有兴趣可以到这里下载。

7) 大数据是旧东西的新噱头 Big Data as New Term for Old Stuff 也有部份人认为,「大数据」一词被严重滥用,大数据只是商业智慧(Business intelligence)或商业分析(Business analytics)演化后的新字7。 从 Google Trend 里可以看出,从 2004 年到现在,「Big Data」一字的搜寻次数从 2011 年开始飙涨的同时,人们对「Business intelligence」的兴趣则是持续降低。「Business analytics」趋势虽然小幅上涨,但短时间应该不可能赶上另外两个字的风潮。

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2015-02-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Golang语言社区

爬虫带你了解一下Golang的市场行情

项目地址:https://github.com/go-crawler/lagou_jobs

34140
来自专栏刺客博客

(转载)Linux从零到高手的进阶心得

人们眼中的天才之所以卓越非凡,并非天资超人一等,而是付出了持续不断的努力。只要经过1万小时的锤炼,任何人都能从平凡变成超凡。

18340
来自专栏非著名程序员

2018 互联网人恋爱调查报告:程序员最稳定,产品经理 X 生活频次奇高

今天在浏览新闻的时候,突然间看到了,今年双 11, 百度发布了一份《2018 互联网人恋爱调查报告》。是专门对泛西二旗地区的互联网从业人员的恋爱状况进行了调查。...

13820
来自专栏顶级程序员

不是技术牛人,如何拿到国内IT巨头的Offer

byvoid 面阿里星计划的面试结果截图泄漏,引起无数IT屌丝的羡慕敬仰。看看这些牛人,NOI金牌,开源社区名人,三年级开始写Basic…在跪拜之余我们不禁要...

36340
来自专栏企鹅号快讯

什么是好的程序员?

C语言杂谈 什么是好的c/c++程序员? c/c++程序员就应该有c/c++程序员修养 ? 什么是好的c/c++程序员?是不是懂得很多技术细节?还是懂底层编程?...

198100
来自专栏镁客网

机器人画家,三分钟搞定一幅人物黑白肖像

15020
来自专栏程序员互动联盟

为什么中国人没有自己的编程语言?

说到编程语言,大家最直接想到的是现在比较流行的C语言,java以及现在势头非常猛的python,php等语言。很多人喊着都是英文的,不是中国人自己的语言,中国人...

80070
来自专栏诸葛青云的专栏

一个C/C++自学转行者应该具备的素质

 之前我在关于C语言的部落里也发过了不少的学习技巧分享的文章,大家可能面熟过我,很多人喊我七哥。从高一开始就接触了C语言,然后学习C++,到win32和MFC,...

21500
来自专栏大数据架构师专家

为什么你一直在找方法,却依旧学不好?

有个小伙伴想学习python,让我给他推荐书籍,闲来无事就给他推荐了书籍,并告诉他先学哪本后学哪本,甚至连哪几章不用看,哪里是重点,看的时候需要补充哪些...

14030
来自专栏C语言C++游戏编程

人生需要规划,学好C语言编程,把握自己的未来,are you ready?

C语言和其他高级语言不一样,它的很多操作都是直接面向内存(面向硬件)。困难的是,对于C语言,不论是数据类型、操作符、语句、函数,都或多或少、或简单或复杂地通过地...

18310

扫码关注云+社区

领取腾讯云代金券