大数据到底是什么

最近这段时间有很多人问我,大数据到底是什么。当然实际上问题没有那么直接。更多的问题是,飞总啊你看我亲戚家的那个企业是不是可以上个大数据啊,用起来就能发财了。或者说这个大数据的新开源项目是不是对我提高这个那个有帮助啊。诸如此类的问题问多了,我也就在问我自己,写大数据系列写到现在了,大数据到底是个什么鬼。

这就让我想到了很多年前看到的Dan Ariely关于大数据的名言:

Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it.

这位普度大学的叫兽主要是做行为经济学研究的。但是聪明人到哪里都一样,这段大数据的名言到今天来看依然是非常的精彩。

今天如果我们以大数据作为关键词去搜索的话,那么我们可以搜出来的东西不但很多而且很精彩。各行各业的砖家叫兽们有着各种各样的精彩言论。各种白皮书红皮书黑皮书绿皮书满天飞。无论是做技术的做投资的做商务的搞经济的乃至做地震的搞生物的开发石油的开车的,但凡你能想象得到的领域,都可以挂上大数据。死数据活数据各种术语满天飞。这是一个大数据的年代,虽然有点过气了。这是一个没有大数据就没有这个世界的年代。有些文字读起来是颇有激扬文字粪土旧时代的感觉。但是你要真的问问这些专家们叫兽们,还有组团卖产品的各大公司们,说法五花八门,谁也没搞明白到底什么是大数据。于是乎,Dan Ariely的名言拿到今天的各行各业,颇有一番照妖镜的味道。

我记得当华为准备进军云计算市场的时候,2015年的宣传里面是没有大数据的,只有云计算,所谓大数据相关的服务只是作为云计算的各种服务之一来提供的。而到了今天再看华为的宣传,大数据已经是作为一个独立的东西提出来了。这从业务逻辑结构来看,华为显然从2015年到2017年完成了一个从大数据等于云计算的一部分到大数据不等于云计算的转变。至于这种转变背后说明了什么,作为一个大数据市场上的后来者的这番变化,我们这些吃惯群众们可以好好想一下。

我们在大数据甚嚣尘上,乃至于现在人工智能甚嚣尘上的时候,到底能够从这里面看到点什么。我们需要注意的是,在历史上从来都不缺乏新概念。互联网行业也从来不缺乏新概念,比如网格计算,比如web service。然而技术其实就那么多,新概念里面到底是在玩旧酒装进新瓶的玩意,还是真的推陈出新是每个人应该具备鉴别能力的地方。所谓大数据和聚集在大数据这个壳下面的林林总总的东西,有些是新瓶子里装了旧酒,有些是真玩意。到底哪些是旧货哪些是新东西就得看各位的鉴别能力了。至于为什么会这样,换个壳卖东西,来钱比较快。人都是喜新厌旧的啊。

如果我们拿大数据的鼻祖谷歌举个例子,先有三驾马车,后有Spanner大杀器。前者是指Google File System, MapReduce, BigTable. 作为Google来说,它需要这些技术,因为它要面对的是整个互联网的数据。现存的技术当然没办法来满足。但是作为用户来说,其实我管你是GFS, HDFS还是其他什么名字,说白了就是个文件系统。文件系统能干吗,只能存文件呗。存了文件以后呢?查询处理,这个套路从单机时代就开始了。没有办法处理,那就发明了MapReduce啊。MapReduce像汇编一样又慢又难用,自然有人在上面继续构建抽象的好用的东西。说这个的意思,其实是我们应该考虑是从用户角度看问题还是从技术人员角度看问题。比如说我就遇到过有人问我手里一把数据怎么处理,是不是应该搞个大数据的东西,我跑去一看,乖乖,就10多个GB的数据。用个postgress或者mysql也就够对付了。真要上了Hadoop再用HIVE,那只能是脑抽了。

再举个例子HIVE,不要看这东西名字多炫酷,facebook说过他们想做的是什么:SQL on Hadoop。SQL这个东西我想是个人都明白。那么不管技术实现是什么,本质上来说那还是个SQL。至于SQL能干吗,不需要叫的多高大上,大家都明白。

我们有了NoSQL,最开始是Key-Value Store。其实这个名字已经比较糊涂了,不妨直接用它最基本的名字:Map. Map这个数据结构大家都懂。所以所谓的NoSQL最初来干嘛大家应该也就明白了。至于背后实现的技术,那对很多人来说其实是细节。这个东西是用来解决一类问题的。而这类问题是不是必须挂在大数据下面,就得问大数据到底是什么了?NoSQL很快就变成了杂种。各种各样的db,没有实现SQL的,都说自己是NoSQL。因为大家都知道沾上这个名字的光可以更有效的传播自己,来钱更快。

现在又有人发明了NewSQL,用来区别NoSQL和以前的SQL,目的是什么呢?标新立异呗。所谓NewSQL就是指Spanner的copycat们给自己取的新名词。说白了对用户来说那不还是个SQL产品吗?new能new到哪里去。这世界上如果说需要那个规模的企业,估计都能养起一只队伍来维护新的开源产品。如果不需要那个规模的,跑个mysql Postgress的也不一定差到哪里去。至于人傻钱多的所谓500强国企,上个Oracle或者SQL Server又或者Hana也挺好的。虽然人傻钱多,贵是贵了点,其实真的没啥差别。Google最近把Spanner开出来作为大杀器来作为云服务的一部分,而且价格贼贵,我想多半也是想借助NewSQL这个名头来多捞点钱。

说了这么多,其实只是想说一个问题,在概念满天飞的今天,什么东西都挂到了BigData下面。但是BigData到底是什么东西,这么定义,要解决什么问题,范围在哪里,其实是没有一个定数的。至于各种专家教授从经济学行为学心理学各行各业各种学来解释大数据这个东西多么的伟大有多大影响的话,说白了都是然并卵。我并不排除有很多睿智的人,写了很多真知灼见。但是我觉得最重要的一点,作为使用者和了解大数据的人,最好尘归尘土归土的把东西都拆开来,看看每项技术是用来具体解决什么问题的。这个技术的创新到底是在内部实现上,还是在用户接口上。很多时候,作为用户,SQL还是那个SQL,不管是HIVE还是Postgree还是Oracle。数据仓库还是那个数据仓库,不管是Business Object还是麒麟。

古话说的好,浑水摸鱼,把水搅浑了,一锅粥的端上来叫大数据套餐,才能更好的收购各位的口袋。

原文发布于微信公众号 - 飞总聊IT(feiitworld)

原文发表时间:2017-02-24

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器人网

斯坦福研发的集群机器人,可集体表演“I LOVE YOU”

这堆机器人名叫Zooids,是由斯坦福大学图形实验室(Shape Lab at Stanford University )和法国国家信息与自动化研究所的Aviz...

2956
来自专栏大数据文摘

每天记录一件开心的事,736天后回看数据我学到了…

1733
来自专栏我有一个梦想

游戏开发完整学习路线(各个版本都有)

在软件开发中,游戏开发这个方向看起来目标很明确,但其实是个领域很广的方向,入门的时候如果得不到指点一二,很容易误入歧途,相反,如果走这条路之前能得到前人的一些指...

3828
来自专栏大数据和云计算技术

速度比你想的重要

效率高的明显好处是:单位时间内能完成更多的工作。但这只是冰山一角,假如工作速度快,你就会倾向于低估做事的成本,因此乐于完成更多的工作。 举个例子,假设你每写一...

3398
来自专栏牛客网

面经:运维开发实习生(网易杭州)-杭研-公共技术(含网易云)

面经:运维开发实习生(网易杭州)-杭研-公共技术(含网易云) 前言 面试前在牛客网翻了好久,没找到网易运维开发的面经……百度找到一份面试题目:网易2014校招-...

5265
来自专栏斑斓

架构模式的圣经

在模式领域里,有一部伟大著作给予软件设计领域带来的影响非常大,那就是以德国人Frank Buschmann为主要贡献者的《面向模式的软件架构》(Pattern-...

3966
来自专栏大数据钻研

统一回复《怎么学JavaScript?》

于时不时,有同学私信问我怎么学前端的问题。 这里统一回复一下,如下次再遇到问我此问题同学,就直接把本文链接地址发给你了。 首先说句题外话。关于有人管我叫大神的...

3465
来自专栏腾讯大讲堂的专栏

腾讯产品采访系列:细节控是怎么做产品的?

其实公司的产品发展到现在,大部分都比较臃肿,但是有意思的是,每个产品下面优秀的产品经理,都在这样的前提下寻求突破。因而有时候会发现一些有意思的小细节,用的时候真...

2349
来自专栏大数据钻研

程序之美 存乎于心

我是盛安德科技天津分公司的普通WEB开发人员,本人并没有什么特长,开发语言仅限于PHP和Javascript,同时也不是科班出身,在本次“我的编程之路”活动中现...

3086
来自专栏Crossin的编程教室

Python之父二三事

我以前提到过Guido van Rossum,Python之父,就是他用一部英国喜剧《蒙提·派森的飞行马戏团》(Monty Python and the Fly...

3549

扫码关注云+社区

领取腾讯云代金券