前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大数据不再是大数据,大数据依然是大数据--我的一篇严肃总结

大数据不再是大数据,大数据依然是大数据--我的一篇严肃总结

作者头像
用户1564362
发布2019-07-04 15:06:43
6840
发布2019-07-04 15:06:43
举报
文章被收录于专栏:飞总聊IT

由于各种原因,我似乎缺了一篇严肃的文章,来阐述我本人对大数据这个领域的看法,以至于有人看到我这篇文章里的这个观点,就扩展到了我认为的那个领域里的那个观点。我还是决定严肃的写一篇文章,阐述一下我个人的观点。这样一来,多少有据可查。

要说大数据领域到底怎么样,我们就得先定义一下大数据到底是什么东西?一定要我坦诚的说,大数据并没有一个精准的定义,它就是一个吹出来的词。所以我还是觉得杜克大学的教授说的真好,大家重温一下。

当然作为观点的表达可以这样来说,作为严肃的讨论,大数据肯定是有一个相关产业在后面的。其实更严格的来说,可能还不止一个相关产业在后面。而产业和产业之间的关系,又更复杂。

很长一段时间里,我们通常意义上来说大数据,是指以谷歌三架马车里的Google File System和MapReduce为原型,被Doug Cutting等人创造出来的Hadoop系统,以及Hadoop系统上衍生出来的生态。这里的核心是Cloudera, Hortonworks以及MapR三家Hadoop分销商。

当然,如果我们要扯远一点,其实还有其他的分销商,只不过这三家发源于美国的相对而言在全球范围内更知名。撇开三家批发商以外,还有一众云厂商,它们也提供其云版的Hadoop。再加上还有一些本身不能完全算Hadoop生态圈里面的企业,但是这些也说自己是做大数据的。

所以聚焦的第一步先看Hadoop分销商。那么以今天的眼光来看,这些分销商们都死的差不多了。Cloudera和Hortonworks这对世仇合并了。前者拥有创始人Doug Cutting,后者拥有除创始人外的整个Yahoo团队。两者打了这么多官司,最终选择的是合并。合并以后的日子还是很惨淡,最近的一次财报导致股票又腰斩,加起来40多亿的市值到现在20亿都没有了。

MapR则表示如果自己还没筹集到钱的话,就干脆结束业务算了。当然最新的情况是MapR找到了一个买家,准备贱卖自己了。

为什么Hadoop分销商的日子不好过。有好几个原因,但是我觉得最根本的原因是Hadoop本来就是一个烂东西。这真的不是什么秘密,圈内人应该都知道。

MapReduce这个东西,可以引用Michael Stonebraker的演讲:

当然,MapReduce这个东西,Stonebraker是非常的不喜欢的。有些人认为他的观点偏激了一些。这个东西还是有其可取之处的。但是不管怎么样Hadoop下面的MapReduce渐渐的就被Spark取代了。围绕在MapReduce上面构建出来的工具比如HIVE,我想使用起来也真心不是什么令人愉快的东西。

和MapReduce这个比起来,HDFS被人提及的少一些。HDFS是一个谷歌文件系统GFS的克隆版。与其说克隆版,不如说是个残废品。这个我想谷歌知道,抄谷歌的微软很早就清楚。同样是抄,HDFS这个抄的一个烂。这个锅我觉得应该Doug Cutting来背。

2011年VLDB是在西雅图开的,微软很多人过去了。开完会,大家觉得好像进入了原始森林。在Hadoop生态圈里的人,自娱自乐的沉醉在这个架构上,并没有迫切的希望做的更好的感受。

HDFS文件系统的烂,其结果可能比MapReduce影响更大。今天如果我们在线下使用HDFS的话,其存储成本相当的不便宜。伴随公有云和廉价稳定存储的到来,线下使用原生态HDFS已经不是一个很好的选择了。

谷歌三架马车里的BigTable的克隆HBase,可能是代码质量最高的一个。也并非是由Doug Cutting贡献。从某种程度上,我们可以说今天Hadoop集群最主要的应用,不是HBase就是Spark。

总而言之,原生态的Hadoop系统并不是一套技术上十分先进,资源利用率高,成本上有竞争力的系统。Hadoop发行商们,也并没有很好的发展这套系统。这些当然不是什么秘密。在这个圈子里的人估计10年前就知道,现在还是知道的。

伴随Hadoop生态成长的还有开源,Hadoop的项目都是开源的。于是我们就有了公有云厂商插管吸血的故事了。这尤其是以亚马逊为代表。亚马逊的公有云发展迅猛,和大数据行业的开放是强相关的。

但是亚马逊等公有云厂商并不是一切照搬Hadoop生态圈。比如说HDFS这个文件系统,公有云厂商的标准做法是在廉价稳定的公有云存储上套个壳,保持和HDFS的接口兼容就好了。至于底下一切照搬HDFS那套,除非脑袋被驴踢了,一般没有人这样做。

对于开源项目,云厂商通常都是吸收和自研结合的套路,表现好的项目就拿来主义,表现的不好的项目,就自研。所以在NoSQL这个层面,美国没有一家主流云厂商是提供HBase托管服务的,各自都有各自的KV存储服务。

不管怎么样,公有云厂商的出现,提供了一个很好的廉价好用的存储,非常方便的资源管理,以及强化了的Hadoop生态圈所不具备的查询分析工具。

这样一来,以原始Hadoop为生的那些Hadoop发行商,走到末路也是必然了。那些需要对Hadoop生态非常了解的,在公司内维护私有的Hadoop集群的开发人员,也会面临洗牌和下岗的问题。从这个角度来说,现在投身到Hadoop生态圈的运营运维开发里,的确不是一个好时候,除非你去的是云厂商。

但是我们如果把眼光放的广一点,不把大数据局限在Hadoop生态圈里,那么就会是另外一番景象了。数据永远都是有的,对数据分析永远都是需要的。以前通过数据仓库进行分析,写SQL,现在通过对文件进行分析,写Spark,这些只是工具的区别。

有两家公司,对Hadoop本身依赖不大,但是各自为数据分析提供了合适的支持,它们在Hadoop分销商纷纷日子难过的时候,日子非常的好过,上市以后股票表现也很好。一家是MongoDB,一家是Elastic Search。

前者的文档数据库非常的受欢迎,后者的全文本搜索能力非常的强悍。这说明只要在数据分析这个领域内,自身的工具有真正帮助客户的价值,那么公司依然可以表现的非常好。

换句话说,我相信目前还没上市的“大数据“公司里,类似DataBricks这样的我也很看好。我们还要注意到,现在的某些传统意义上属于数据库的产品,也具备了云端的扩展性,和对大容量超大容量的支持。比如说SnowFlake,Redshift,BigQuery。

从产品形态上,它们更应该属于传统数仓范围。可是,既然它们现在可以支持很大规模的数据量,你说它们是不是大数据呢?肯定是有人说是有人说不是。

如果一定要我给个总结的话,Hadoop抄袭谷歌的时候,本来就没好好抄,后续又没好好的演进。当初能红极一时,也是因为整个社区没有其他可替代的东西了。这个泡泡无论如何都有吹起来的成分。那么到今天,线下Hadoop生态圈这个生意,我想会是越来越难做了。如果大家眼里的大数据属于这个范围的话,那大数据可以凉凉了。因为有更先进好用便宜的东西了。

至于线上公有云的Hadoop服务,那个东西和原生态的Hadoop差别是巨大的,尤其是存储层的差异。HDFS一直为人所诟病。这不代表公有云厂商提供兼容HDFS接口的云存储同样为人所诟病。而且公有云厂商可以定制化的选择自研还是在开源上改,总而言之公有云上的大数据还有一席之地。

只不过公有云厂商应该明白,大数据是个必需品,但是却不是什么利润很厚的奢侈品。通过提供大数据服务,也赚不了太多钱。

而那些严格上不能简单归于Hadoop生态圈,自身又确实解决实际问题的产品,比如MongoDB,比如Elastic Search,前途肯定是光明的。

总而言之,到了今天对于广大新人来说,如果你是想学习数据分析的能力和工具的使用的话,那么无论是大数据的工具还是数据库的工具,总是相通的也不会落伍。如果你是想学习如何在线下部署管理维护这些Hadoop生态圈的轮子的话,那么现在入场,凉凉了,不如换个方向。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-06-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 飞总聊IT 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档