大数据的那些事(4):活雷锋与风口的猪

按照惯例今天应该是继续讲三驾马车的BigTable,但是一则BigTable这东西不容易一下子说清楚。二则我觉得是时候停一下技术,多聊点八卦。所以我们来讲讲这个著名的活雷锋公司,以及Hadoop的早年。

Yahoo作为互联网时代的第一股,曾经牢牢的占据了整个IT行业非常重要的位置。从.com时代存活下来,一直到最近穿出来卖给Verizon,又传闻Verizon变卦不想买。从天之骄子变成弃之如敝履的破鞋,也算得上是一个非常可悲的事情。我无意详细展开Yahoo这个公司的整个历史。但是业界有一个传闻,就是站在风口,猪也能飞起来。至于飞起来的是真的牛还是猪,只有等风停下来才能看明白。这话一次又一次在我的生活里被验证。所以通常来说聚光灯下的那些人头,到底里面有多少是真英雄,有多少是猪,只有拉长时间线才能看明白。

通常来说,大家默认的Hadoop起源是在Nuget这个项目。作为开源搜索引擎Lucene的姐妹的爬虫Nuget,始于Doug Cutting和Mike Cafarella。这两位在2003年开始做这个项目的时候,用的是手搭的几台机器。这个爬虫的东西很难scale,做inverted index更是麻烦。而Google的GFS和MapReduce于2003和2004年分别发表。于是到了2004年的时候这两位意识到需要重写这个Nuget系统了。他们用了几个月的时间做了一个简易版的HDFS和MapReduce,又把Nuget系统移上了这个新的平台。从此以后在几十台机器的范围内,可以非常稳定轻松的跑起来了。这大概就是互联网上能够听闻的Hadoop的最初起源。至于真相如何,我也不得而知了。但是有一点我是知道的,这code和Google的那个比,一定是不堪入目的。即使4年后的2008年,我在IBM Almaden Research Center实习的时候,不得不接触到当时的Hadoop系统,尽管我本人是学渣编程尤其的烂,依旧可以看得出来这个系统还是有不堪入目的感觉。那已经是四年以后了。

2006年注定是重要的一年,这一年Google发表了两篇重要的论文:BigTable和Chubby。前者导致了HBase,后者产生了Zookeeper。有关这些的东西留到以后再详细讲。这一年,也是Hadoop作为一个独立的系统从Nuget里面独立出来。这一年,还是Yahoo正式的招了Doug,从此开始了Hadoop的活雷锋时代。这一年,顺便插一句,也是我正式投出了人生的第一篇paper投出以后拿到拒信的时候,开启了我PhD的论文灌水生涯。

于是Hadoop就这样独立出来了,Doug在Yahoo搞Hadoop啊搞Hadoop,机器从几十台到几百台啊。大约是一年多以后的时候IBM也进来了,当然18摸(IBM)有着一贯的官僚和自毁长城的历史。这场Hadoop的盛宴,它们进来的早,却在内斗中赶了个晚集,基本上是一无所获了。Facebook那个时候也进来了。更有意思的事情是活雷锋不仅仅有Yahoo还有Google。当时的Google远不是后来的Evil的不得了,脑子很好使的那个Google,活脱脱的一个傻白甜。Google自己估计也是被MapReduce的风给吹得我得意的笑啊我得意的笑啊。一边是和数据库领域大佬,未来图灵奖的获得者Michael StoneBraker撕逼。一边Google和18摸一起买下了一个快要废弃的datacenter,弄进两千台机器,装上Hadoop,以便各地的PhD和Professor们可以好好的研究这个Hadoop,认认真真的膜拜MapReduce这个神话。

我想Google是一定看不上眼这个粗制滥造的Hadoop的,出来的版本里面没有资源管理器,当然这是Google刻意从论文里隐藏的结果。用Java这种毫无效率的语言写的。文件系统效率极低,而且metadata居然连基本的High Availability都没有。我知道各位看官可能觉得我在胡思乱想,以小人之心度谷歌之腹。其实不是的。我有非常铁的证据。

后世的Hadoop三大批发商分别是Cloudera,Hortonworks以及MapR。有关这三大批发商的故事以后我们慢慢八卦,但是前两者好歹是出身血统正宗。那个MapR的出身就非常的诡异了。CTO是个三哥,以前在Google里面搞GFS的。出来单干以后在印度乌压压的招了一群大小三哥们,用C++写了一个自己的版本的HDFS,自带High Availability。从此以后这个批发商走向了一条和其他人完全不一样的道理。用C++复制开源的项目,自己提供兼容的接口,卖不开源的自家的实现。而很容易查到的是Google Venture早年给这家投了不少钱。像这种不跟随开源走卖自己的东西的,虽然一开始的时候看起来很牛13,但是过些日子,乱拳打死老师傅,开源的要有的都会有的,比如High Availability,比如Resource Manager。一个小小的屁公司,怎么能够顶得住一个世界呢?而Google Venture早年却看好这个公司,只能说Google内部秉承了同样的理念。先支持Hadoop这个渣渣给大家见识一下MapReduce的威武,再展现一下Google高超的Engineering水准,于是全世界都要顶礼膜拜,Google从此封神了。

当然历史最终不是这样走的,这也就是为什么我觉得在某几年的时候从Jeff Dean到Google都被MapReduce的光辉给照瞎眼了。所以吹牛这个东西一旦吹起来就会飘飘然,觉得老子天下第一。周围的人再捧几下,就真的上天了。要不以袁世凯如此聪明的人,怎么也会想着去当皇帝呢?Google也不能免俗。其实类似的事情在Google身上不断发生,从Google Wave到Google Glass乃至Google Plus。好歹Google这几年终于清醒过来了,在tensorflow上的表现让我看起来完全不像以前那个250啊。当然拿着印钞机的250还是可以活很多年的,不论是微软还是Google,所以印钞机在手别无所求啊。

2009年同样发生了很多事情,Doug加入了新成立的承包商Cloudera,Mike PhD毕业去了UMichgen做了教授。2009年也是美国经济危机的第一年。那年我从我的学校滚蛋了,因为老板跑路,只好趁经济危机毕业了。我没见过Doug,见过Mike几次,因为在同一个圈子里混的缘故。我其实对09年毕业的Mike印象不深,印象更深刻的是他的同门师兄弟Chris Re。那年经济危机我被迫毕业,到处投各种职位,包括申请faculty的职位,结果Mike没有太多出面申请很多学校,Chris则几乎把每个学校都投了一个遍。凡是我投的他也投的,面试都属于他的。我只在200多名的一个小学校拿了个onsite最后还挂掉了。充分证明了谁是真正的大牛,谁是在风口也没飞起来的那头猪。

两年后Yahoo spinoff了它的Hadoop团队,VP of Hadoop等一干人成立了Hortonworks。这就是为什么今天的开源Hadoop里要么是这个批发商的,要么是那个批发商的,却没有MapR什么事情。当然,MapR也弄出了一个开源项目Drill,这是应对后来Google的BigQuery的策略了,和Cloudera的Impala有异曲同工之妙。我们还是留待以后再慢慢的讲吧。Yahoo的spinoff也就意味着它作为活雷锋时代的结束。让我们为这个即将死去的活雷锋这多年来对Hadoop无私奉献支持来说声感谢。由衷的感谢Yahoo这头风飞了很多年的猪对开源Hadoop ecosystem的巨大而无私的贡献。

原文发布于微信公众号 - 飞总聊IT(feiitworld)

原文发表时间:2016-10-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PaddlePaddle

AI不思议|AI城市狂想曲

阳光照进房间,小P被温柔的声音唤醒:“主人您好,今天是2040年6月21日,天气晴,室外最高温会达到35度,室内24度。早餐已经根据您的需求配置好了,请您洗漱后...

11030
来自专栏机器人网

来一波美国海军陆战队的新式机器人和“超级潜艇”

据外媒报道, 美国海军陆战队可以部署一系列未来主义的军事技术来应对“海滩突击战”。这些新技术将包括装有机枪的机器人以及变身为能深水潜行的小型隐形潜艇的快艇,以避...

33750
来自专栏VRPinea

Gamescom 2018第二弹|科隆游戏展,展台、周边、Cosplay等现场精彩图文新鲜出炉!

德国科隆游戏展(Gamescom,以下简称“科隆展”)仍在如火如荼地进行中。今年为期五天的科隆展展出面积达20万米,参展商已突破1000家,参观者突破50万人次...

11510
来自专栏PPV课数据科学社区

图解:21吨TNT爆炸的威力有多大?

出处:新浪科技 8月12日晚23时30分左右,天津滨海新区开发区发生剧烈爆炸,爆炸火光冲天。8月12日23:30左右,天津滨海新区瑞海国际物流中心发生爆炸,现...

3.5K100
来自专栏程序员互动联盟

【程序员故事】elber是个程序猿

elber是个程序猿,我就是elber。 百度百科对程序猿的解释:是一种近几十年来出现的新物种,是信息革命的产物,在行为和物种归类上我们也可称为码字猴。程序猿是...

32270
来自专栏JAVA高级架构

不是生活所迫,是万万不会在北京写代码的

以秦岭淮河为界,把中国的互联网版图画分为南北二派,目前,北派压倒性的优势领先南派,这优势主要在码农的数量。北派,主要是北京,可能是世界上码农密度最高的城市 ,没...

39960
来自专栏程序你好

在北京写代码,是种什么体验?

13120
来自专栏企鹅号快讯

地表最强14大超级程序员,游戏开发者比肩谷歌天才

虽然我们没办法真正证明谁是在世程序员中谁最牛,但总有开发人员不停讨论这个话题。ITworld网站在各种相关论坛里研究输入设备及编码器,看看有没有谁是大家普遍赞同...

33850
来自专栏VRPinea

谷歌首个360°互动式VR 涂鸦——《回到月球》,简直可爱炸了!

16930
来自专栏大数据文摘

重温计算机简史:从石头计数到计算机

19240

扫码关注云+社区

领取腾讯云代金券