大数据那些事(14):老东家的大数据

这个系列写到现在,老东家微软的大数据平台Cosmos总是不可避免要介绍的。坦率得说,对于写和不写,应该怎么写,我一直很困惑。不写当然是简单的选择,没有是非不惹麻烦,但是难免会让这个系列不完整。写的话,也有很多的麻烦,老东家的大数据平台的确有不少公开的信息散落于互联网各地,包括若干论文,然而换句话来说,还有更多的保密的东西至今是没有公开的。所以这些东西从法律的角度我需要回避,不能够乱说。

所以我做个折中吧。文章中涉及到技术的问题,都是有据可查的,基于已经发表的论文和公开存在的演讲,博客等。文章中涉及到的评论,都不会对老东家技术进行批评。有偏见之处还请各位看客海涵。

微软大数据平台Cosmos最初是为Bing的发展需要而建设的。大家都知道最近才离职的微软前执行副总裁陆奇曾经是online service division的President,但是大家可能不知道的是,Bing的基础架构主要始于现任的微软执行副总裁沈向洋和现在的CEO Satya。根据沈大大10月底接受采访的互联网文章微软并不比谷歌缺乏创新力里面的介绍,在2007年的时候,微软决定大规模投资做search,作为公司梯队人才储备的他和Satya被派到前线从事搜索技术的开发。当时Satya是资深副总裁,全面负责Ads和Bing,而沈大大则是副总裁,负责Bing的研发。当时还请了McDonald,已经退休的微软前员工,为互联网前的微软帝国做出杰出贡献的麦当劳兄,把整套邮件系统里的邮件日历地址簿等整合在一起的想法起始于他。事实上以上帝之眼事后诸葛亮去看,看来一个人在一个环境下能成功不代表另外一个环境下也能继续成功。

微软投资Bing这单生意有很多人都有评价,褒贬不一。我个人的观点是,这是一单特别合算的买卖。正是因为在Bing上的大量投入,使得微软具备了从一个传统软件公司转型到云计算公司的技术基础。Windows Azure的大量基础技术始于Bing。而其他类似于微软的传统软件公司比如Oracle或者IBM在这场大数据和云计算的转型中,则要比微软艰难很多。

我上职场找工作的时候始于08年底09年初,美国经济危机最为严重的时候。导师在08年8月决定跳槽,使得我的毕业被提上日程,可选的选项不多。而因为经济危机伊始,各大公司观望为主。我实际上只拿到了微软和Oracle的面试,两者面试的经过都比较曲折,到手的offer也远远无法和今天动择十多万的相比,只是个位数的。面试微软那天我记得早上打车去面试的楼,途中遇到一台收垃圾的车在前面开,垃圾车的背后写着巨大的广告 I Bing, You Bing。以中国人的观点来看,当时应该是挺不吉利的,我特别想说你Bing,你全家都Bing。面试果不其然非常的曲折,中间发生了火灾,紧急疏散等事情。面试的组当然也不是Cosmos。此后又经历了负责我的recruiter 跳槽,负责我的manager转业,offer死活定不下来等诸多事情。加之2009年2月为了应对经济危机微软有史以来第一次宣布裁员5000人。故而非常的人心惶惶。

我的offer最后定下来是沈大大给我打了半个小时的电话,然后把我给放进了这个当时保密但是现在路人皆知的Cosmos组。平心而论,直到今天我依然非常的感谢我的老东家在我危难之际赏了我一碗饭吃,使得我不至于流连颠簸。加之东家还给了我和大牛们学习的机会以及让我成长的环境,虽然期间也有不尽如人意之处。然滴水之恩当涌泉相报。时至今日我依然非常的感激老东家给予我职业道路成长上的诸多帮助。

我记忆中的Cosmos队伍大致上得分成三个阶段,我来之前,我在Bing的时候,Cosmos从Bing reorg出去进入到和SQL Server HDInsight并列的数据处理部门的时候。前者存留在故纸堆里,我无法瞻仰先辈们的风采,只能从code repository里管中窥豹一番。后者时日不久,我很快离去,故而能说之话也不多。

在我加入Cosmos前,Cosmos最开始作为一个存储系统,是由一个俄罗斯人搭建的,名字叫Andrew什么的已然不太记得。我来之前没多久去了某个DoNotEvil的公司,离职原因不详。我从未见过面,只是看过他以前给的tech talk的录像以及他的code。他写的lock-free的data structure的程序当时我看不懂,到今天估计还是看不懂。他搞的牛13的压缩算法,我这辈子搞不出来。storage 上面跑的是由已经成为历史的微软硅谷研究院的大神Michael Isard开发的Dryad。在这个上面跑的是由微软研究院的Bill Ramsey写的SCOPE。我加入前的Cosmos刚进行了一次大的reorg,此后若干年又发生了若干次reorg。当时老的manager下台,是个光头,不记得名字了。新manager是Ed Harris。我在Scope组,领导是现在阿里云的首席科学家周靖人。

我在的那几年里,Cosmos经过了若干次reorg,最终形成了三个微软partner共同管理的局面: Ed Harris主管一个新项目,所罗门主管存储和前端,周靖人主管language和execution的局面。而我的领导也随着队伍的扩大自然而然的成为了我的skip。那是Cosmos的黄金时期,人才云集,给我这种初入industry的人无限的学习机会。

后来整个组就去了另外一个org,来管理我们的大头是Raghu Ramakrishnan。Raghu是database圈子里的大牛,名声显赫。无论是早年的Datalog还是后来的Burch都是很有影响力的。至于他和他学生的那本数据库教材,更是教材的经典。最初知道他是听他在2007年VLDB给所有的新researcher做talk,讲述他当年怎么样被David Dewitt剥削,晚上等Dewitt走了以后再开始做自己的事情,累了睡实验室的经历。这个故事在未来的两三年内不同的会议上听了若干次。后来他离开了威斯康辛去了Yahoo研究院。再后来雅虎解散了研究院就来了微软,一段时间以后接手了微软所有做BigData的人,包括了Cosmos。我对Raghu的另外一个印象深刻的事情是2008年Sigmod的时候David Dewitt等人发表的benchmark Hadoop不如数据库系统的著名论文。当时Raghu已经在Yahoo研究院,在那篇论文做talk的时候,他提问旗帜鲜明的表达了自己的反对立场。只是这场MapReduce a step backward开始的论战,到最后到底想要表达什么,只能说个人都有个人的利益要捍卫了。

我在Cosmos的岁月里,主要是工作在SCOPE这个语言上,至于Cosmos的技术架构,我想等下一篇文章再详细的说。作为一个非常客观的自我评价,组里牛人云集,如果排个序,那么尽管那5年里我一直在不断进步,我在所有developer里却一直稳稳的排到最后的20%。这对于我本人来说,既是一种鞭策也是一种learning的experience。我想我应该很难再见到那么多大牛在一起的景象了。再主观一点来说,如果我事先在其他组里工作了三四年,然后再进Cosmos的话,那么对于我的收获毫无疑问应该会更大。然而不管如何,我都非常的感谢这几年的经历。当我在Tableau遇到一些需要细想去处理的事情的时候,我往往能从过往若干年里大牛们的处理方式中得到借鉴。

Raghu的到来算得上是这个team各奔东西的开始。所谓盛名之下其实难副是非常的有道理的。曾经有人问我Windows Azure Data Lake是不是可以把亚马逊打得落花流水。我想半天以后说,以后看阿里巴巴和亚马逊PK吧。作为我曾经的上司,后来的skip的周靖人毫无疑问是我见过对大数据有着最为深刻了解的人。智商高情商高,有vision有极强的科研能力,更有极强的带领团队把产品deliver的能力。而且他是一个极为勤奋的人,基本上每天8点前来办公室,到半夜11点依然可以找到他。在我这么多年的career里面,我从未见过有一个领导如他这般的能干全面。我想,微软没有把整个大数据的研发交给他,而是选择了华而不实的Raghu,应该是我的老东家做出的最为错误的决定之一。所以我深刻的相信,将来我们可以看到阿里云和亚马逊的PK,而所谓的某某data lake,有没有前景就不得而知了。

原文发布于微信公众号 - 飞总聊IT(feiitworld)

原文发表时间:2016-12-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CDA数据分析师

三则案例告诉你:大数据触手可及!

自2012年开始,大数据(big data)一词越来越频繁地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。这一新生词汇...

20310
来自专栏腾讯大讲堂的专栏

QQ 社交新一代:90后原来是酱!

在言必称“移动互联网”的时代,谁是移动互联网的主力军? 答案是人数近两亿的互联网“原住民”——90后。 他们是一群什么样的人?或许你会马上想到几个标签,一厢...

21210
来自专栏腾讯研究院的专栏

“大数据”显神威 证券市场“捕鼠”行动再升级

利用掌握的未公开信息悄悄建仓,提前埋伏,总能低价买入高价卖出,获取高额利润,这就是“老鼠仓”交易。从刚刚过去的2014年来看,一系列“老鼠仓”现象接连浮出水面...

1908
来自专栏腾讯大讲堂的专栏

一个在编程中寻找乐趣的比赛

从2014年9月到12月,一个与众不同的大赛在腾讯内部进行着,不同于以往的技术挑战赛或者创新类型的赛事,这个比赛是一个软硬件结合充满乐趣的比赛。腾讯代码文化-乐...

2156
来自专栏数据和云

一代枭雄 - 硅谷首富 Larry Ellison 的彪悍人生

根据2017年1月23日消息,最新的全球科技界最富有的100名富豪榜单现已公布,这最富有的100位超级富豪拥有的财富,净资产总值达到了8429亿美元。比尔盖茨毫...

37610
来自专栏java一日一条

改善程序员生活质量的 3+10 习惯

2017年的一天,代码伴随着手指极具节奏感地输出在IDE上,突然某Chrome插件弹出一封邮件提示:“今天是我在ThoughtWorks的最后一天”。遇到这种离...

481
来自专栏华章科技

什么叫互联网思维?段子简单粗暴让你秒懂

什么叫大数据?什么叫O2O?什么叫蓝海?什么叫红海?什么叫互联网思维?什么叫众筹?接下来一个段子统统告诉你,就是这么简单粗暴!

842
来自专栏华章科技

2016年度汉字遴选,“刷”应该上榜

前几天,《新周刊》在杭州举办了“知道分子”座谈会。会上,执行总编陈艳涛向大家征集2016年的年度汉字,有人提了“涨”,有人提了“限”,都和房地产有关。

791
来自专栏理论坞

这五点助你成为精英

前一段时间一直在听吴军老师的《谷歌方法论》,可以说很新奇,给我打开了很大的一扇门,让我了解到很多不同领域的文化、知识,以及见识。

1193
来自专栏机器学习算法与Python学习

饿了么大数据告诉你:加班主城在哪

  问:当一份饺子和一份汤圆放在你的面前,你会吃哪一个?答:合格的“吃货”应该是把它们都吃了。6月1日,让这份大数据告诉你,到底是饺子党还是汤圆党胜?“辣星人”...

3385

扫码关注云+社区

领取腾讯云代金券