前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大数据那些事(14):老东家的大数据

大数据那些事(14):老东家的大数据

作者头像
用户1564362
发布2018-04-08 10:07:27
1K0
发布2018-04-08 10:07:27
举报
文章被收录于专栏:飞总聊IT飞总聊IT飞总聊IT

这个系列写到现在,老东家微软的大数据平台Cosmos总是不可避免要介绍的。坦率得说,对于写和不写,应该怎么写,我一直很困惑。不写当然是简单的选择,没有是非不惹麻烦,但是难免会让这个系列不完整。写的话,也有很多的麻烦,老东家的大数据平台的确有不少公开的信息散落于互联网各地,包括若干论文,然而换句话来说,还有更多的保密的东西至今是没有公开的。所以这些东西从法律的角度我需要回避,不能够乱说。

所以我做个折中吧。文章中涉及到技术的问题,都是有据可查的,基于已经发表的论文和公开存在的演讲,博客等。文章中涉及到的评论,都不会对老东家技术进行批评。有偏见之处还请各位看客海涵。

微软大数据平台Cosmos最初是为Bing的发展需要而建设的。大家都知道最近才离职的微软前执行副总裁陆奇曾经是online service division的President,但是大家可能不知道的是,Bing的基础架构主要始于现任的微软执行副总裁沈向洋和现在的CEO Satya。根据沈大大10月底接受采访的互联网文章微软并不比谷歌缺乏创新力里面的介绍,在2007年的时候,微软决定大规模投资做search,作为公司梯队人才储备的他和Satya被派到前线从事搜索技术的开发。当时Satya是资深副总裁,全面负责Ads和Bing,而沈大大则是副总裁,负责Bing的研发。当时还请了McDonald,已经退休的微软前员工,为互联网前的微软帝国做出杰出贡献的麦当劳兄,把整套邮件系统里的邮件日历地址簿等整合在一起的想法起始于他。事实上以上帝之眼事后诸葛亮去看,看来一个人在一个环境下能成功不代表另外一个环境下也能继续成功。

微软投资Bing这单生意有很多人都有评价,褒贬不一。我个人的观点是,这是一单特别合算的买卖。正是因为在Bing上的大量投入,使得微软具备了从一个传统软件公司转型到云计算公司的技术基础。Windows Azure的大量基础技术始于Bing。而其他类似于微软的传统软件公司比如Oracle或者IBM在这场大数据和云计算的转型中,则要比微软艰难很多。

我上职场找工作的时候始于08年底09年初,美国经济危机最为严重的时候。导师在08年8月决定跳槽,使得我的毕业被提上日程,可选的选项不多。而因为经济危机伊始,各大公司观望为主。我实际上只拿到了微软和Oracle的面试,两者面试的经过都比较曲折,到手的offer也远远无法和今天动择十多万的相比,只是个位数的。面试微软那天我记得早上打车去面试的楼,途中遇到一台收垃圾的车在前面开,垃圾车的背后写着巨大的广告 I Bing, You Bing。以中国人的观点来看,当时应该是挺不吉利的,我特别想说你Bing,你全家都Bing。面试果不其然非常的曲折,中间发生了火灾,紧急疏散等事情。面试的组当然也不是Cosmos。此后又经历了负责我的recruiter 跳槽,负责我的manager转业,offer死活定不下来等诸多事情。加之2009年2月为了应对经济危机微软有史以来第一次宣布裁员5000人。故而非常的人心惶惶。

我的offer最后定下来是沈大大给我打了半个小时的电话,然后把我给放进了这个当时保密但是现在路人皆知的Cosmos组。平心而论,直到今天我依然非常的感谢我的老东家在我危难之际赏了我一碗饭吃,使得我不至于流连颠簸。加之东家还给了我和大牛们学习的机会以及让我成长的环境,虽然期间也有不尽如人意之处。然滴水之恩当涌泉相报。时至今日我依然非常的感激老东家给予我职业道路成长上的诸多帮助。

我记忆中的Cosmos队伍大致上得分成三个阶段,我来之前,我在Bing的时候,Cosmos从Bing reorg出去进入到和SQL Server HDInsight并列的数据处理部门的时候。前者存留在故纸堆里,我无法瞻仰先辈们的风采,只能从code repository里管中窥豹一番。后者时日不久,我很快离去,故而能说之话也不多。

在我加入Cosmos前,Cosmos最开始作为一个存储系统,是由一个俄罗斯人搭建的,名字叫Andrew什么的已然不太记得。我来之前没多久去了某个DoNotEvil的公司,离职原因不详。我从未见过面,只是看过他以前给的tech talk的录像以及他的code。他写的lock-free的data structure的程序当时我看不懂,到今天估计还是看不懂。他搞的牛13的压缩算法,我这辈子搞不出来。storage 上面跑的是由已经成为历史的微软硅谷研究院的大神Michael Isard开发的Dryad。在这个上面跑的是由微软研究院的Bill Ramsey写的SCOPE。我加入前的Cosmos刚进行了一次大的reorg,此后若干年又发生了若干次reorg。当时老的manager下台,是个光头,不记得名字了。新manager是Ed Harris。我在Scope组,领导是现在阿里云的首席科学家周靖人。

我在的那几年里,Cosmos经过了若干次reorg,最终形成了三个微软partner共同管理的局面: Ed Harris主管一个新项目,所罗门主管存储和前端,周靖人主管language和execution的局面。而我的领导也随着队伍的扩大自然而然的成为了我的skip。那是Cosmos的黄金时期,人才云集,给我这种初入industry的人无限的学习机会。

后来整个组就去了另外一个org,来管理我们的大头是Raghu Ramakrishnan。Raghu是database圈子里的大牛,名声显赫。无论是早年的Datalog还是后来的Burch都是很有影响力的。至于他和他学生的那本数据库教材,更是教材的经典。最初知道他是听他在2007年VLDB给所有的新researcher做talk,讲述他当年怎么样被David Dewitt剥削,晚上等Dewitt走了以后再开始做自己的事情,累了睡实验室的经历。这个故事在未来的两三年内不同的会议上听了若干次。后来他离开了威斯康辛去了Yahoo研究院。再后来雅虎解散了研究院就来了微软,一段时间以后接手了微软所有做BigData的人,包括了Cosmos。我对Raghu的另外一个印象深刻的事情是2008年Sigmod的时候David Dewitt等人发表的benchmark Hadoop不如数据库系统的著名论文。当时Raghu已经在Yahoo研究院,在那篇论文做talk的时候,他提问旗帜鲜明的表达了自己的反对立场。只是这场MapReduce a step backward开始的论战,到最后到底想要表达什么,只能说个人都有个人的利益要捍卫了。

我在Cosmos的岁月里,主要是工作在SCOPE这个语言上,至于Cosmos的技术架构,我想等下一篇文章再详细的说。作为一个非常客观的自我评价,组里牛人云集,如果排个序,那么尽管那5年里我一直在不断进步,我在所有developer里却一直稳稳的排到最后的20%。这对于我本人来说,既是一种鞭策也是一种learning的experience。我想我应该很难再见到那么多大牛在一起的景象了。再主观一点来说,如果我事先在其他组里工作了三四年,然后再进Cosmos的话,那么对于我的收获毫无疑问应该会更大。然而不管如何,我都非常的感谢这几年的经历。当我在Tableau遇到一些需要细想去处理的事情的时候,我往往能从过往若干年里大牛们的处理方式中得到借鉴。

Raghu的到来算得上是这个team各奔东西的开始。所谓盛名之下其实难副是非常的有道理的。曾经有人问我Windows Azure Data Lake是不是可以把亚马逊打得落花流水。我想半天以后说,以后看阿里巴巴和亚马逊PK吧。作为我曾经的上司,后来的skip的周靖人毫无疑问是我见过对大数据有着最为深刻了解的人。智商高情商高,有vision有极强的科研能力,更有极强的带领团队把产品deliver的能力。而且他是一个极为勤奋的人,基本上每天8点前来办公室,到半夜11点依然可以找到他。在我这么多年的career里面,我从未见过有一个领导如他这般的能干全面。我想,微软没有把整个大数据的研发交给他,而是选择了华而不实的Raghu,应该是我的老东家做出的最为错误的决定之一。所以我深刻的相信,将来我们可以看到阿里云和亚马逊的PK,而所谓的某某data lake,有没有前景就不得而知了。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2016-12-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 飞总聊IT 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档