前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >SAP HANA神话(6):一场大撕逼

SAP HANA神话(6):一场大撕逼

作者头像
用户1564362
发布2018-04-04 18:01:30
1.1K0
发布2018-04-04 18:01:30
举报
文章被收录于专栏:飞总聊IT飞总聊IT

我们继续聊database的故事。严格的说今天这篇有点偏题了。因为只有酱油主Michael Stonebraker,和DoNotEvil但是比谁都Evil的Google。为了添油加醋的讲这个故事,我会插播一些我听到的小道消息,未经证实或者证伪。关于此类消息我会说明。

Google的三架马车到今天已经家喻户晓耳熟能详了:GFS, MapReduce,BigTable。2004年OSDI发表的paper是MapReduce。这篇paper据说早年先提交过database的conference,被拒。转投操作系统的会议,发出来了。这是小道消息。

MapReduce是不是最伟大的paper之一我们很难下这个结论。但是毫无疑问的应该是这10多年来最有影响的论文之一了。这篇论文的内容也不深奥难懂。当然不可否认有很多值得思索的地方。尤其在我看来通过一个简单的编程模型,让系统去管理任务的执行和错误重试之类的想法,是非常有现实意义的。大规模的时候,我们的确是没有办法去买昂贵的shared-everything的cluster来做数据库。而正是Google开创了用廉价机器构建Data Center,近而大规模处理数据的这样一个概念和实现。

当然不可否认的说,MapReduce这篇论文里面有着我这样的小白就能够看出来的幼稚的一面在里面。我也不排除Google作为一个evil的公司,在写论文的时候刻意的隐藏了那些缺陷(Google有这个传统)。但是无论如何,这篇论文在使用廉价机器构建数据中心,大规模的对数据进行并行处理这样的一条道路上,给我们展示了非常非常奠基性的贡献。

这个事情一直没怎么发酵,毕竟Google城会玩就会玩吧,只要Google的系统都留在Google内部,那么其他的东西也就不重要了。忽如一夜春风来,Yahoo活雷锋开始在硅谷做Hadoop这个项目。Hadoop的背后当然很快就站上了IBM,FACEBOOK以及LinkedIn等当时红火的公司。这样一来,就不得了了,严重侵犯了Michael和他的buddy的利益。所谓MapReduce捞过界了。于是一篇雄文就问世了。

2008年1月17号是一个很重要的时候,当然其实人类都健忘,现实里,没有人记得这一天了。这一天Michael和他的Buddy David Dewitt在Database Column这个一群Buddy们自娱自乐,学术圈里大家竞相鼓掌的,现在已经连不上的网站上发表了雄文:MapReduce : a major step backwards。文章列举了若干MapReduce不行的理由,大致列举如下,详细的请爬狗:

  1. MapReduce需要写programming去搞飞机,不如SQL这样declarative来得爽。
  2. MapReduce的实现毫无效率糟糕得很,没有Hash没有B树,有的只是tableScan
  3. MapReduce不是创新
  4. MapReduce和现在数据库的工具不兼容
  5. MapReduce缺了很多database有的feature

Michael和David的话有没有道理呢,有!是不是都很公平呢,未必。你看Hadoop的发展就证明了很多的工具都来了,连ODBC的driver都出来了。像SQL的语言也出来了。不管怎么样来讲,MapReduce和它所带来的一些很重要的变化,的确是让数据的处理的volume上了一个新台阶。

我想本质上来讲,MapReduce和Michael的column store需要target的市场都是OLAP,所以Michael要卖好自己的Vertica,也需要狠狠的跳出来跳一跳大神。这场撕逼大战在未来的两三年里演的如火如荼。Michael充分的利用了自己在这个圈子里面的影响力来发表各种各样的东西来证明他是正确的。这事情到了2009年的罗德岛的SIGMOD到了一个顶峰。那时候David Dewitt发表了一篇关于performance的论文,比较了Hadoop和他们自己的一个系统,证明Hadoop和一个数据库相比是多么的烂和多么的不堪。我到今天都还记得那次会议的时候开得是一塌糊涂,大家都不一定信那些numbers,然而Michael和David却在那边无动于衷的努力着捍卫这篇论文的准确性。此事的登峰造极的时候是ACM transaction of communication上登出了两篇文章,一篇是Jeff Dean写的,一篇是MIchael和他的Buddy写的,互相对垒唱戏,那一期的杂志非常的热闹。

因此,在我这个传统的做database的人看来,所谓的BigData,最开始是做OS的人对故步自封的做Database的人的一场入侵和战争,他们做的很成功。做database的人应该要感到羞耻。这个团体不往前走自娱自乐已经很久了。突然有一天,不知为什么Michael和Google和解了,私底下到底有什么deal我一点也不知道。我只知道2015年Michael拿了图灵奖,而Google则出了所有的奖金。皆大欢喜的结果。然而Jeff Dean显然没有觉得和解有多开心,因为他和他做的东西,Spanner,明明白白的就是一个database的东西,又在OSDI上发出来了,看来当初被拒过以后,再也不想理database community了。

后来发生了什么,其实无从考据了。我知道的是David退休进了微软,然后搞了个Polybase,可以把SQL Server和Hadoop整合在一起。所以看来这不是像他说的那样:a major step backwards。Michael的徒孙的学生,Daniel Abadi则做了一个HadoopDB:用MapReduce,但是呢每个mapper或者reducer是个postgress的进程。这个傻乎乎的系统又被急病乱投医的Teradata给买去了,颇有骗子把烂东西卖给傻子的感觉。我们的Michael顺理成章的拿到了图灵奖,享受着最Evil公司提供的百万奖金,再也不说a major step backawards了。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2016-10-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 飞总聊IT 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
云数据库 SQL Server
腾讯云数据库 SQL Server (TencentDB for SQL Server)是业界最常用的商用数据库之一,对基于 Windows 架构的应用程序具有完美的支持。TencentDB for SQL Server 拥有微软正版授权,可持续为用户提供最新的功能,避免未授权使用软件的风险。具有即开即用、稳定可靠、安全运行、弹性扩缩等特点。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档