前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大数据那些事(30):Presto之坑和萝卜傻子和骗子的故事

大数据那些事(30):Presto之坑和萝卜傻子和骗子的故事

作者头像
用户1564362
发布2018-04-08 10:53:46
1.1K0
发布2018-04-08 10:53:46
举报
文章被收录于专栏:飞总聊IT飞总聊IT飞总聊IT

在interactive的旗帜下的不仅仅有Google的Dremel或者是打着Dremel的开源项目的Drill,以及曾经打着Dremel的开源项目现在说自己是MPP的没有毕业的Impala。2013年初的时候,Facebook放了一炮,开源了一个叫做Presto的东西,号称是内部的开源的interactive query。

我必须说Presto我只是玩过,和Drill的使用经验差不多。有关这个东西的体系架构有很多东西分析了,基本上是一个分布式内存计算引擎,主要支持的是hash的实现。我就不展开说了。只是其中有一点还是值得提一提的,BlinkDB的作者之一曾经被他们做过咨询。所以Presto实现了一些approximate query processing的东西,包括用那个hyperloglog求count distinct的算法。我其实不知道他们是不是用了同一个sample,如果是的话,那么只能说上帝保佑了。

Presto的来源有个八卦,大致上是Facebook的人觉得HIVE太慢于是让HIVE团队开发一个更快的。HIVE团队在犹豫是在HIVE上继续开发还是搞个新的。做出来的决定是让5个人继续开发HIVE,让一个人去做新的。结果这一个人的手脚比五个人更快,做出来Presto。所以有的时候人多也未必力量大啊。于是Presto就取代了在开发中的interactive HIVE上线了。再后来Facebook老的HIVE团队,创业的去创业,去startup的去startup,也就散了。

Presto在业界的名声有段时间非常的不好。典型的Facebook开源项目,管杀不管埋。所以有人经常抱怨你们开源了怎么不好好维护呢?Facebook干这类事情不是第一次了,这之前有Cassandra。后来被开源社区接管了Cassandra过的不错。

我们都知道一个萝卜一个坑的概念。Cloudera就老老实实的捧自己的Impala,Hortonworks跳进HIVE的坑和Cloudera PK,至于其他的很多公司要么去做Drill了要么有Dremel要么有传统数据库改吧改吧出来的产品。Presto这个东西一直就这样不死不活的,然后Teradata某天突然就宣布说,我们跳这个坑了。

Teradata这个公司,有点像娱乐圈的著名某满人,祖上是叶赫那拉氏,显贵过。每次出席各种会议,Teradata做演讲都会展示当年全球第一个1TB的大规模数据处理系统,装了整整一辆18轮的大车的照片。只不过今不如昔,如今的Teradata也不敢改个名字叫Petadata了。

很不幸的是我对Teradata这个公司的感官大致等同于傻子了。到我公司里面来面试的,无论是前公司还是现公司,但凡我面过Teradata的人,不管是哪国人,简历都很牛。但是面试的时候都是一塌糊涂。那种号称做database10多年的,感觉是做了假database去了。

在大数据的浪潮到来的时候Teradata也很努力。因为大家都知道这是革命啊。尤其是革它家的命。这不,eBay作为忠实的客户都挪去Hadoop了,Walmart也挪去Hadoop了。它们赶潮流的做法就是买买买。大概在2008年到201X年期间有家著名的骗子startup叫做Aster Data。这个公司之所以著名是因为他们的创始人经常看Sigmod VLDB的论文,然后打电话给那些发表了论文的学生,说有没有兴趣来我们公司Intern或者full time啊?学生们通常都扮演傻子的角色,比如我,就欣然的接受邀请了。然后,就安排电面呗。电面当然不是刷题,而是让你解释你的论文里做了什么啊。那些和MapReduce啊之类相关的论文的作者很多都被这骗子打过电话。我学校实验室上下几届做数据库的每个人都接到了电面,最后当然,聊完明白论文干嘛以后,也就没有下文了。因为这个事情做多了,database的学生圈子其实不大,后来大家就知道这是骗子公司了。很有意思的是,Teradata最开始买的是这家骗子公司。Teradata买完这个的同时,又去买了当时Daniel Abadi快糙猛搞出来的HadoopDB成立的公司。如此这般的大张旗鼓的买了又买。最后也没见到Teradata有什么长进。傻子总是会买骗子的东西的。

再后来,等Teradata左顾右盼之后决定跳Presto的坑,然后开始猛开发Presto的时候,我就心里多少有点慌。毕竟傻子作为萝卜高调的出来跳一个大家都不怎么跳的坑,其实真不知道最后能出一个什么样的活宝产品。我没用过,所以大家就当我在胡说八道就好。在弯曲,著名的databasse startup比如说snowflake,去的人主要是Oracle的。华为在弯曲找来做database的人主要是Teradata和IBM。IBM的人虽然年纪大一点,但是其实挺牛,包括几个著名的fellow,值得尊敬。至于Teradata的人,我也不知道应该怎么判断了。难不成牛人都给华为挖走了,所以来西雅图面试的各个都挺傻的。大家且招且珍惜吧。

国内Presto最忠实的用户可能是美团了。我在海外待久了,对国内的情况并不太熟悉,所以也不知道美团用得怎么样。如果你要问我是不是推荐Presto,那么我想依照我大数据的分析,做这个产品的亲爹没好好维护,干爹又比较傻,我想,还是小心一点吧。我上次听说AWS有个组想跳这个坑,如果已经跳了,只能也一同说一句上帝保佑了。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-03-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 飞总聊IT 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档