前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Databricks一次拿了SIGMOD两个大奖

Databricks一次拿了SIGMOD两个大奖

作者头像
用户1564362
发布2022-06-17 17:42:02
5680
发布2022-06-17 17:42:02
举报
文章被收录于专栏:飞总聊IT飞总聊IT

新粉请关注我的公众号

在最近费城召开的SIGMOD2022上,Databricks当仁不让成为了赢家,一共拿到了两项大奖:

1.Spark拿到了SIGMOD System Award

2.Photon拿到了Best Industry Paper Award

SIGMOD和VLDB是数据库领域两大顶级会议。后面还跟着ICDE。有人认为这三大会差不多,但是大部分人还是觉得ICDE差一点。

2020年以前我每年会尽量争取去其中一个会议,以便紧跟形势。疫情起来以后就没去过了。有关SIGMOD是啥就不多介绍了,很多人应该都很了解了。

Spark拿System Award应该是名至实归,没什么好说的。毕竟Spark的贡献在那里,现实的影响力在那里,历史地位将来也在那里。

至于为什么是Spark而不是Flink,这事情也很简单,Flink的爹可能算是和Spark一辈的,可惜没有搞成功。

Flink算成功吧,其实也没Spark那么成功,还晚到世界上5年,又被阿里巴巴给收购了。怎么样也轮不到Flink拿这个奖了。

至于为什么不给MapReduce,这事情也很好理解。一方面Jeff Dean混的是Operating System的圈子,他的论文就没发在数据库的会议上的。Spark虽然一开始也混Operating System的圈子,但是很快就混进Database的圈子了。

另外一方面,MapReduce出来的时候,database里面几个玩学术和政治都很牛逼的人,比如Michael Stonebraker以及David

DeWitt,写过MapReduce:A Step Backward的雄文批判。所以数据库的圈子对MapReduce这东西的不待见,显而易见,给不了也不可能给数据库的大奖。

无论如何,Spark拿这个大奖,在数据库领域的人,应该是没什么争议了。

Photon拿到了Best Industry Paper Award,是另外一回事了。SIGMOD上发的论文一般有两种,Research Paper和Industry Paper。

Research Paper的原创性高一点,best paper含金量很高。Industry Paper对原创性要求弱一些,通常很多是给工业界的人发论文用的。

但是我发现这些年来有个趋势,Industry Paper里面常常会有一些有意思的论文,而Research Paper里面也不乏写作技巧高但是其实是坨屎的论文。

Photon是Databricks搞的C++引擎,全面兼容Spark,但是速度快N倍,N取决于不同的说法。背后用的技术是vectorization。如果大家不了解这是什么,可以把Snowflake创始人的博士毕业论文拿来读读,那算是vectorization的鼻祖了。

Photon目前只有你用了Databricks的付费SaaS服务才能够享受到了,开源的是没有的。Photon的论文我还没看过,坦白说这两年我是有点懈怠了,好论文不少,看起来总是很慢。主要原因也是看论文对我来说兴趣多于工作需要,所以拖延症严重。

因为我没看过论文,所以我也没太多技术细节可以扯的。哦,对了,Databricks掀起的和Snowflake关于TPC-DS自己跑的很牛逼,Snowflake作弊的系列博客,里面用的就是这个Photon引擎。据说Photon目前还保留着TPC-DS全球最牛逼的benchmark数据。

当然,不管它多牛逼,和open source的社区关系不大了。但是我想啊,当年Databricks搞Delta Lake的时候,也是想卖钱给自己客户,结果开源社区弄出个Iceberg,还越做越大了,弄得Databricks最后还是开源出来一个比较基础的Delta Lake,然后差异化收费。

所以,Photon弄不好也免不了要走一趟老路。完全不开源的话,是没有足够的影响力的,没足够影响力呢,想要从Snowflake那去抢用户就费力了。

我姑且大胆猜测一下,Photon大概率很快就会开源出一个比较基础的版本来,然后Databricks通过差异化服务收费。收费的比开源的好用,开源的凑合着够用。这样就能吸引用户从Snowflake跳船来Databricks了。

我不是神仙,我不知道这个事情会不会发生。我更不能肯定有了这个开源的举动以后,Snowflake的用户会不会跳到Databricks上来。如果要问我的话,我觉得开源不远的将来会发生,但是Snowflake的用户跳船的事情,大概率还是会让Databricks失望。

如果我猜对了,大家记得回头叫我预言帝。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-06-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 飞总聊IT 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档