前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Delta Lake 2.0:Databricks的急病乱投医???

Delta Lake 2.0:Databricks的急病乱投医???

作者头像
用户1564362
发布2022-07-01 13:10:47
6240
发布2022-07-01 13:10:47
举报
文章被收录于专栏:飞总聊IT飞总聊IT

新粉请关注我的公众号

在今年的Data+AI summit上,Databricks宣布了不少东西,其中之一就是2019年同样的Data+AI Summit上开源的Delta Lake,这次宣布开源2.0。

这个2.0按照Databricks的说法,就是把之前藏着的捏着的“高级”功能全部都开源出来了。这也包括了Databricks之前觉得特别重要的Z-Ordering。

Delta Lake这个项目Databricks最开始做的应该是最早的,但是不开源,只是卖钱给付费客户用。

2019年的时候终于开源了。开源了一个阉割版本的。具体的分析可以参考我这篇文章:DeltaLake:氪金爽死,白嫖尴尬的好东西!我这里就不展开分析了。

Delta Lake最初为什么要开源,核心问题是开源项目里面起来了一个叫做Iceberg的东西。这东西,本质上来说,就是Delta Lake的竞品。

必须说,以我对这两个项目的分析,Delta Lake的架构比Iceberg要优雅不少。Iceberg总有种草台班子的感觉,搭起来,有不少问题。

事实上也不难证明,在实际使用过程中,如果涉及到metadata的一些操作,Iceberg比Delta Lake理论和实践都应该要慢很多。

所以2019年Databricks看不下去,再不开源的话,可能开源的生意就和它们没什么关系了。

但是Databricks又很舍不得自己的独特优势。所以它们采用了在Spark上屡试不爽的办法:开源一个低配版的,自己的付费用户再给一个高配版的。

问题是,Delta Lake面临的局面和Spark面临的局面不可同日而语。区别大了去了。

在Delta Lake面临Iceberg全方位冲击的时候,给出来的阉割版,怎么样也要在功能上和Iceberg差不多吧,不然的话,大家也不是傻子。

而且业界盯着Iceberg猛操作的公司也不少啊,比如Dremio这个公司明显就是盯上了Iceberg,正等着Databricks炒起LakeHouse的概念,自己用Iceberg跟上来呢。

很显然,这两年的发展,对Databricks来说,有点蛋疼。起码Delta Lake在开源社区的发展,并没有成为那种如火如荼的一统江湖的架势。

而Databricks主推的LakeHouse概念里面的开源文件格式如果是Delta的话,问题来了:Databricks自己家卖钱的那个版本,功能性能都比开源的强很多。

那一边Databricks宣传的自己是开源标准,避免了lock in,一边客户想,你家的Delta Lake的格式是不是也是一种lock in呢?而旁边的Iceberg阵营天天敲锣打鼓说Databricks并非是真正的开源开放,Dremio做这个事情不仅仅毫无负担,而且乐此不疲。

我想Databricks要是2019年开源Delta Lake的时候就毫不犹豫的全部开源,而不是留一些自己付费才能有的功能的话,现在Delta Lake的开源项目发展肯定强太多了。

正是因为当初还一如既往的开源给低配版,卖钱的给高配版的做法,面对Iceberg的时候,就有点不行了。对Lakehouse这个概念的推广,也是负面作用很大。

所以Databricks急病乱投医了。先全部开源了看看会怎么样吧。那么它们会成功吗?真的是好问题。

应该这样说吧,技术上Databricks是没问题的,架构比Iceberg漂亮多了。产品上,Databricks给我们表演的,那我只能说一个字:绝!

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-07-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 飞总聊IT 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档