我试着阅读了很多关于databricks delta lake的资料。据我所知,它为您的数据存储增加了ACID事务,并通过增量引擎提高了查询性能。如果是这样,为什么我们还需要其他不支持ACID事务的数据湖呢?Delta lakes声称将数据湖和数据仓库这两个世界结合在一起,我们知道,由于它目前对操作的支持,它还不能取代传统的数据仓库。但它应该取代数据湖吗?为什么需要两份数据副本-一份在数据湖中,另一份在德尔塔湖中?
发布于 2020-08-07 04:21:03
Delta Lake是一个产品(像Redshift),而不是一个概念/方法/理论(像维度建模)。与各行各业的任何产品一样,关于该产品的一些说法将是真实的,一些将是营销旋转。产品声称的好处是否真的使其优于替代产品,将根据用例的不同而不同。
问为什么除了Delta lake之外还有其他数据湖解决方案,有点像问为什么世界上有不止一个DBMS。
发布于 2020-09-09 08:46:23
在我个人的例子中,已经有一个数据湖,sybase IQ,但与我可以通过spark到delta执行的查询相比,它的性能很差,速度是一个重要因素,在分区表中它是值得注意的
https://stackoverflow.com/questions/63170257
复制相似问题