首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

认识 Delta Lake

但是到19年整个局势开发生变化,向下走是存储层Delta Lake耀眼夺目,解决了原先数仓的诸多痛点,让数仓进化到数据湖。...Delta Lake 生之逢时 天下苦传统数仓久已,Delta Lake 横空出世,那么它是如何解决上面的存储层问题呢?...Delta Lake 其实只是一个Lib库 Delta Lake 是一个lib 而不是一个service,不同于HBase,他不需要单独部署,而是直接依附于计算引擎的。目前只支持Spark引擎。...Delta Lake 和普通的parquet文件使用方式没有任何差异,你只要在你的Spark代码项目里引入delta包,按标准的Spark datasource操作即可,可谓部署和使用成本极低。...Delta Lake到底是什么 Parquet文件 + Meta 文件 + 一组操作的API = Delta Lake. 所以Delta没啥神秘的,和parquet没有任何区别。

65340

Delta 实现Partial Merge

需要这个场景的,比如典型的用户画像,我们可能会有无数用户画像的字段更新程序将数据写入到Kafka,然后消费Kafka得到就是类似上面的id,value格式的数据,我们需要能够实时更新进delta表,最后算法的同学可以利用这些最新的数据计算新的属性...如何基于Delta实现 将delta表和新进来的数据做full outer join,这样就能将两边数据衔接起来,衔接的结果可以组成类似这样的记录: case class FullOuterJoinRow...如何快速的过滤出哪些文件包含了新进来的数据(根据联合主键来判定),可参考我前一篇文章 祝威廉:Delta Lake如何自己实现更新操作加速 最后,这一篇文章和前一篇文章的实现都放在了 Upsert支持

35010

Delta Lake 学习笔记(二)

文章目录 1 Overview 2 Delta Lake 依赖了什么 jar 包 3 Summary 1 Overview 笔者认为,在研究一个开源项目的之前,看看起依赖管理的文件,比如说 Maven...2 Delta Lake 依赖了什么 jar 包 查看 build.sbt 文件,可以看到 Delta Lake 确实是构建于 Spark 之上的,因为他除了依赖 Spark 几个依赖外,没有再额外引入一些...dependencyTree [warn] Credentials file /Users/runzhliu/.bintray/.credentials does not exist [info] io.delta...3 Summary Delta Lake 是构建于 Spark 之上的项目,所以依赖都关于 Spark 的其他 lib。...由于 Delta Lake 并没有依赖更多的项目(Spark 其实已经很多了…),所以后面我们去探索代码的时候,只要有 Spark 基础的同学,应该都可以很快上手。

76920

Delta Lake 目录结构探秘

有了前面章节的铺垫,相信你已经知道,delta表其实是由两部分组成的: Parquet文件 新增删除文件对应的记录文件 为了给大家更直观的看下Delta目录结构到底是啥样,我截取了一张图: key=a...如果delta表没有分区字段,那么这些parquet文件都会在根目录里。 如果只是一堆的parquet文件,就无法支持delta的各种功能了。...所以delta的真正神奇魔法都在_delta_log目录里。我们进去看看: 太棒了,是json文件,这意味着我们可以直接打开看看里面,而不需要专门写程序去看。...根据我们前面所学的知识,delta将所有的对数据的操作都转化为了对文件的两个操作,而_delta_log 则是记录这两个操作的日志。...常见疑问 Q1: 随着更新次数的增长,meta(_delta_log)里的json文件会不会很多,性能岂不是很低?

50010
领券