前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >使用Flink对hudi MOR表进行离线压缩

使用Flink对hudi MOR表进行离线压缩

作者头像
从大数据到人工智能
发布2022-01-19 08:08:50
1.6K0
发布2022-01-19 08:08:50
举报
文章被收录于专栏:大数据-BigData

默认情况下,MERGE_ON_READ表的压缩是启用的。 触发器策略是在完成五次提交后执行压缩。 因为压缩会消耗大量内存,并且与写操作处于相同的管道中,所以当数据量很大(> 100000 /秒)时,很容易干扰写操作。 此时,使用离线压缩能够更稳定地执行压缩任务。

压缩任务的执行包括两个部分:计划压缩计划和执行压缩计划。 建议调度压缩计划的进程由写任务周期性触发,默认情况下写参数compact.schedule.enable为启用状态。

离线压缩需要在命令行上提交Flink任务。 程序入口如下: hudi-flink-bundle_2.12-0.9.0.jar : org.apache.hudi.sink.compact.HoodieFlinkCompactor

命令行:

代码语言:javascript
复制
./bin/flink run -c org.apache.hudi.sink.compact.HoodieFlinkCompactor lib/hudi-flink-bundle_2.11-0.9.0.jar --path hdfs://xxx:9000/table
Copy

相关参数:

参数名

是否必须

默认值

参数含义

--path

frue

--

存储在hudi上的表的路径

--compaction-max-memory

false

100

压缩期间日志数据的索引映射大小,默认为100 MB。 如果您有足够的内存,您可以打开这个参数

--schedule

false

false

是否执行调度压缩计划的操作。 当写进程仍在写时,打开此参数有丢失数据的风险。 因此,开启该参数时,必须确保当前没有写任务向该表写入数据

--seq

false

LIFO

压缩任务执行的顺序。 默认情况下从最新的压缩计划执行。 LIFI:从最新的计划开始执行。 FIFO:从最古老的计划执行。

本文为从大数据到人工智能博主「xiaozhch5」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。

原文链接:https://cloud.tencent.com/developer/article/1936498

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2021-11-,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
文件存储
文件存储(Cloud File Storage,CFS)为您提供安全可靠、可扩展的共享文件存储服务。文件存储可与腾讯云服务器、容器服务、批量计算等服务搭配使用,为多个计算节点提供容量和性能可弹性扩展的高性能共享存储。腾讯云文件存储的管理界面简单、易使用,可实现对现有应用的无缝集成;按实际用量付费,为您节约成本,简化 IT 运维工作。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档