在大数据平台中kafka数据写入到MPP集群使用的是MPP内部组件kafka-loader。
该组件主要功能为:通过配置文件指定kafka连接信息、topic信息以及MPP端连接信息、目标表信息,可按指定时间间隔或数据行数存kafka中读取数据,在完成相应处理后写入MPP数据库,包含2个方面功能:
1、全量同步,将读取到的kafka数据直接加载到MPP的目标表中,每个批次加载成功后会记录kafka消息偏移量,能够确保数据完整性;
2、增量同步,将读取到的数据按照事务内的操作类型(insert、update、delete)进行合并处理,进而生成不同类型的缓存数据,并将该缓存数据与目标表数据进行关联处理,确保源端与目标端数据变更一致,批次成功后会记录kafka消息偏移量,能够确保数据完整性以及与源端的事务级一致性。
配置文件:
Kafka topic 信息:
启动命令:
./kafka-loader -c ../config/task1.json
加载结果:
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有