在大数据平台中kafka数据写入到MPP集群使用的是MPP内部组件kafka-loader。
该组件主要功能为:通过配置文件指定kafka连接信息、topic信息以及MPP端连接信息、目标表信息,可按指定时间间隔或数据行数存kafka中读取数据,在完成相应处理后写入MPP数据库,包含2个方面功能:
1、全量同步,将读取到的kafka数据直接加载到MPP的目标表中,每个批次加载成功后会记录kafka消息偏移量,能够确保数据完整性;
2、增量同步,将读取到的数据按照事务内的操作类型(insert、update、delete)进行合并处理,进而生成不同类型的缓存数据,并将该缓存数据与目标表数据进行关联处理,确保源端与目标端数据变更一致,批次成功后会记录kafka消息偏移量,能够确保数据完整性以及与源端的事务级一致性。
配置文件:

Kafka topic 信息:


启动命令:
./kafka-loader -c ../config/task1.json
加载结果:

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。