首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >大数据平台中kafka数据写入到MPP集群

大数据平台中kafka数据写入到MPP集群

原创
作者头像
用户1411447
修改2020-06-18 15:00:34
修改2020-06-18 15:00:34
1.2K0
举报
文章被收录于专栏:大数据平台大数据平台

在大数据平台中kafka数据写入到MPP集群使用的是MPP内部组件kafka-loader。

该组件主要功能为:通过配置文件指定kafka连接信息、topic信息以及MPP端连接信息、目标表信息,可按指定时间间隔或数据行数存kafka中读取数据,在完成相应处理后写入MPP数据库,包含2个方面功能:

1、全量同步,将读取到的kafka数据直接加载到MPP的目标表中,每个批次加载成功后会记录kafka消息偏移量,能够确保数据完整性;

2、增量同步,将读取到的数据按照事务内的操作类型(insert、update、delete)进行合并处理,进而生成不同类型的缓存数据,并将该缓存数据与目标表数据进行关联处理,确保源端与目标端数据变更一致,批次成功后会记录kafka消息偏移量,能够确保数据完整性以及与源端的事务级一致性。

配置文件:

Kafka topic 信息:

启动命令:

./kafka-loader -c ../config/task1.json

加载结果:

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
作者已关闭评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档