Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >大数据平台中kafka数据写入到MPP集群

大数据平台中kafka数据写入到MPP集群

原创
作者头像
用户1411447
修改于 2020-06-18 07:00:34
修改于 2020-06-18 07:00:34
1K0
举报
文章被收录于专栏:大数据平台大数据平台

大数据平台中kafka数据写入到MPP集群使用的是MPP内部组件kafka-loader。

该组件主要功能为:通过配置文件指定kafka连接信息、topic信息以及MPP端连接信息、目标表信息,可按指定时间间隔或数据行数存kafka中读取数据,在完成相应处理后写入MPP数据库,包含2个方面功能:

1、全量同步,将读取到的kafka数据直接加载到MPP的目标表中,每个批次加载成功后会记录kafka消息偏移量,能够确保数据完整性

2、增量同步,将读取到的数据按照事务内的操作类型(insert、update、delete)进行合并处理,进而生成不同类型的缓存数据,并将该缓存数据与目标表数据进行关联处理,确保源端与目标端数据变更一致,批次成功后会记录kafka消息偏移量,能够确保数据完整性以及与源端的事务级一致性。

配置文件:

Kafka topic 信息:

启动命令:

./kafka-loader -c ../config/task1.json

加载结果:

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
作者已关闭评论
暂无评论
推荐阅读
编辑精选文章
换一批
Kafka详细设计及其生态系统
Kafka生态-Kafka Core,Kafka Streams,Kafka Connect,Kafka REST Proxy和Schema Registry Kafak的核心主要有Broker,Topic,日志,分区和集群。该核心还包括相关的工具,如MirrorMaker。 Kafka生态系统由Kafka Core,Kafka Streams,Kafka Connect,Kafka REST Proxy和Schema Registry组成。Kafka生态系统的大多数附件来自Confluent,而不是Apa
用户1263954
2018/01/30
2.2K0
Kafka详细设计及其生态系统
大数据中台之Kafka,到底好在哪里?
今天给大家分享一个大数据里面很火的技术——Kafka,Kafka 是一个分布式的消息系统,其高性能在圈内很出名。本人阅读过多个大数据生态的开源技术的源码,个人感觉 Kafka 的源码质量是比较高的一个,如果有同学感兴趣的话,可以拿来阅读一下。网上也有不少的文章分析 Kafka 的性能为什么那么好,但是我感觉很多文章都没说到点上,所以今天借着这个机会跟大家交流一下 kafka 的性能为什么那么好?
江帅帅
2020/06/04
5890
微服务重构:Mysql+DTS+Kafka+ElasticSearch解决跨表检索难题
在微服务拆分过程里,会对数据库模块重新进行建模拆分,导致部分表和数据,出现物理隔离,导致跨库JOIN的SQL不可行,并在数据检索上也有性能损耗的风险。下面我们来一起探讨一下,具体的解决方案。
后台技术汇
2024/09/19
3290
微服务重构:Mysql+DTS+Kafka+ElasticSearch解决跨表检索难题
2021年大数据Spark(四十九):Structured Streaming 整合 Kafka
http://spark.apache.org/docs/2.4.5/structured-streaming-kafka-integration.html
Lansonli
2021/10/11
9300
大数据Kafka(五):Kafka的java API编写
将 log4j.properties 配置文件放入到 resources 文件夹中
Lansonli
2021/10/11
8361
大数据Kafka(五):Kafka的java API编写
Spark Structured Streaming + Kafka使用笔记
这篇博客将会记录Structured Streaming + Kafka的一些基本使用(Java 版)
大鹅
2020/10/29
3.5K0
Kafka系列之高频面试题
ISR是由Leader维护,Follower从Leader同步数据有一些延迟,超过配置的阈值会把Follower剔除出ISR,存入OSR列表,新加入的Follower也会先存放在OSR中。AR=ISR+OSR。
johnny666
2024/09/21
1110
大数据--kafka学习第一部分 Kafka架构与实战
每个集群都有一个broker是集群控制器(自动从集群的活跃成员中选举出来) 控制器负责管理工作: 将分区分配给broker 监控broker 集群中一个分区属于一个broker,该broker称为分区首领。 一个分区可以分配给多个broker,此时会发生分区复制。 分区的复制提供了消息冗余,高可用。副本分区不负责处理消息的读写。
用户2337871
2021/01/13
6170
大数据--kafka学习第一部分 Kafka架构与实战
Kafka 集群在马蜂窝大数据平台的优化与应用扩展
Kafka 是当下热门的消息队列中间件,它可以实时地处理海量数据,具备高吞吐、低延时等特性及可靠的消息异步传递机制,可以很好地解决不同系统间数据的交流和传递问题。
Spark学习技巧
2021/03/05
5390
Kafka 集群在马蜂窝大数据平台的优化与应用扩展
Spark Streaming 与 Kafka 整合的改进
Apache Kafka 正在迅速成为最受欢迎的开源流处理平台之一。我们在 Spark Streaming 中也看到了同样的趋势。因此,在 Apache Spark 1.3 中,我们专注于对 Spark Streaming 与 Kafka 集成进行重大改进。主要增加如下:
smartsi
2019/08/07
7930
深入理解Kafka必知必会(3)
Kafka中的事务可以使应用程序将消费消息、生产消息、提交消费位移当作原子操作来处理,同时成功或失败,即使该生产或消费会跨多个分区。
luozhiyun
2019/12/25
1.1K0
Kafka
Kafka 是由 Linkedin 公司开发的,它是一个分布式的,支持多分区、多副本,基于 Zookeeper 的分布式消息流平台,它同时也是一款开源的基于发布订阅模式的消息引擎系统。
橘子君丶
2023/03/06
3750
Kafka
【Kafka】Kafka 基础知识总结
Kafka其实是一款基于发布与订阅模式的消息系统,如果按常理来设计,大家是不是把消息发送者的消息直接发送给消息消费者?但Kafka并不是这么设计的,Kafka消息的生产者会对消息进行分类,再发送给中间的消息服务系统,而消息消费者通过订阅某分类的消息去接受特定类型的消息。
JavaSouth南哥
2024/12/04
1570
【Kafka】Kafka 基础知识总结
kafka架构原理最全解释
答:Kafka是一个发布 - 订阅的消息队列中间件。这个消息传递应用程序是用“scala”编码的。 kafka 支持的协议是防AMQP协议,支持集群,负载均衡和动态扩容(zk), 不支持事务;
Tim在路上
2020/08/04
2.8K0
走近Kafka:大数据领域的不败王者
和 RabbitMQ 类似,Kafka(全称 Apache Kafka)是一个分布式发布-订阅消息系统。
xin猿意码
2023/12/19
3380
走近Kafka:大数据领域的不败王者
Kafka为什么这么快
在消息队列中,Kafka一直被称为是吞吐量最大的消息队列,那么它究竟为什么能够做到传输效率那么快呢?本文带你一探究竟
潋湄
2025/01/12
2480
Kafka为什么这么快
一文入门kafka
Apache Kafka 是一个快速、可扩展的、高吞吐的、可容错的分布式“发布-订阅”消息系统, 使用 Scala 与 Java 语言编写,能够将消息从一个端点传递到另一个端点.
仙士可
2023/02/23
4500
一文入门kafka
白瑜庆:知乎基于Kubernetes的kafka平台的设计和实现
我是知乎技术中台工程师,负责知乎存储相关的组件。我的分享主要基于三个,第一,简单介绍一下Kafka在知乎的应用,第二,为什么做基于Kubernetes的Kafka平台。第三,我们如何去实现基于Kubernetes的kafka平台。
腾讯云开发者社区技术沙龙
2018/05/02
2.5K3
白瑜庆:知乎基于Kubernetes的kafka平台的设计和实现
Kafka 基础概念及架构
Kafka是⼀个分布式、分区的、多副本的、多⽣产者、多订阅者,基于zookeeper协调的分布式⽇志系统(也可以当做MQ系统),常⻅可以⽤于web/nginx⽇志、访问⽇志,消息服务等等。 Kafka主要应⽤场景:⽇志收集系统和消息系统
用户7353950
2022/06/23
9020
Kafka 基础概念及架构
Kafka-Broker的基本模块
1.SocketServer SocketServer作为Broker对外提供Socket服务的模块,主要用于接收socket连接的请求,然后产生相应为之服务的SocketChannel对象。
程序狗
2021/12/17
5430
相关推荐
Kafka详细设计及其生态系统
更多 >
领券
社区富文本编辑器全新改版!诚邀体验~
全新交互,全新视觉,新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能,全面提升创作效率和体验
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文