首页
学习
活动
专区
工具
TVP
发布

暴走大数据

专栏作者
298
文章
535389
阅读量
99
订阅数
时间轮在Netty、Kafka中的应用
时间轮是一个高性能、低消耗的数据结构,它适合用非准实时,延迟的短平快任务,例如心跳检测。在Netty、Kafka、Zookeeper中都有使用。
大数据真好玩
2022-12-05
1.1K0
Apache Kafka 3.2.0 重磅发布!
3.2.0 版本包含许多新功能和改进。本文将重点介绍一些最突出的新功能。有关更改的完整列表,请务必查看发行说明。您还可以观看发布视频,了解 Apache Kafka 3.2.0 中的新功能摘要。
大数据真好玩
2022-06-17
1.9K0
Hbase WAL日志数据实时增量推送至Kafka
Hbase提供了跨集群的数据同步方式Replication,可通过自定义Replication Endpoint,把消息写入kafka,先来了解Hbase Replication集群之间进行复制同步的过程,整体数据复制流程如下图:
大数据真好玩
2022-04-27
1.4K0
【Flume】实现MySQL数据增量自动提交到ClickHouse
源码在https://reviews.apache.org/r/50692/diff/1#2 下面的操作需要cd到
大数据真好玩
2022-03-28
2.4K0
脱离ZooKeeper | Kafka Controller Quorum(KRaft)机制浅析
现阶段的Kafka Controller本质上就是Kafka集群中的一台Broker,通过ZK选举出来,负责根据ZK中的元数据维护所有Broker、Partition和Replica的状态。但是,一旦没有了ZK的辅助,Controller就要接手ZK的元数据存储,并且单点Controller失败会对集群造成破坏性的影响。因此,在3.0版本中,Controller会变为一个符合Quorum原则(过半原则)的Broker集合,如下图所示。
大数据真好玩
2022-03-28
7990
Kafka集群新增节点后数据如何重分配
分区重新分配工具可用于在代理之间移动分区。理想的分区分配将确保所有代理之间的数据负载和分区大小均匀。分区重新分配工具没有能力自动研究Kafka群集中的数据分布,并四处移动分区以实现均匀的负载分布。因此,必须弄清楚应该移动哪些主题或分区。
大数据真好玩
2022-03-28
1.6K0
Kafka常见问题&学习路径&源码阅读小结 | 写在Kafka3.0发布之际
2021年9月21日,随着Kafka3.0的发布,Kafka在「分布式流处理平台」这个目标上的努力进一步得到加强!Kafka不满足于「消息引擎」的定位,正式基于这样的定位,Kafka 社区于 0.10.0.0 版本正式推出了流处理组件 Kafka Streams,也正是从这个版本开始,Kafka 正式"变身"为分布式的流处理平台,而不仅仅是消息引擎系统了。
大数据真好玩
2021-11-05
8050
数据同步工具之FlinkCDC/Canal/Debezium对比
数据准实时复制(CDC)是目前行内实时数据需求大量使用的技术,随着国产化的需求,我们也逐步考虑基于开源产品进行准实时数据同步工具的相关开发,逐步实现对商业产品的替代。本文把市面上常见的几种开源产品,Canal、Debezium、Flink CDC 从原理和适用做了对比,供大家参考。
大数据真好玩
2021-11-05
6.5K0
我们在学习Kafka的时候,到底在学习什么?
我在之前《Kafka源码阅读的一些小提示》写了一些关于Kafka源码阅读的注意事项。
大数据真好玩
2021-09-18
2560
Kafka Connect | 无缝结合Kafka构建高效ETL方案
Kafka connect是Confluent公司(当时开发出Apache Kafka的核心团队成员出来创立的新公司)开发的confluent platform的核心功能。可以很简单的快速定义 connectors 将大量数据从 Kafka 移入和移出. Kafka Connect 可以摄取数据库数据或者收集应用程序的 metrics 存储到 Kafka topics,使得数据可以用于低延迟的流处理。一个导出的 job 可以将来自 Kafka topic 的数据传输到二级存储,用于系统查询或者批量进行离线分析。
大数据真好玩
2021-09-18
4510
从面试角度详解Kafka
Kafka 是一个优秀的分布式消息中间件,许多系统中都会使用到 Kafka 来做消息通信。对分布式消息系统的了解和使用几乎成为一个开发人员必备的技能。
大数据真好玩
2021-07-12
6400
Apache Kafka架构设计&部署&实践小指南
所以消息系统就是如上图我们所说的仓库,能在中间过程作为缓存,并且实现解耦合的作用。
大数据真好玩
2021-07-07
4140
实时数仓建设思考与方案记录
随着我司业务飞速增长,实时数仓的建设已经提上了日程。虽然还没有正式开始实施,但是汲取前人的经验,做好万全的准备总是必要的。本文简单松散地记录一下想法,不涉及维度建模方法论的事情(这个就老老实实去问Kimball他老人家吧)。
大数据真好玩
2021-05-28
9100
一次成功的FlinkSQL功能测试及实战演练
前言:Flink在国内的占有率逐步提升的情况下,各项组件的功能与稳定性也得到逐步提升。为了解决目前已有的复杂需求,尝试研究flinksql的特性与功能,作为是否引入该组件的依据。同时尝试将现有需求通过简单demo的形式进行测试。本次测试主要集中在Kafka、mysql、Impala三个组件上,同时将结合官方文档进行:
大数据真好玩
2021-05-28
2.4K0
kafka key的作用一探究竟,详解Kafka生产者和消费者的工作原理!
每个分区(Partition)都是有序的(所以每一个Partition内部都是有序的),不变的记录序列,这些记录连续地附加到结构化的提交日志中。分区中的每个记录均分配有一个称为偏移的顺序ID号,该ID 唯一地标识分区中的每个记录。
大数据真好玩
2021-04-21
10.6K0
Flink结合Kafka实时写入Iceberg实践笔记
环境:本地测试环境 JDK1.8 、Flink 1.11.2 、Hadoop3.0.0 、Hive2.1.1
大数据真好玩
2021-03-27
1.6K0
Kafka学习笔记之概述、入门、架构深入
Kafka 是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于大数据实时处理领域。
大数据真好玩
2021-03-15
4850
【大数据哔哔集20210125】Kafka将逐步弃用对zookeeper的依赖
目前,Kafka 使用 ZooKeeper 来保存与分区和broker相关的元数据,并选举出一个broker作为集群控制器。不过,Kafka 开发团队想要消除对 Zookeeper 的依赖,这样就可以以更可伸缩和更健壮的方式来管理元数据,从而支持更多的分区,还能够简化 Kafka 的部署和配置。
大数据真好玩
2021-02-23
6230
【大数据哔哔集20210124】有人问我Kafka Leader选举?我真没慌
一条消息只有被ISR中所有Follower都从Leader复制过去才会被认为已提交。这样就避免了部分数据被写进了Leader,还没来得及被任何Follower复制就宕机了,而造成数据丢失。而对于Producer而言,它可以选择是否等待消息commit,这可以通过request.required.acks来设置。这种机制确保了只要ISR中有一个或者以上的follower,一条被commit的消息就不会丢失。
大数据真好玩
2021-02-23
2940
【大数据哔哔集20210123】别问,问就是Kafka高可靠
Kafka的高可靠性的保障来源于其健壮的副本(replication)策略。通过调节其副本相关参数,可以使得Kafka在性能和可靠性之间运转的游刃有余。Kafka从0.8.x版本开始提供Partition级别的复制,replication数量可以配置文件(default.replication.refactor)中或者创建Topic的时候指定。
大数据真好玩
2021-02-23
3610
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档