首页
学习
活动
专区
工具
TVP
发布

kk大数据

专栏成员
116
文章
219696
阅读量
43
订阅数
谈一谈 Kafka 在 CAP 三大特性之间做的妥协和改进
CAP 定理是分布式架构设计的基本理论,本身并不复杂。 是由三个单词组成,分别是:
kk大数据
2023-03-03
1.1K0
如何理解大数据框架中的分区概念
随着科技进步互联网的发展,各行各业产生的数据越来越多,由此催生了大量的数据处理需求。
kk大数据
2023-03-03
7230
说一说你对 Kafka 中 ISR 的理解
首先,ISR 的全称叫做:In-Sync Replicas (同步副本集), 我们可以理解为和 leader 保持同步的所有副本的集合。
kk大数据
2023-03-03
1.7K0
Kafka 的网络通信设计,看完直呼过瘾,最后竟然只用 20 行就实现了粘包拆包逻辑
经过上次文章的铺垫,相信大家对 java 的 NIO 有了一些感性的认识,也初步了解了它的 API 了,可以开始去阅读 Kafka Producer 端的发送消息的部分了。
kk大数据
2021-05-31
9430
Kafka 为了避免 Full GC,竟然还在发送端设计了内存池,自己管理内存,太巧妙了
在上一篇文章中,我们讲到了 Kafka 发送消息的八个流程,并且着重讲了 Kafka 封装了一个内存结构,把每个分区的消息封装成批次,缓存到内存里。
kk大数据
2021-05-08
5260
Kafka Producer 为了极致性能,100 多行能写出多感人的代码,设计思路非常值得学习
做大数据不可能不知道 Kafka,在日志采集、实时计算等领域,都有它的身影。而且 Kafka 的源码是众多开源项目中,代码质量比较高的一个,也比较有观赏性。
kk大数据
2021-04-22
7050
Flink + Debezium CDC 实现原理及代码实战
Debezium 是一个分布式平台,它将现有的数据库转换为事件流,应用程序消费事件流,就可以知道数据库中的每一个行级更改,并立即做出响应。
kk大数据
2020-12-29
6.8K0
深度理解 Flink 的 parallelism 和 slot
(1)比如 kafka 某个 topic 数据量太大,设置了10个分区,但 source 端的算子并行度却为1,只有一个 subTask 去同时消费10个分区,明显很慢。此时需要适当的调大并行度。
kk大数据
2020-03-31
6.2K1
Flink SQL DDL 和 窗口函数实战
2019 年 8 月 22 日,Flink 发布了 1.9 版本,社区版本的 Flink 新增 了一个 SQL DDL 的新特性,但是暂时还不支持流式的一些概念的定义,比如说水位。
kk大数据
2019-12-19
5.1K0
Flink-Kafka 连接器及exactly-once 语义保证
在 Flink 中,Source 代表从外部获取数据源,Transfromation 代表了对数据进行转换操作,Sink 代表将内部数据写到外部数据源
kk大数据
2019-12-18
1.6K0
Flink Session Window 六个灵魂拷问
与翻滚窗口(Tumbling Window)和滑动窗口(Sliding Window)相比,会话窗口(Session Window)不重叠并且没有固定的开始和结束时间。
kk大数据
2019-11-15
2.9K0
Flink DataStream 内置数据源和外部数据源
在 StreamExecutionEnvironment 中,可以使用 readTextFile 方法直接读取文本文件,也可以使用 readFile 方法通过指定文件 InputFormat 来读取特定数据类型的文件,如 CsvInputFormat。
kk大数据
2019-10-10
2.8K0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档