首页
学习
活动
专区
工具
TVP
发布

SmartSi

专栏作者
270
文章
583760
阅读量
53
订阅数
Flink SQL Kafka Connector
Kafka Connector 提供了从 Kafka topic 中消费和写入数据的能力。
smartsi
2022-02-22
4.5K0
Debezium 1.9.0.Alpha2 正式发布
我很高兴宣布 Debezium 1.9 系列的第二个版本,1.9.0.Alpha2 正式发布。此版本包含了对 Oracle 21c 的支持、围绕 Redis for Debezium Server 的改进、配置 kafka.query.timeout.ms 参数以及围绕 DDL 解析器、构建基础架构等的许多 Bug 修复。整体来说,在此版本修复了 51 个问题。让我们一起看看其中的一些亮点。
smartsi
2022-02-22
8320
Kafka 删除 Apache ZooKeeper 的依赖
目前,Apache Kafka 使用 Apache ZooKeeper 来存储元数据,分区位置和主题配置之类的数据存储在 Kafka 之外一个单独的 ZooKeeper 集群中。2019 年,为了打破这种依赖关系并将元数据管理交由 Kafka,为此引入这个KIP-500 计划[1]。
smartsi
2022-01-18
1.1K0
深入理解 Kafka Connect 之 转换器和序列化
Kafka Connect 是 Apache Kafka 的一部分,提供了数据存储和 Kafka 之间的流式集成。对于数据工程师来说,只需要配置 JSON 文件就可以使用 。Kafka 为一些常见数据存储的提供了 Connector,比如,JDBC、Elasticsearch、IBM MQ、S3 和 BigQuery 等等。对于开发人员来说,Kafka Connect 提供了丰富的 API,如果有必要还可以开发其他 Connector。除此之外,还提供了用于配置和管理 Connector 的 REST API。
smartsi
2021-12-27
2.9K0
Kafka Connect 如何安装 Connect 插件
Kafka Connect 设计为可扩展的,因此开发人员可以创建自定义 Connector、Transform 或者 Converter。Kafka Connect Plugin 是一组 Jar 文件,其中包含一个或多个 Connector、Transform 或者 Converter 的实现。Connect 将每个 Plugin 相互隔离,以便一个 Plugin 中的库不受任何其他 Plugin 中的库的影响。这在使用来自多个提供商的 Connector 时非常重要。
smartsi
2021-09-26
2.3K0
Kafka Connect JDBC Source MySQL 全量同步
从数据库获取数据到 Apache Kafka 无疑是 Kafka Connect 最流行的用例。Kafka Connect 提供了将数据导入和导出 Kafka 的可扩展且可靠的方式。由于只用到了 Connector 的特定 Plugin 以及一些配置(无需编写代码),因此这是一个比较简单的数据集成方案。下面我们会介绍如何使用 Kafka Connect 将 MySQL 中的数据流式导入到 Kafka Topic。
smartsi
2021-09-26
3.7K2
Kafka Connect JDBC Source MySQL 增量同步
上一篇文章 Kafka Connect JDBC Source MySQL 全量同步 中,我们只是将整个表数据导入 Kafka。这对于获取数据快照很有用,但并不是所有场景都需要批量全部同步,有时候我们可能想要获取自上次之后发生的变更以实现增量同步。JDBC Connector 提供了这样的能力,将表中自上次轮询以来发生更改的行流式传输到 Kafka 中。可以基于递增的列(例如,递增的主键)或者时间戳列(例如,上次更新的时间戳)来进行操作。Kafka Connect JDBC Source 提供了三种增量同步模式:
smartsi
2021-09-26
3.9K0
Kafka Connect 如何构建实时数据管道
Kafka Connect 旨在通过将数据移入和移出 Kafka 进行标准化,以更轻松地构建大规模的实时数据管道。我们可以使用 Kafka Connector 读取或写入外部系统、管理数据流以及扩展系统,所有这些都无需开发新代码。Kafka Connect 管理与其他系统连接时的所有常见问题(Schema 管理、容错、并行性、延迟、投递语义等),每个 Connector 只关注如何在目标系统和 Kafka 之间复制数据。
smartsi
2021-09-23
1.6K0
Debezium 初了解
在研究 Flink CDC 时,其中涉及了 Debezium,便决定研究一下 Debezium。这篇文章简单介绍了 Debezium 是什么,以及它的架构和特性。后续文章中会后续介绍其功能特性以及如何使用。
smartsi
2021-08-13
5.3K0
Flink Kafka Connector
Apache Flink 内置了多个 Kafka Connector:通用、0.10、0.11等。这个通用的 Kafka Connector 会尝试追踪最新版本的 Kafka 客户端。不同 Flink 发行版之间其使用的客户端版本可能会发生改变。现在的 Kafka 客户端可以向后兼容 0.10.0 或更高版本的 Broker。对于大多数用户使用通用的 Kafka Connector 就可以了。但对于 0.11.x 和 0.10.x 版本的 Kafka 用户,我们建议分别使用专用的 0.11 和 0.10 Connector。有关 Kafka 兼容性的详细信息,请参阅 Kafka官方文档。
smartsi
2020-11-03
4.6K0
Kafka 监控工具之CMAK
CMAK(Cluster Manager for Apache Kafka) 是由 Yahoo 开源的 Kafka 集群管理平台。我们可能听到更多的是 kafka-manager。主要是因为误用了 Apache 的商标,所以才从 kafka-manager 改名为 CMAK。
smartsi
2020-10-27
4.3K0
Java 实现 Kafka Producer
在本文章中,我们创建一个简单的 Java 生产者示例。我们会创建一个名为 my-topic Kafka 主题(Topic),然后创建一个使用该主题发送记录的 Kafka 生产者。Kafka 发送记录可以使用同步方式,也可以使用异步方式。
smartsi
2020-10-16
3.5K0
Kafka 安装与启动
Kafka 依赖 ZooKeeper,如果你还没有 ZooKeeper 服务器,你需要先启动一个 ZooKeeper 服务器。可以先参考ZooKeeper 安装与启动来安装 ZooKeeper。ZooKeeper 配置如下:
smartsi
2019-11-26
9810
Spark Streaming 2.2.0 Input DStreams和Receivers
输入 DStreams 表示从 source 中获取输入数据流的 DStreams。在入门示例中,lines 表示输入DStream,它代表从netcat服务器获取的数据流。每一个输入DStream(除 file stream)都与一个 Receiver (接收器)相关联,接收器从 source 中获取数据,并将数据存入 Spark 内存中来进行处理。 输入 DStreams 表示从数据源获取的原始数据流。Spark Streaming 提供了两类内置的流源(streaming sources):
smartsi
2019-08-08
7850
Spark Streaming 2.2.0 Example
Spark Streaming 是 Spark Core API的一个扩展,它对实时流式数据的处理具有可扩展性、高吞吐量、可容错性等特点。数据可以从诸如Kafka,Flume,Kinesis或TCP套接字等许多源中提取,并且可以使用由诸如map,reduce,join或者 window 等高级函数组成的复杂算法来处理。最后,处理后的数据可以推送到文件系统、数据库、实时仪表盘中。事实上,你可以将处理后的数据应用到 Spark 的机器学习算法、 图处理算法中去。
smartsi
2019-08-08
1.2K0
Spark Streaming与Kafka如何保证数据零丢失
Spark Streaming 是一种构建在 Spark 上的实时计算框架,它扩展了 Spark 处理大规模流式数据的能力。Spark Streaming 的优势在于:
smartsi
2019-08-07
6620
Flink 内部原理之数据流容错
Apache Flink提供了一个容错机制来持续恢复数据流应用程序的状态。该机制确保即使在出现故障的情况下,程序的状态也将最终反映每条记录来自数据流严格一次exactly once。 请注意,有一个开关可以降级为保证至少一次(least once)(如下所述)。
smartsi
2019-08-07
8850
Spark Streaming 与 Kafka 整合的改进
Apache Kafka 正在迅速成为最受欢迎的开源流处理平台之一。我们在 Spark Streaming 中也看到了同样的趋势。因此,在 Apache Spark 1.3 中,我们专注于对 Spark Streaming 与 Kafka 集成进行重大改进。主要增加如下:
smartsi
2019-08-07
7370
Flink1.4 内置的时间戳提取器和Watermark生成器
如Flink1.4 生成时间戳与Watermarks所介绍的,Flink提供了一个抽象类,允许程序员可以分配自己的时间戳并发送Watermark。更具体地说,可以通过AssignerWithPeriodicWatermarks或AssignerWithPunctuatedWatermarks接口来实现,具体实现取决于用户具体情况。第一个接口将周期性的发送Watermark,第二个则基于传入记录的某些属性发送Watermark,例如,当在流中遇到特殊元素时。
smartsi
2019-08-07
1.2K0
Spark Streaming 容错的改进与零数据丢失
实时流处理系统必须可以7*24小时工作,因此它需要具备从各种系统故障中恢复过来的能力。最开始,Spark Streaming就支持从driver和worker故障中恢复。然而,从有些数据源导入数据时可能存在故障恢复以后丢失数据的情况。在Spark 1.2版本中,我们已经在Spark Streaming中对预写日志(也被称为journaling)作了初步支持,改进了恢复机制,使得更多数据源零数据丢失有了可靠的保证。本文将详细地描述这个特性的工作机制,以及开发者如何在Spark Streaming应用中使用这个机制。
smartsi
2019-08-07
1.1K0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档