开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

如何使用SMT选择CDC JSON的内部字段作为Kafka中记录的Key？

SMT（Single Message Transform）是Kafka Connect中的一种转换器，用于在数据流传输过程中对消息进行转换和处理。在使用SMT选择CDC JSON的内部字段作为Kafka中记录的Key时，可以通过以下步骤实现：

创建一个自定义的SMT类，继承自org.apache.kafka.connect.transforms.Transformation接口，并实现其中的方法。
在configure方法中，可以通过配置参数指定要选择的CDC JSON内部字段作为Key。例如，可以使用key.field配置参数指定要选择的字段名。
在apply方法中，可以通过解析CDC JSON消息，提取指定的字段作为Key，并将其设置到消息的Key中。
在config()方法中，可以定义配置参数的名称和默认值。
在applySchema方法中，可以对消息的Schema进行转换。
编译和打包自定义的SMT类，并将其添加到Kafka Connect的运行时环境中。

使用SMT选择CDC JSON的内部字段作为Kafka中记录的Key的优势是可以根据业务需求灵活地选择合适的字段作为Key，以便后续的处理和分析。这样可以提高数据的查询效率和处理速度。

应用场景包括但不限于：

数据库变更事件的实时处理：通过选择CDC JSON中的变更字段作为Key，可以将变更事件按照Key进行分区，方便后续的数据处理和分析。
数据流转换和过滤：通过选择CDC JSON中的特定字段作为Key，可以对数据流进行转换和过滤，只保留感兴趣的数据。

腾讯云提供了一系列与Kafka相关的产品和服务，例如腾讯云消息队列 CKafka，可以作为Kafka的托管服务使用。您可以通过以下链接了解更多关于腾讯云CKafka的信息：

请注意，本回答仅提供了一种实现方式，并且没有涉及到具体的编程语言和代码实现细节。具体的实现方式可能因使用的编程语言和框架而有所不同。

相关搜索:BigQuery:如何聚合STRUCT或JSON字段中的记录？Kafka Mongo Sink连接器，如何使用SMT时间戳转换JSON数组中的日期字段 Reactjs -如何将json数据作为选择字段中的选项进行传递？使用变量中的值作为key来访问节点js中的json 如何从其他表中选择一行作为当前选择字段的json结果如何使用Groovy在Jenkins管道中访问json文件中的内部字段如何使用JSON_REPLACE和JSON_ARRAY修改MYSQL数据库中json字段的数组值key？如何使用Play json更改json级别中的json字段的值？如何使用postgresql中jsonb的key作为行值？如何使用其他记录作为值更新sql中的记录？

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Flink CDC 原理、实践和优化

CDC 是变更数据捕获（Change Data Capture）技术的缩写，它可以将源数据库（Source）的增量变动记录，同步到一个或多个数据目的（Sink）。在同步过程中，还可以对数据进行一定的处理，例如分组（GROUP BY）、多表的关联（JOIN）等。

05

Flink CDC 原理、实践和优化

CDC 是变更数据捕获（Change Data Capture）技术的缩写，它可以将源数据库（Source）的增量变动记录，同步到一个或多个数据目的（Sink）。在同步过程中，还可以对数据进行一定的处理，例如分组（GROUP BY）、多表的关联（JOIN）等。

《一文读懂腾讯云Flink CDC 原理、实践和优化》

CDC 变更数据捕获技术可以将源数据库的增量变动记录，同步到一个或多个数据目的。本文基于腾讯云 Oceanus 提供的 Flink CDC 引擎，着重介绍 Flink 在变更数据捕获技术中的应用。一、CDC 是什么？ CDC 是变更数据捕获（Change Data Capture）技术的缩写，它可以将源数据库（Source）的增量变动记录，同步到一个或多个数据目的（Sink）。在同步过程中，还可以对数据进行一定的处理，例如分组（GROUP BY）、多表的关联（JOIN）等。例如对于电商平台，用户的订单

03

「首席看架构」CDC (捕获数据变化) Debezium 介绍

Debezium是一个分布式平台，它将您现有的数据库转换为事件流，因此应用程序可以看到数据库中的每一个行级更改并立即做出响应。Debezium构建在Apache Kafka之上，并提供Kafka连接兼容的连接器来监视特定的数据库管理系统。Debezium在Kafka日志中记录数据更改的历史，您的应用程序将从这里使用它们。这使您的应用程序能够轻松、正确、完整地使用所有事件。即使您的应用程序停止(或崩溃)，在重新启动时，它将开始消耗它停止的事件，因此它不会错过任何东西。

02

基于 Flink SQL CDC 的实时数据同步方案

Flink 1.11 引入了 Flink SQL CDC，CDC 能给我们数据和业务间能带来什么变化？本文由 Apache Flink PMC，阿里巴巴技术专家伍翀 (云邪）分享，内容将从传统的数据同步方案，基于 Flink CDC 同步的解决方案以及更多的应用场景和 CDC 未来开发规划等方面进行介绍和演示。

02

Flink CDC 和 kafka 进行多源合并和下游同步更新

摘要：本文介绍了 Flink CDC 利用 Kafka 进行 CDC 多源合并和下游同步更新的实践分享。内容包括：

04

基于Apache Hudi和Debezium构建CDC入湖管道

当想要对来自事务数据库（如 Postgres 或 MySQL）的数据执行分析时，通常需要通过称为更改数据捕获[4] CDC的过程将此数据引入数据仓库或数据湖等 OLAP 系统。Debezium 是一种流行的工具，它使 CDC 变得简单，其提供了一种通过读取更改日志[5]来捕获数据库中行级更改的方法，通过这种方式 Debezium 可以避免增加数据库上的 CPU 负载，并确保捕获包括删除在内的所有变更。现在 Apache Hudi[6] 提供了 Debezium 源连接器，CDC 引入数据湖比以往任何时候都更容易，因为它具有一些独特的差异化功能[7]。Hudi 可在数据湖上实现高效的更新、合并和删除事务。Hudi 独特地提供了 Merge-On-Read[8] 写入器，与使用 Spark 或 Flink 的典型数据湖写入器相比，该写入器可以显着降低摄取延迟[9]。最后，Apache Hudi 提供增量查询[10]，因此在从数据库中捕获更改后可以在所有后续 ETL 管道中以增量方式处理这些更改下游。

02

基于 Kafka 与 Debezium 构建实时数据同步

在进行架构转型与分库分表之前，我们一直采用非常典型的单体应用架构：主服务是一个 Java WebApp，使用 Nginx 并选择 Session Sticky 分发策略做负载均衡和会话保持；背后是一个 MySQL 主实例，接了若干 Slave 做读写分离。在整个转型开始之前，我们就知道这会是一块难啃的硬骨头：我们要在全线业务飞速地扩张迭代的同时完成架构转型，因为这是实实在在的”给高速行驶的汽车换轮胎”。

03

基于MongoDB的实时数仓实现

目前公司离线数仓现状，数仓部门每日凌晨后处理昨天的线上业务数据，因此第二天业务人员才看到的报表，数据是T-1的，因此数据是具有滞后性，尤其在互联网金融公司，有业务人员需要做信贷的风险管控，及时的调整一些风控规则和策略，但是不能立刻看到效果，而是需要等到第二天才可以看到调整的效果，因此才有了实时数仓的需求。线上业务数据基本存储在Mysql和MongoDB数据库中，因此实时数仓会基于这两个工作流实现，本文重点讲述基于MongoDB实现实时数仓的架构。

技术干货｜如何利用 ChunJun 实现数据实时同步？

实时同步是 ChunJun 的⼀个重要特性，指在数据同步过程中，数据源与⽬标系统之间的数据传输和更新⼏乎在同⼀时间进⾏。

02

Flink CDC 新一代数据集成框架

主要讲解了技术原理，入门与生产实践，主要功能：全增量一体化数据集成、实时数据入库入仓、最详细的教程。Flink CDC 是Apache Flink的一个重要组件，主要使用了CDC技术从各种数据库中获取变更流并接入到Flink中，Apache Flink作为一款非常优秀的流处理引擎，其SQL API又提供了强大的流式计算能力，因此结合Flink CDC能带来非常广阔的应用场景。例如，Flink CDC可以代替传统的Data X和Canal工具作为实时数据同步，将数据库的全量和增量数据同步到消息队列和数据仓库中。也可以做实时数据集成，将数据库数据实时入湖入仓。还可以做实时物化视图，通过SQL对数据做实时的关联、打宽、聚合，并将物化结果写入到数据湖仓中。

03

Edge2AI之使用 Flink/SSB 进行CDC捕获

在本次实验中，您将使用 Cloudera SQL Stream Builder来捕获和处理来自外部数据库中活动的更改。

02

Flink CDC我吃定了耶稣也留不住他！| Flink CDC线上问题小盘点

如果你对Flink CDC 还没有什么概念，可以参考这里：Flink CDC 原理及生产实践。

07

基于Apache Hudi的多库多表实时入湖最佳实践

CDC(Change Data Capture)从广义上讲所有能够捕获变更数据的技术都可以称为CDC，但本篇文章中对CDC的定义限定为以非侵入的方式实时捕获数据库的变更数据。例如：通过解析MySQL数据库的Binlog日志捕获变更数据，而不是通过SQL Query源表捕获变更数据。Hudi 作为最热的数据湖技术框架之一, 用于构建具有增量数据处理管道的流式数据湖。其核心的能力包括对象存储上数据行级别的快速更新和删除，增量查询(Incremental queries,Time Travel)，小文件管理和查询优化(Clustering,Compactions,Built-in metadata)，ACID和并发写支持。Hudi不是一个Server，它本身不存储数据，也不是计算引擎，不提供计算能力。其数据存储在S3(也支持其它对象存储和HDFS)，Hudi来决定数据以什么格式存储在S3(Parquet,Avro,…), 什么方式组织数据能让实时摄入的同时支持更新，删除，ACID等特性。Hudi通过Spark，Flink计算引擎提供数据写入, 计算能力，同时也提供与OLAP引擎集成的能力，使OLAP引擎能够查询Hudi表。从使用上看Hudi就是一个JAR包，启动Spark, Flink作业的时候带上这个JAR包即可。Amazon EMR 上的Spark，Flink，Presto ，Trino原生集成Hudi, 且EMR的Runtime在Spark，Presto引擎上相比开源有2倍以上的性能提升。在多库多表的场景下(比如：百级别库表)，当我们需要将数据库(mysql,postgres,sqlserver,oracle,mongodb等)中的数据通过CDC的方式以分钟级别(1minute+)延迟写入Hudi，并以增量查询的方式构建数仓层次，对数据进行实时高效的查询分析时。我们要解决三个问题，第一，如何使用统一的代码完成百级别库表CDC数据并行写入Hudi，降低开发维护成本。第二，源端Schema变更如何同步到Hudi表。第三，使用Hudi增量查询构建数仓层次比如ODS->DWD->DWS(各层均是Hudi表)，DWS层的增量聚合如何实现。本篇文章推荐的方案是: 使用Flink CDC DataStream API(非SQL)先将CDC数据写入Kafka，而不是直接通过Flink SQL写入到Hudi表，主要原因如下，第一，在多库表且Schema不同的场景下，使用SQL的方式会在源端建立多个CDC同步线程，对源端造成压力，影响同步性能。第二，没有MSK做CDC数据上下游的解耦和数据缓冲层，下游的多端消费和数据回溯比较困难。CDC数据写入到MSK后，推荐使用Spark Structured Streaming DataFrame API或者Flink StatementSet 封装多库表的写入逻辑，但如果需要源端Schema变更自动同步到Hudi表，使用Spark Structured Streaming DataFrame API实现更为简单，使用Flink则需要基于HoodieFlinkStreamer做额外的开发。Hudi增量ETL在DWS层需要数据聚合的场景的下，可以通过Flink Streaming Read将Hudi作为一个无界流，通过Flink计算引擎完成数据实时聚合计算写入到Hudi表。

01

Flink Connector MongoDB CDC实现原理

CDC全称是Change Data Capture，我们通常将能够捕获数据变更的技术称为CDC。目前通常描述的CDC技术主要面向数据库的变更，是一种用于捕获数据库中数据的变更技术。CDC的技术应用场景有数据同步、数据分发、数据集成等。

06

大数据技术栈之-数据采集

数仓的基础是数据，没有数据，那么数仓就是一个空壳，数据的来源有很多，我们需要按照一个规则和流程来制定采集方案，还要根据数据的特性和用途选取合适的采集程序，数据的采集我们一般分为全量和增量，对于一些业务场景，也需要二者配合使用。

02

基于Flink CDC打通数据实时入湖

在构建实时数仓的过程中，如何快速、正确的同步业务数据是最先面临的问题，本文主要讨论一下如何使用实时处理引擎Flink和数据湖Apache Iceberg两种技术，来解决业务数据实时入湖相关的问题。

02

基于Hudi的流式CDC实践一：听说你准备了面试题？

写了快两个月Structured Streaming的代码，最近刚把数据迁移代码写完。

03

TiCDC 源码阅读（一）TiCDC 架构概览

这一次 TiCDC 阅读系列文章将会从源码层面来讲解 TiCDC 的基本原理，希望能够帮助读者深入地了解 TiCDC 。本篇文章是这一系列文章的第一期，主要叙述了 TiCDC 的目的、架构和数据同步链路，旨在让读者能够初步了解 TiCDC，为阅读其他源码阅读文章起到一个引子的作用。

01

Debezium使用指南

实时数仓的第一步便是变更数据捕获（CDC）,Debezium就是一款功能非常强大的CDC工具。Debezium是构建于Kafka之上的，将捕获的数据实时的采集到Kafka上

03

Flink在中原银行的实践

在构建实时场景的过程中，如何快速、正确的实时同步业务数据是最先面临的问题，本文主要讨论一下如何使用实时处理引擎Apache Flink和数据湖两种技术，来解决业务数据实时入湖的相关问题。两者的结合能良好的支持实时数据落地存储，借助Apache Flink出色的流批一体能力，可以为用户构建一个准实时数仓，满足用户准实时业务探索。

04

Flink社区 | Flink CDC 2.0 正式发布，核心改进详解

摘要：本文由社区志愿者陈政羽整理，内容来源自阿里巴巴高级开发工程师徐榜江 (雪尽) 7 月 10 日在北京站 Flink Meetup 分享的《详解 Flink-CDC》。深入讲解了最新发布的 Flink CDC 2.0.0 版本带来的核心特性，包括：全量数据的并发读取、checkpoint、无锁读取等重大改进。

03

Flink 实践教程：进阶11-SQL 关联：Regular Join

流计算 Oceanus 是大数据产品生态体系的实时化分析利器，是基于 Apache Flink 构建的具备一站开发、无缝连接、亚秒延时、低廉成本、安全稳定等特点的企业级实时大数据分析平台。流计算 Oceanus 以实现企业数据价值最大化为目标，加速企业实时化数字化的建设进程。

07

数据同步工具之FlinkCDC/Canal/Debezium对比

数据准实时复制（CDC）是目前行内实时数据需求大量使用的技术，随着国产化的需求，我们也逐步考虑基于开源产品进行准实时数据同步工具的相关开发，逐步实现对商业产品的替代。本文把市面上常见的几种开源产品，Canal、Debezium、Flink CDC 从原理和适用做了对比，供大家参考。

08

Yotpo构建零延迟数据湖实践

随着系统变得越来越复杂，我们需要更多的解决方案来集中维护大量数据，以便对其进行监控和查询，而又不会干扰运营数据库。在Yotpo，我们有许多微服务和数据库，因此将数据传输到集中式数据湖中的需求至关重要。我们一直在寻找易于使用的基础架构（仅需配置），以节省工程师的时间。

03

深入解读flink sql cdc的使用以及源码分析

CDC,Change Data Capture,变更数据获取的简称，使用CDC我们可以从数据库中获取已提交的更改并将这些更改发送到下游，供下游使用。这些变更可以包括INSERT,DELETE,UPDATE等.

03

Flink CDC 新一代数据集成框架

主要讲解了技术原理，入门与生产实践，主要功能：全增量一体化数据集成、实时数据入库入仓、最详细的教程。Flink CDC 是Apache Flink的一个重要组件，主要使用了CDC技术从各种数据库中获取变更流并接入到Flink中，Apache Flink作为一款非常优秀的流处理引擎，其SQL API又提供了强大的流式计算能力，因此结合Flink CDC能带来非常广阔的应用场景。例如，Flink CDC可以代替传统的Data X和Canal工具作为实时数据同步，将数据库的全量和增量数据同步到消息队列和数据仓库中。也可以做实时数据集成，将数据库数据实时入湖入仓。还可以做实时物化视图，通过SQL对数据做实时的关联、打宽、聚合，并将物化结果写入到数据湖仓中。

08

数据同步工具之FlinkCDC/Canal/Debezium对比

数据准实时复制（CDC）是目前行内实时数据需求大量使用的技术，随着国产化的需求，我们也逐步考虑基于开源产品进行准实时数据同步工具的相关开发，逐步实现对商业产品的替代。本文把市面上常见的几种开源产品，Canal、Debezium、Flink CDC 从原理和适用做了对比，供大家参考。

05

Mysql实时数据变更事件捕获kafka confluent之debezium

如果你的后端应用数据存储使用的MySQL，项目中如果有这样的业务场景你会怎么做呢？

03

跨境支付平台 XTransfer 的实时数仓之路：深度参与开源才能不被淘汰

近两年新冠肺炎疫情对各行各业造成重大冲击，但对于跨境电商行业来说则是机大于危，跨境支付赛道也因此备受关注。其中，受疫情影响，大量 B2B 外贸交易转到线上，相比起 B2C，B2B 跨境交易支付场景更为复杂，因为其业务场景也往往更为复杂、周期长、贸易参与角色众多。

01

【BUG】Flink CDC 2.0.0迷之异常！！！

一、场景还原基于 Flink CDC 的 SQL Api 实现实时监听 MySQL 的 binlog 数据发送到 Kafka 二、框架版本框架版本 Flink 1.13.2 MySQL 5.7.25 connector-mysql-cdc 2.0.0 三、测试代码 public class CDCWithSqlTest { public static void main(String[] args) { StreamExecutionEnvironment env

01

2022年最新版 | Flink经典线上问题小盘点

2020年和2021年分别写了很多篇类似的文章，这篇文章是关于Flink生产环境中遇到的各种问题的汇总。

03

apache hudi 0.13.0版本重磅发布

Apache Hudi 0.13.0引入了一系列新特性，包括Metaserver, Change Data Capture, new Record Merge API, new sources for Deltastreamer等。虽然此版本不需要表版本升级，但希望用户在使用 0.13.0 版本之前按照下面的迁移指南采取相关重大更改和行为更改的操作。

01

mongodb：实时数据同步（一）

关于mongodb数据实时同步，如果只是做数据备份的话，直接搭建一个replica set集群或者shard集群就可以实现目的了。但这样的话作为备份库的节点都是secondery，你没法往备份库上写数据上去。

04

Flink系列 - 实时数仓之FlinkCDC实现动态分流实战

自从Flink出了FlinkCDC之后，我们对数据库日志的采集就变得方便了许多了，除去了MaxWell、Cannel、OGG等第三方组件的繁琐配置，目前实现CDC有两种方式：HQL实现和 DataStreamAPI实现(推荐)。

02

反应式单体：如何从 CRUD 转向事件溯源

本文是一个系列文章的第一部分，阐述了如何基于事件溯源的理念在不影响既有业务的情况下，对单体式的 CRUD 应用进行改造。

02

Greenplum 实时数据仓库实践（5）——实时数据同步

构建实时数据仓库最大的挑战在于从操作型数据源实时抽取数据，即ETL过程中的Extract部分。我们要以全量加增量的方式，实时捕获源系统中所需的所有数据及其变化，而这一切都要在不影响对业务数据库正常操作的前提下进行，目标是要满足高负载、低延迟，难点正在于此，所以需要完全不同于批处理的技术加以实现。当操作型数据进入数据仓库过渡区或ODS以后，就可以利用数据仓库系统软件提供的功能特性进行后续处理，不论是Greenplum、Hive或是其他软件，这些处理往往只需要使用其中一种，相对来说简单一些。

03

Delta实践 | Delta Lake在Soul的应用实践

（一）业务场景传统离线数仓模式下，日志入库前首要阶段便是ETL，Soul的埋点日志数据量庞大且需动态分区入库，在按day分区的基础上，每天的动态分区1200+，分区数据量大小不均，数万条到数十亿条不等。下图为我们之前的ETL过程，埋点日志输入Kafka，由Flume采集到HDFS，再经由天级Spark ETL任务，落表入Hive。任务凌晨开始运行，数据处理阶段约1h，Load阶段1h+，整体执行时间为2-3h。

02

流数据湖平台Apache Paimon（二）集成 Flink 引擎

Paimon目前支持Flink 1.17, 1.16, 1.15 和 1.14。本课程使用Flink 1.17.0。

03

【Flink】第十篇：join 之 regular join

每篇会讨论一种Flink SQL的join方式，其实已经在之前写过两篇用upsert-kafka做temporal join的文章，但是限于当时对于Flink SQL、CDC、撤回语义等的认知水平有限，并且时间仓促，写的不尽如人意。

02

Kafka Streams - 抑制

在这篇文章中，我将解释Kafka Streams抑制的概念。尽管它看起来很容易理解，但还是有一些内在的问题/事情是必须要了解的。这是我上一篇博文CDC分析的延续。

01

打造 Flink + StarRocks+ Dinky 的极速统一分析平台

摘要：本文介绍了打造 Flink + StarRocks + Dinky 的极速统一分析平台经验分享。内容包括：

03

基于Apache Hudi 的CDC数据入湖

首先我们介绍什么是CDC？CDC的全称是Change data Capture，即变更数据捕获，它是数据库领域非常常见的技术，主要用于捕获数据库的一些变更，然后可以把变更数据发送到下游。它的应用比较广，可以做一些数据同步、数据分发和数据采集，还可以做ETL，今天主要分享的也是把DB数据通过CDC的方式ETL到数据湖。

01

用户投稿 | Dinky 从保存点恢复 FlinkSQL 作业

导读：本文来自用户投稿，介绍了 Dinky 如何通过 SavePoint 来恢复 FlinkSQL 作业。

04

基于Apache Hudi 的CDC数据入湖

首先我们介绍什么是CDC？CDC的全称是Change data Capture，即变更数据捕获，它是数据库领域非常常见的技术，主要用于捕获数据库的一些变更，然后可以把变更数据发送到下游。它的应用比较广，可以做一些数据同步、数据分发和数据采集，还可以做ETL，今天主要分享的也是把DB数据通过CDC的方式ETL到数据湖。

03

Debezium 2.0.0.Final Released

自2019年12月发布1.0版本以来，社区一直在积极构建一个全面的开源低延迟变更数据捕获(CDC)平台。在过去的三年里，我们扩展了Debezium的产品组合，包括用于Oracle的稳定连接器、社区主导的Vitess连接器、增量快照的引入、多分区支持等等。在社区活跃贡献者和提交者的帮助下，Debezium成为CDC领域事实上的领导者，部署在多个行业的许多组织的生产环境中，使用数百个连接器将数据更改从数千个数据库平台输出到实时流。

02

Dinky 扩展 iceberg 的实践分享

摘要：本文介绍了 Dinky 实时计算平台扩展 iceberg 的实践分享。内容包括：

01

聊聊Flink CDC必知必会

核心思想是，监测并捕获数据库的变动（包括数据或数据表的插入INSERT、更新UPDATE、删除DELETE等），将这些变更按发生的顺序完整记录下来，写入到消息中间件中以供其他服务进行订阅及消费。

03

如何构建智能湖仓架构？亚马逊工程师的代码实践来了 | Q推荐

数据仓库的数据体系严格、治理容易，业务规模越大，ROI 越高；数据湖的数据种类丰富，治理困难，业务规模越大，ROI 越低，但胜在灵活。

03

Flink on TiDB —— 便捷可靠的实时数据业务支撑

本文由网易互娱计费数据中心实时业务负责人林佳老师分享，主要介绍网易数据中心在处理实时业务时为什么选择 Flink 和 TiDB，以及两者的结合应用情况。

02

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭