暂无搜索历史
上一篇文章 Kafka Connect JDBC Source MySQL 全量同步 中,我们只是将整个表数据导入 Kafka。这对于获取数据快照很有用,但并不...
在研究 Flink CDC 时,其中涉及了 Debezium,便决定研究一下 Debezium。这篇文章简单介绍了 Debezium 是什么,以及它的架构和特性...
我们首先提出了一个查询问题,为了解决这个问题,需要在数据集的多个字段上进行排序。然后,我们将研究 MapReduce Shuff 阶段的工作原理,然后再实现我们...
DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP 等各种异构...
Flink DataStream 应用程序所处理的事件以数据对象的形式存在。函数调用时会传入数据对象,同时也可以输出数据对象。因此,Flink 在内部需要能够处...
本文主要展示了 Table API 和 SQL 程序的常见结构,如何创建注册 Table,查询 Table,以及如何输出 Table。
随着互联网流量爆发式增长,越来越多的公司业务需要支撑海量数据存储,对高并发、高可用、高可扩展性等特性提出了更高的要求,这促使各种类型的数据库快速发展,至今常见数...
SourceFunction 是 Flink 中所有流数据 Source 的基本接口。SourceFunction 接口继承了 Function 接口,并在内部...
无论是在生产环境中运行 Apache Flink 还是在调研 Apache Flink,总会遇到一个问题:如何读写以及更新 Flink Savepoint 中的...
在某些场景下 Flink 用户状态一直在无限增长,一些用例需要能够自动清理旧的状态。例如,作业中定义了超长的时间窗口,或者在动态表上应用了无限范围的 GROUP...
Kafka Connector 提供了从 Kafka topic 中消费和写入数据的能力。
我很高兴宣布 Debezium 1.9 系列的第二个版本,1.9.0.Alpha2 正式发布。此版本包含了对 Oracle 21c 的支持、围绕 Redis f...
Apache Flink 的持久化对许多用户来说都是一个谜。用户最常见反复提问的问题就是不理解 State、StateBackend 以及快照之间的关系。通过学...
我很高兴宣布 Debezium 1.9 系列的第一个版本 1.9.0.Alpha1 正式发布。这是新的一年来的第一个新版本!Debezium 1.9.0.Alp...
我们花了很多时间来思考流处理。更酷的是:我们也花了很多时间帮助其他人思考流处理以及如何使用流应用解决他们的数据问题。这个过程的第一步是纠正对现代流处理的误解(作...
Apache BookKeeper 是企业级存储系统,旨在提供强大的持久性保证、一致性和低延迟。最初是由雅虎研究院(Yahoo! Research)开发,作为 ...
欢迎回来!如果你错过了我之前的博文:Streaming 101:批处理之外的流式世界第一部分,我强烈建议你先花时间阅读这篇文章。在这篇文章介绍的内容是下面介绍内...
尽管这些业务需求驱动了流式处理的发展,但与批处理相比,现有的流式处理系统仍然相对不成熟,这使得该领域最近产生了许多令人兴奋的发展。在本篇文章将会介绍一些基本的背...
流数据处理正处于蓬勃发展中,可以提供更实时的数据以实现更好的数据洞察,同时从数据中进行分析的流程更加简化。在现实世界中数据生产是一个连续不断的过程(例如,Web...
目前,Apache Kafka 使用 Apache ZooKeeper 来存储元数据,分区位置和主题配置之类的数据存储在 Kafka 之外一个单独的 ZooKe...
暂未填写公司和职称
暂未填写技能专长
暂未填写学校和专业
暂未填写所在城市