开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Databricks与Kafka架构注册表的集成

是指在Databricks平台上与Kafka的Schema Registry（架构注册表）进行集成的能力。下面是对这两个概念的详细解释：

Databricks：Databricks是一个基于云的数据处理和分析平台，提供了一个协同的工作环境，用于数据科学家、数据工程师和分析师进行数据处理、机器学习和大数据分析。Databricks提供了一系列的工具和服务，包括数据处理引擎、协同工作环境、自动化工作流、机器学习库等。
Kafka：Kafka是一个分布式流处理平台，用于高吞吐量的实时数据流处理。它可以处理和存储大规模的实时数据流，并提供了可靠的数据传输机制。Kafka的核心概念包括生产者（Producer）、消费者（Consumer）、主题（Topic）和分区（Partition）等。
架构注册表（Schema Registry）：架构注册表是Kafka生态系统中的一个组件，用于管理和存储数据的架构（Schema）。它提供了一种集中式的方式来定义和管理数据的结构，确保数据在生产者和消费者之间的兼容性和一致性。

Databricks与Kafka架构注册表的集成可以带来以下优势和应用场景：

优势：

数据一致性：通过使用架构注册表，可以确保生产者和消费者之间的数据格式一致，避免数据解析错误。
数据演化：架构注册表支持数据结构的演化，可以在不中断现有数据流的情况下进行数据模式的更新和升级。
数据质量：通过对数据结构进行验证和验证规则的定义，可以提高数据的质量和准确性。

应用场景：

实时数据流处理：Databricks与Kafka架构注册表的集成可以用于实时数据流处理场景，例如实时数据分析、实时监控和实时报警等。
数据集成和数据湖：通过集成Kafka架构注册表，可以将不同数据源的数据进行集成，并将其存储到数据湖中，以供后续的分析和处理。
事件驱动架构：使用Kafka作为事件驱动架构的中间件，并与Databricks集成，可以构建高可靠、可扩展的事件驱动系统。

腾讯云相关产品和产品介绍链接地址：腾讯云提供了一系列与云计算相关的产品和服务，以下是一些与Databricks和Kafka相关的产品和服务：

腾讯云Databricks：腾讯云Databricks是基于Databricks平台的云端数据处理和分析服务，提供了高性能的数据处理引擎和协同工作环境。详情请参考：https://cloud.tencent.com/product/dbd
腾讯云消息队列 CKafka：腾讯云CKafka是一种高吞吐量、低延迟的分布式消息队列服务，与Kafka兼容。详情请参考：https://cloud.tencent.com/product/ckafka

请注意，以上链接仅供参考，具体的产品选择应根据实际需求和情况进行评估和决策。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Kafka生态

Confluent提供了业界唯一的企业级事件流平台，Confluent Platform通过将来自多个源和位置的数据集成到公司的单个中央事件流平台中，可以轻松构建实时数据管道和流应用程序。Confluent平台使您可以专注于如何从数据中获取业务价值，而不必担心诸如在各种系统之间传输或处理数据的基本机制。具体来说，Confluent平台简化了将数据源连接到Kafka，使用Kafka构建应用程序以及保护，监视和管理Kafka基础架构的过程。

01

如何在 TiDB Cloud 上使用 Databricks 进行数据分析 | TiDB Cloud 使用指南

TiDB Cloud 是为开源分布式数据库 TiDB 打造的全托管 DBaaS (Database-as-a-Service) 服务。

03

挑战 Spark 和 Flink？大数据技术栈的突围和战争｜盘点

十年的轮回，正如大数据的发展一般，它既是一个轮回的结束，也是崭新的起点。大数据在过去的二十年中蓬勃发展，从无到有，崛起为最具爆炸性的技术领域之一，逐渐演变成为每个企业不可或缺的基础设施。然而，在这个时刻，我们不禁要问：当前的大数据架构是否已经趋于完美？2023 年，伴随着人工智能的跃变式爆发，数据平台将如何演进，以适应未来的数据使用场景？

01

Modern Data Stack 下 Data Integration 生态（下）

上一篇介绍了什么是 modern data stack,这一篇继续来梳理下，在modern data stack 下面常见的产品都有哪些。

02

Lakehouse 特性对比 | Apache Hudi vs Delta Lake vs Apache Iceberg

随着 Lakehouse 的日益普及，人们对分析和比较作为该数据架构核心的开源项目的兴趣日益浓厚：Apache Hudi、Delta Lake 和 Apache Iceberg。

02

微服务需要一场由内至外的变革

作者 | Bilgin Ibryam 译者 | 王强编辑 | Tina 为了让微服务足以应对未来的挑战，在设计微服务时需要加入数据流经的入站和出站 API，以及描述这些 API 的元 API。分布式系统专家 Martin Kleppmann 在他的“由内至外的数据库变革”的演讲中提出了一个激进的想法：“从关系型数据库转向不可变事件和物化视图的日志可以带来显著的收益。”他在演讲中讲解了关系型数据库的内部工作原理，以及使用这种数据库架构创建的应用程序所面临的诸多局限，这些内容会彻底改变你对数据库和事件日志

01

Delta Lake 2.0正式发布，Databricks能赢吗？

新粉请关注我的公众号我收到了一封邮件，具体内容截图如下：简单说，就是官宣Delta Lake 2.0正式发布了。这个距离Databricks的年度大会上面宣布，也有些时日了。 Databricks在发布里面指出了一些新功能。我挑重点讲几个。首先是Change Data Feed。这个东西的作用就是你对Delta Table做的数据改变，它都会生成Change Data Feed。你要是订阅了这个东西，比如说把它放进一个Kafka集群里面，理论上就可以准实施复制出一份数据来。这个东西有点像什么呢

01

云原生计算基金会 CloudEvents 毕业典礼：与 Clemens Vasters 的问答

今年早些时候，云原生计算基金会（CNCF）宣布了 CloudEvents 的毕业。CloudEvents 是一个旨在以标准化的方式来公开事件元数据的规范，这有助于确保跨平台、服务和系统的互操作性。

01

干货 | 五千字长文带你快速入门FlinkSQL

最近几天因为工作比较忙，已经几天没有及时更新文章了，在这里先给小伙伴们说声抱歉…临近周末，再忙再累，我也要开始发力了。接下来的几天，菌哥将为大家带来关于FlinkSQL的教程，之后还会更新一些大数据实时数仓的内容，和一些热门的组件使用！希望小伙伴们能点个关注，第一时间关注技术干货！

01

深度对比 Delta、Iceberg 和 Hudi 三大开源数据湖方案

目前市面上流行的三大开源数据湖方案分别为：Delta、Apache Iceberg 和 Apache Hudi。其中，由于 Apache Spark 在商业化上取得巨大成功，所以由其背后商业公司 Databricks 推出的 Delta 也显得格外亮眼。Apache Hudi 是由 Uber 的工程师为满足其内部数据分析的需求而设计的数据湖项目，它提供的 fast upsert/delete 以及 compaction 等功能可以说是精准命中广大人民群众的痛点，加上项目各成员积极地社区建设，包括技术细节分享、国内社区推广等等，也在逐步地吸引潜在用户的目光。Apache Iceberg 目前看则会显得相对平庸一些，简单说社区关注度暂时比不上 Delta，功能也不如 Hudi 丰富，但却是一个野心勃勃的项目，因为它具有高度抽象和非常优雅的设计，为成为一个通用的数据湖方案奠定了良好基础。

01

对话Apache Hudi VP，洞悉数据湖的过去现在和未来

Apache Hudi是一个开源数据湖管理平台，用于简化增量数据处理和数据管道开发，该平台可以有效地管理业务需求，例如数据生命周期，并提高数据质量。Hudi的一些常见用例是记录级的插入、更新和删除、简化文件管理和近乎实时的数据访问以及简化的CDC数据管道开发。

02

深度对比delta、iceberg和hudi三大开源数据湖方案

目前市面上流行的三大开源数据湖方案分别为：delta、Apache Iceberg和Apache Hudi。其中，由于Apache Spark在商业化上取得巨大成功，所以由其背后商业公司Databricks推出的delta也显得格外亮眼。Apache Hudi是由Uber的工程师为满足其内部数据分析的需求而设计的数据湖项目，它提供的fast upsert/delete以及compaction等功能可以说是精准命中广大人民群众的痛点，加上项目各成员积极地社区建设，包括技术细节分享、国内社区推广等等，也在逐步地吸引潜在用户的目光。Apache Iceberg目前看则会显得相对平庸一些，简单说社区关注度暂时比不上delta，功能也不如Hudi丰富，但却是一个野心勃勃的项目，因为它具有高度抽象和非常优雅的设计，为成为一个通用的数据湖方案奠定了良好基础。

03

数据湖框架之技术选型-Hudi、Delta Lake、Iceberg和Paimon

数据湖是一个集中式的存储库，允许你以任意规模存储多个来源、所有结构化和非结构化数据，可以按照原样存储数据，无需对数据进行结构化处理，并运行不同类型的分析对数据进行加工，例如：大数据处理、实时分析、机器学习，以指导做出更好地决策。

00

Spark 1.3更新概述：176个贡献者，1000+ patches

近日，Databricks正式发布Spark 1.3版本。在此版本中，除下之前我们报道过的DataFrame API，此次升级还覆盖Streaming、ML、SQL等多个组件。当下，1.3版本已在 Apache Spark页面提供下载，下面一起浏览 Patrick Wendell在Databricks Blog上对Spark 1.3版本的概括。 Spark SQL脱离Alpha版本在1.3版本中，Spark SQL正式脱离Alpha版本，提供了更好的SQL标准兼容。同时，Spark SQL数据源AP

04

使用 PowerFlex 在 Kubernetes 平台上部署 Microsoft SQL Server 大数据集群

Microsoft SQL Server 2019通过SQL Server 2019大数据集群 (Big Data Clusters, BDC)推出了突破性的数据平台。Microsoft SQL Server大数据集群旨在解决当今大多数组织面临的大数据挑战。您可以使用SQL Server BDC来组织和分析大量的数据，也可以将高价值的关系型数据与大数据结合起来。本文描述了使用Dell PowerFlex软件定义存储在Kubernetes平台上部署SQL Server BDC的过程。

02

Kafka —— 弥合日志系统和消息队列的鸿沟

Kafka （该论文发表于 2011 年 6 月 [1]）是日志处理和消息队列系统的集大成者。较低的延迟、极高的容量和吞吐，使其可以应用于在线服务和离线业务。为了兼顾性能和可扩展性，Kafka 做了一些看起来反直觉但是却很实用的设计。例行总结一下其设计特点：

03

2022年的五个大数据趋势

2021年，我们看到围绕现代数据栈的兴起出现了相当大的加速效应。我们现在有一个海啸般的通讯、影响者、投资者、专门的网站、会议和活动来宣扬它。围绕现代数据栈的概念（尽管仍处于早期阶段）与云中数据工具的爆炸性增长紧密相连。云计算带来了一种新的基础设施模式，它将帮助我们快速地、程序化地、按需地建立这些数据栈，使用像Kubernetes这样的云原生技术、像Terraform这样的基础设施即代码以及DevOps的云计算最佳实践。因此，基础设施成为构建和实施现代数据栈的一个关键因素。当我们已经进入2022年，我们可以

02

是时候放弃 Spark Streaming, 转向 Structured Streaming 了

正如在之前的那篇文章中 Spark Streaming 设计原理中说到 Spark 团队之后对 Spark Streaming 的维护可能越来越少，Spark 2.4 版本的 [Release Note](http://spark.apache.org/releases/spark-release-2-4-0.html) 里面果然一个 Spark Streaming 相关的 ticket 都没有。相比之下，Structured Streaming 有将近十个 ticket 说明。所以各位同学，是时候舍弃 Spark Streaming 转向 Structured Streaming 了，当然理由并不止于此。我们这篇文章就来分析一下 Spark Streaming 的不足，以及Structured Streaming 的设计初衷和思想是怎么样的。文章主要参考今年（2018 年）sigmod 上面的这篇论文：Structured Streaming: A Declarative API for Real-Time

02

Spark 学习资源收集【Updating】

（一）spark 相关安装部署、开发环境 1、Spark 伪分布式 & 全分布式安装指南 http://my.oschina.net/leejun2005/blog/394928 2、Apache Spark探秘：三种分布式部署方式比较 http://dongxicheng.org/framework-on-yarn/apache-spark-comparing-three-deploying-ways/ 3、idea上运行local的spark sql hive http://dataknock

09

使用 Kafka 和动态数据网格进行流式数据交换

数据网格（Data Mesh）是近来受到广泛重视的一种新型架构范式。每家数据和平台提供商都说明了怎样使用自己的平台来构建最好的数据网格。数据网格的故事包括像亚马逊云科技这样的云计算提供商，像 Databricks 和 Snowflake 这样的数据分析提供商，以及像 Confluent 这样的事件流解决方案。本文详细讨论了这一原理，并探索了为何没有一种技术最适合构建数据网格。本文列举的例子表明，为何像 Apache Kafka 这样的开放和可扩展的分布式实时平台一般都是数据网格基础设施的核心，而其他数据平台则是为了解决业务问题而提供支持。

03

StreamingPro 简化流式计算配置

前些天可以让批处理的配置变得更优雅StreamingPro 支持多输入，多输出配置，现在流式计算也支持相同的配置方式了。

02

Apache Hudi - 我们需要的开放数据湖仓一体平台

毋庸置疑，Hudi 是一个非常成功和有影响力的开源项目，它已经为许多公司提供了 7+ 年，在云上管理多个 EB。但考虑到我们所处的位置以及市场上人为的双头垄断叙事，很高兴看到一些数据来获得观点。

01

十分钟入门Fink SQL

Flink 本身是批流统一的处理框架，所以 Table API 和 SQL，就是批流统一的上层处理 API。目前功能尚未完善，处于活跃的开发阶段。 Table API 是一套内嵌在 Java 和 Scala 语言中的查询 API，它允许我们以非常直观的方式，组合来自一些关系运算符的查询（比如 select、filter 和 join）。而对于 Flink SQL，就是直接可以在代码中写 SQL，来实现一些查询（Query）操作。Flink 的 SQL 支持，基于实现了 SQL 标准的 Apache Calcite（Apache 开源 SQL 解析工具）。

02

多个供应商使数据和分析无处不在

翻译自 Multiple Vendors Make Data and Analytics Ubiquitous 。

01

想学spark但是没有集群也没有数据？没关系，我来教你白嫖一个！

今天要介绍的平台叫做databricks，它是spark的创建者开发的统一分析平台。单凭spark创建者这几个字大家应该就能体会到其中的分量，其中集成了Scala、Python和R语言的环境，可以让我们在线开发调用云端的spark集群进行计算。

04

SQL Stream Builder概览

Cloudera的流分析中除了包括Flink，还包括SQL Stream Builder创建对数据流的连续查询。我们在该系列的第一部分介绍了《Cloudera中的流分析概览》，今天我们来快速浏览一下SQL Stream Builder的概览。

03

微服务之基于Docker的分布式企业级实践

如果使用 Docker 技术来架构微服务体系，服务发现就是一个必然的课题。目前主流的服务发现模式有两种：客户端发现模式，以及服务端发现模式。客户端发现模式客户端发现模式的架构图如下：客户端发现模式的典型实现是Netflix体系技术。客户端从一个服务注册服务中心查询所有可用服务实例。客户端使用负载均衡算法从多个可用的服务实例中选择出一个，然后发出请求。比较典型的一个开源实现就是 Netflix 的 Eureka。 Netflix-Eureka Eureka 的客户端是采用自注册的模式，客户端需要负责

03

在统一的分析平台上构建复杂的数据管道

在Quora上,大数据从业者经常会提出以下重复的问题：什么是数据工程（Data Engineering）？如何成为一名数据科学家（Data Scientist）？什么是数据分析师（Data Analyst）？

08

数据湖YYDS！ Flink+IceBerg实时数据湖实践

互联网技术发展的当下，数据是各大公司最宝贵的资源之一已经是不争的事实。收据的收集、存储和分析已经成为科技公司最重要的技术组成部分。大数据领域经过近十年的高速发展，无论是实时计算还是离线计算、无论是数据仓库还是数据中台，都已经深入各大公司的各个业务。

02

数据湖YYDS！ Flink+IceBerg实时数据湖实践

互联网技术发展的当下，数据是各大公司最宝贵的资源之一已经是不争的事实。收据的收集、存储和分析已经成为科技公司最重要的技术组成部分。大数据领域经过近十年的高速发展，无论是实时计算还是离线计算、无论是数据仓库还是数据中台，都已经深入各大公司的各个业务。

01

热度再起：从Databricks融资谈起

就在本周一，大数据初创公司Databricks在官网宣布他们完成了10亿美元的G轮融资，对公司的估值为280亿美元。作为同类公司，之前Snowflake的IPO就引发资本的热捧，此次Databricks的融资也印证了这点。为什么资本对数据平台公司如此关注？正如之前我的一篇《当红炸子鸡Snowflake》中谈到，“云计算+大数据”催收了无限遐想空间。下面就让我们来看看这个独角兽Databricks的情况。本文内容部分摘自Databricks官网。

01

「事件流处理架构」事件流处理的八个趋势

经过二十多年的研究和开发，事件流处理（ESP）软件平台已不再局限于在小生境应用或实验中使用。它们已经成为许多业务环境中实时分析的基本工具。

01

什么是Kafka

该文介绍了Kafka的基本概念、应用场景、优缺点、实现原理、主要概念、相关概念和主要功能。Kafka是一个分布式流媒体平台，用于发布和订阅记录流。它具有高吞吐量、可扩展性、持久性、容错性、实时性等特点。Kafka在大数据领域非常流行，用于实时数据处理、日志收集、流处理、事件驱动应用等。

02

面向现代数据基础设施的新兴架构

作者 | Matt Bornstein, Jennifer Li, Martin Casado 译者 | Sambodhi 策划 | Tina 自从我们在 2020 年底发布了一套参考架构以来，数据基础设施行业的增长势头有增无减。在过去的一年里，几乎所有的关键行业指标都创下了历史新高，新的产品类别出现的速度超过了大多数数据团队可以合理跟踪的速度。甚至连基准战争和广告牌之争也卷土重来。为了帮助数据团队紧跟行业内发生的变化，我们在这篇文章中发布了一套最新的数据基础设施。它们展示了当前分析和运营系统的

04

Lakehouse架构指南

你曾经是否有构建一个开源数据湖[1]来存储数据以进行分析需求？数据湖包括哪些组件和功能？

02

现代元数据平台

这是一个新概念：The Modern Metadata Platform，直译就是现代元数据平台。这个概念是伴随着 Modern Data Stack 概念而生，是其中的一部分。

03

【数据湖仓】数据湖和仓库：Databricks 和 Snowflake

是时候将数据分析迁移到云端了。我们比较了 Databricks 和 Snowflake，以评估基于数据湖和基于数据仓库的解决方案之间的差异。在这篇文章中，我们将介绍基于数据仓库和基于数据湖的云大数据解决方案之间的区别。我们通过比较多种云环境中可用的两种流行技术来做到这一点：Databricks 和 Snowflake。正如我们在上一篇文章中了解到的，数据分析平台可以分为多个阶段。上面，我们可以看到一张图片，大致了解了管道中 Snowflake 和 Databricks 的角色。在这里，我们可以将工具分

01

Blink开源，Spark3.0，谁才能称霸大数据领域？

2018和2019年是大数据领域蓬勃发展的两年，自2019年伊始，实时流计算技术开始步入普通开发者视线，各大公司都在不遗余力地试用新的流计算框架，实时流计算引擎Spark Streaming、Kafka Streaming、Beam和Flink持续火爆。

04

实时数仓建设思考与方案记录

随着我司业务飞速增长，实时数仓的建设已经提上了日程。虽然还没有正式开始实施，但是汲取前人的经验，做好万全的准备总是必要的。本文简单松散地记录一下想法，不涉及维度建模方法论的事情（这个就老老实实去问Kimball他老人家吧）。

02

基于 Docker 的微服务架构实践

基于 Docker 的容器技术是在2015年的时候开始接触的，两年多的时间，作为一名 Docker 的 DevOps，也见证了 Docker 的技术体系的快速发展。本文主要是结合在公司搭建的微服务架构的实践过程，做一个简单的总结。希望给在创业初期探索如何布局服务架构体系的 DevOps，或者想初步了解企业级架构的同学们一些参考。

03

Apache Spark 3.0.0重磅发布 —— 重要特性全面解析

2020年6月18日，开发了近两年（自2018年10月份至今）的Apache Spark 3.0.0正式发布！

00

Flink1.9新特性解读：通过Flink SQL查询Pulsar

问题导读 1.Pulsar是什么组件？ 2.Pulsar作为Flink Catalog，有哪些好处？ 3.Flink是否直接使用Pulsar原始模式？ 4.Flink如何从Pulsar读写数据？ Flink1.9新增了很多的功能，其中一个对我们非常实用的特性通过Flink SQL查询Pulsar给大家介绍。我们以前可能遇到过这样的问题。通过Spark读取Kafka，但是如果我们想查询kafka困难度有点大的，当然当前Spark也已经实现了可以通过Spark sql来查询kafka的数据。那么Flink 1.9又是如何实现通过Flink sql来查询Pulsar。可能我们大多对kafka的比较熟悉的，但是对于Pulsar或许只是听说过，所以这里将Pulsar介绍下。 Pulsar简介 Pulsar由雅虎开发并开源的一个多租户、高可用，服务间的消息系统，目前是Apache软件基金会的孵化器项目。 Apache Pulsar是一个开源的分布式pub-sub消息系统，用于服务器到服务器消息传递的多租户，高性能解决方案，包括多个功能，例如Pulsar实例中对多个集群的本机支持，跨集群的消息的无缝geo-replication，非常低的发布和端到端 - 延迟，超过一百万个主题的无缝可扩展性，以及由Apache BookKeeper等提供的持久消息存储保证消息传递。 Pulsar已经在一些名企应用，比如腾讯用它类计费。而且它的扩展性是非常优秀的。下面是实际使用用户对他的认识。

01

Apache Spark 3.0.0重磅发布 —— 重要特性全面解析

2020年6月18日，开发了近两年（自2018年10月份至今）的Apache SparkTM 3.0.0正式发布！

02

Kafka 中使用 Avro 序列化组件(三)：Confluent Schema Registry

无论是使用传统的Avro API自定义序列化类和反序列化类还是使用Twitter的Bijection类库实现Avro的序列化与反序列化，这两种方法都有一个缺点：在每条Kafka记录里都嵌入了schema，这会让记录的大小成倍地增加。但是不管怎样，在读取记录时仍然需要用到整个 schema，所以要先找到 schema。有没有什么方法可以让数据共用一个schema？

02

前阿里开发工程师的分享微服务之基于Docker的分布式企业级实践前言Microservice 和 Docker服务发现模式服务端发现模式服务注册第三方注册模式 Third party registra

前言基于 Docker 的容器技术是在2015年的时候开始接触的，两年多的时间，作为一名 Docker 的 DevOps，也见证了 Docker 的技术体系的快速发展。本文主要是结合在公司搭建的微服务架构的实践过程，做一个简单的总结。希望给在创业初期探索如何布局服务架构体系的 DevOps，或者想初步了解企业级架构的同学们一些参考。 Microservice 和 Docker 对于创业公司的技术布局，很多声音基本上是，创业公司就是要快速上线快速试错。用单应用或者前后台应用分离的方式快速集成，快速开发，快速

08

网易数据湖探索与实践-范欣欣

导读：今天主要和大家交流的是网易在数据湖Iceberg的一些思考与实践。从网易在数据仓库建设中遇到的痛点出发，介绍对数据湖Iceberg的探索以及实践之路。

02

我们为什么在 Databricks 和 Snowflake 间选型前者？

作为 DeNexus 安全服务提供商，需要良好选型的数据平台实现巨量数据的分析和管理。DeNexus 根据自身需求选型了 Databricks 的湖仓一体解决方案，满足自身对数据类型、用户类型、可扩展性、版本管理和 MLOps 上的需求。

01

【数据仓库】什么是 Azure Synapse，它与 Azure Data Bricks 有何不同？

Azure Synapse Analytics 是一项针对大型公司的无限信息分析服务，它被呈现为 Azure SQL 数据仓库 (SQL DW) 的演变，将业务数据存储和宏或大数据分析结合在一起。在处理、管理和提供数据以满足即时商业智能和数据预测需求时，Synapse 为所有工作负载提供单一服务。后者通过与 Power BI 和 Azure 机器学习的集成而成为可能，因为 Synapse 能够使用 ONNX 格式集成数学机器学习模型。它提供了处理和查询大量信息的自由度.作为微软在西班牙为数不多的 Pow

02

作为云原生 iPaaS 集成中间件的 Apache Kafka

企业面临着前所未有的集成挑战。信息技术的发展要求更多的技术集成，应用程序部署在边缘、混合和多云架构中，传统的中间件，如 MQ、ETL、ESB，都不能很好地扩展，仅能批量处理数据而无法实现实时处理。

02

Hudi、Iceberg 和 Delta Lake：数据湖表格式比较

在构建数据湖时，可能没有比存储数据格式更重要的决定了。结果将直接影响其性能、可用性和兼容性。

02

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭