暂无搜索历史
Apache Hudi 1.0 引入了新的 LSM 时间线,以扩展长期表的元数据管理。通过将时间线存储重构为紧凑的版本化树布局,Hudi 实现了更快的元数据访问...
Hudi开源团队将在即将到来的数据流峰会(5月28-29日)上发表关于"在Lakehouse中使用Apache Flink & Hudi的非阻塞并发控制(NBC...
作者:Balaji Varadarajan,Apache Hudi PMC成员,开源贡献者和湖仓(Lakehouse)爱好者
由于数千家公司花费了数十亿美元,因此在评估和选择云数据平台(无论是数据湖仓一体还是数据仓库平台)时,性价比[1]至关重要。提取/转换/加载 (ETL) 工作负载...
欢迎阅读由 Onehouse.ai[1] 为您带来的2025年4月版Hudi通讯!本月,我们将为您带来另一轮令人兴奋的社区更新、技术深度探讨以及展示Apache...
在 Uptycs,我们的数据平台架构多年来随着几乎所有数据平台的自然发展而发展。最初我们的架构围绕在线事务处理 (OLTP) 数据库 (在我们的例子中主要是 P...
欢迎阅读由 Onehouse.ai[1] 为您带来的 2025 年 3 月 Hudi 通讯!本月,我们为您带来新一轮的项目更新、社区焦点和技术深度探讨,这些内容...
与流式处理工作负载相关的主要挑战之一是传入事件的无序性质。在典型的流式处理方案中,由于网络延迟、处理延迟或其他因素,事件可能会不按顺序到达。随着从各种来源(尤其...
抖音集团内部使用的数据湖格式称为 ByteLake,它是基于 Apache Hudi 深度定制的一个数据库框架,其核心功能包括支持 ACID、增量消费更新和湖仓...
并发控制在数据库管理系统中至关重要,以确保多个用户对共享数据的一致且安全的访问。关系数据库(RDBMS),例如MySQL(InnoDB)[1]和分析数据库(例如...
欢迎阅读2025年1月的Hudi简报,由Onehouse.ai[1]为您带来!随着我们迈入新的一年,Hudi生态系统继续发展壮大,带来新的项目更新、社区贡献和实...
数据Lakehouse的概念是由 Uber 的一个团队于 2016 年首创,当时该团队试图解决存储大量大容量更新插入数据的问题。该项目最终成为Apache Hu...
在流式摄取场景中,有很多使用案例需要从多个流式源进行并发摄取。用户可以将所有上游源输入合并到一个下游表中,以收集记录,以便跨联合查询进行统一访问。另一种非常常见...
我们很高兴地宣布 Apache Hudi 1.0 的发布,这是我们充满活力的社区取得的里程碑式成就,它定义了下一代数据湖仓一体应该实现的目标。Hudi 在 20...
Apache Hudi 1.0.0 是 Apache Hudi 的一个重要里程碑版本。此版本包含重要的格式更改和令人兴奋的新功能。
最新发布的 Hudi-rs 0.2.0 延续了首个版本的势头,为 Rust 和 Python 生态系统中的数据湖平台带来了更多功能。Hudi-rs 让无需 JV...
导读 本文介绍了 Apache Hudi 从零到一:增量处理(八)。本文翻译自原英文博客 https://blog.datumagic.com/p/apache...
自 2021 年以来,著名的生产力应用程序 Notion 的数据增长了惊人的 10 倍。
在第一部分中[1],我们介绍了传统表管理系统的起源和架构,以及第一代开放表格式 (OTF)。在最后一部分中,我将讨论第二代和第三代 OTF。
如果在过去几年中一直在关注数据工程领域的趋势,那么肯定已经听说过很多关于 Open Table Formats 和 Data Lakehouse 的信息。
暂未填写公司和职称
暂未填写个人简介
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市