ApacheHudi

从部署到实践，即刻拥有你的专属龙虾助手

OpenClaw开发者专区🦞🦞🦞

自行/邀约他人一键搬运博客，享价值百万资源包

腾讯云自媒体同步曝光计划

往期视频·干货材料·成员作品 最新动态

腾讯技术创作特训营知识专栏

新邀入驻腾讯云开发者社区，福利多多！

导读 作为东南亚市场头部超级应用，Grab 深度覆盖出行、外卖、金融科技等多元场景。受高频金钱激励活动与金融服务场景的双重驱动，平台风控需求尤为迫切——传统风控模式因数据孤岛现象突出、领域知识难以沉淀复用等痛点，已难以满足高效精准的风险防控要求。在此背景下，Grab 构建大模型驱动的智能体数据分析平台，通过"知识注入+流程重构"改变了风控分析的范式。本次分享题目为《基于大模型与智能体的复杂场景数据分析》。

Grab 构建基于大模型和 Agent 的自动数据分析平台实践

导读 在当今数字化商业浪潮中，数据无疑是企业的核心资产，而流量数据更是电商巨头京东业务运转的关键驱动力。它广泛应用于搜索推荐、广告投放等多个核心业务场景，直接影响着用户体验和商业效益。但随着业务规模的不断膨胀，传统架构在处理流量数据时逐渐力不从心，升级架构迫在眉睫。本文将深入剖析京东流量资产架构从 Lambda 架构迈向湖仓一体架构的变革之旅，包括面临的挑战、创新的解决方案、显著的收益以及未来的发展方向。

京东流量资产基于湖仓架构的落地实践

《Apache Hudi™: The Definitive Guide[2]》的早期版本发布了新章节——这是第一本关于Hudi的官方书籍，由Shiyan Xu、Prashant Wason、Bhavani Sudha Saktheeswaran和Rebecca Bilbro合著。本章涵盖了关键的生产见解，包括操作实用程序、平台集成和调优技巧。

2025 年 7 月 Apache Hudi 社区新闻

Peloton 是一个全球互动健身平台，为全球数百万会员提供互联的、由教练指导的健身体验。Peloton 以其沉浸式课程和尖端设备而闻名，将软件、硬件和数据相结合，创建个性化的锻炼之旅。随着会员群的不断增长和产品多样性的增加，数据已成为 Peloton 如何创造价值的核心。Peloton 的数据_平台_团队负责构建和维护为分析、报告和实时数据应用程序提供支持的核心基础设施。他们的工作确保数据从事务系统无缝流向数据湖，使整个组织的团队能够及时做出数据驱动的决策。

使用 Apache Hudi 对 Peloton 的数据基础设施进行现代化改造

Apache Hudi 1.0 引入了新的 LSM 时间线，以扩展长期表的元数据管理。通过将时间线存储重构为紧凑的版本化树布局，Hudi 实现了更快的元数据访问、快照隔离和对非阻塞并发控制的支持。

探索 Apache Hudi 全新 LSM Timeline

Hudi开源团队将在即将到来的数据流峰会（5月28-29日）上发表关于"在Lakehouse中使用Apache Flink & Hudi的非阻塞并发控制（NBCC）进行高吞吐量流处理"的演讲。这次演讲将探讨NBCC的架构和设计，并提供其在低延迟写入中的实际应用见解。在此注册[5]！

2025 年 5 月 Apache Hudi 社区新闻

作者：Balaji Varadarajan，Apache Hudi PMC成员，开源贡献者和湖仓（Lakehouse）爱好者

石头剪刀布：Apache Hudi中的可插拔表格式

由于数千家公司花费了数十亿美元，因此在评估和选择云数据平台（无论是数据湖仓一体还是数据仓库平台）时，性价比[1]至关重要。提取/转换/加载 （ETL） 工作负载占云支出的 50% 以上[2]，用于提取、准备数据并将其转换为数据模型（雪花模式、星型模式等），用于下游分析、商业智能、数据科学、机器学习等。无论团队是深度投入还是对云数据平台的成本控制越来越感兴趣，了解 ETL 性价比对于成功都至关重要。

万字长文揭秘如何衡量云数据平台 ETL 性价比

欢迎阅读由 Onehouse.ai[1] 为您带来的2025年4月版Hudi通讯！本月，我们将为您带来另一轮令人兴奋的社区更新、技术深度探讨以及展示Apache Hudi如何推动现代数据湖仓架构边界的真实案例。

2025 年 4 月 Apache Hudi 社区新闻

在 Uptycs，我们的数据平台架构多年来随着几乎所有数据平台的自然发展而发展。最初我们的架构围绕在线事务处理 （OLTP） 数据库 （在我们的例子中主要是 PostgreSQL）展开，用于管理以下类别的数据：

Uptycs: 构建快如闪电的分析

欢迎阅读由 Onehouse.ai[1] 为您带来的 2025 年 3 月 Hudi 通讯！本月，我们为您带来新一轮的项目更新、社区焦点和技术深度探讨，这些内容将继续塑造数据仓库的未来。

2025 年 3月 Apache Hudi 社区新闻

与流式处理工作负载相关的主要挑战之一是传入事件的无序性质。在典型的流式处理方案中，由于网络延迟、处理延迟或其他因素，事件可能会不按顺序到达。随着从各种来源（尤其是在移动应用程序和 IoT 平台中）摄取的数据量和速度不断增加，数据处理框架必须能够处理变化（即记录的更改）和乱序事件。传统的数据存储系统和文件格式（例如针对批处理优化的系统和文件格式）通常难以有效地管理这些场景。Hudi 通过专门为应对此类挑战而设计的功能介入。当事件或记录更改在不同时间到达时，它们的顺序可能与最初生成的顺序不同。

详解 Apache Hudi 的记录合并

抖音集团内部使用的数据湖格式称为 ByteLake，它是基于 Apache Hudi 深度定制的一个数据库框架，其核心功能包括支持 ACID、增量消费更新和湖仓统一元数据管理，适用于数仓分析、交互式分析及特征工程等场景。

抖音集团数据湖表优化与管理实践

并发控制在数据库管理系统中至关重要，以确保多个用户对共享数据的一致且安全的访问。关系数据库（RDBMS），例如MySQL（InnoDB）[1]和分析数据库（例如数据仓库），已经提供了强大的并发控制机制来有效地处理此机制。随着数据的规模和复杂性的增长，管理并发访问变得更具挑战性，尤其是在大型分布式系统（如数据湖）[2]中，预计将处理分析领域中的不同类型的工作负载。尽管由于缺乏存储引擎[3]和ACID保证，数据湖传统上一直在并发操作中挣扎，但Lakehouse架构具有带有Apache Hudi，Apache Iceberg和Delta Lake等开放式格式的体系结构，从某些广泛使用的并发控制方法中汲取灵感高并发工作负载。

一文详解开放数据湖的并发控制

欢迎阅读2025年1月的Hudi简报，由Onehouse.ai[1]为您带来！随着我们迈入新的一年，Hudi生态系统继续发展壮大，带来新的项目更新、社区贡献和实际应用案例。让我们一起探索!

2025 年 1 月 Apache Hudi 社区新闻

数据Lakehouse的概念是由 Uber 的一个团队于 2016 年首创，当时该团队试图解决存储大量大容量更新插入数据的问题。该项目最终成为Apache Hudi[1] ，然后被描述为“事务数据湖”。随着时间的推移，其他组织创建了项目来解耦昂贵的数据仓库计算和存储，利用基于云对象的系统将数据存储为文件。这些项目成为Apache Iceberg[2] （诞生于 Netflix）和 Linux 基金会的Delta Lake[3] （诞生于 Databricks），最终融合为“数据Lakehouse”的术语。

加速 Lakehouse 表性能完整指南

在流式摄取场景中，有很多使用案例需要从多个流式源进行并发摄取。用户可以将所有上游源输入合并到一个下游表中，以收集记录，以便跨联合查询进行统一访问。另一种非常常见的情况是将多个流源连接在一起以补充记录的维度，以构建一个宽维表，其中每个源流都获取具有部分表架构字段的记录。对多流并发摄取的普遍而强烈的需求一直存在。自从 Hudi 支持流式摄取和处理以来，Hudi 社区已经从用户那里收集了大量反馈。

流式高频写入：Apache Hudi 非阻塞并发控制详解

我们很高兴地宣布 Apache Hudi 1.0 的发布，这是我们充满活力的社区取得的里程碑式成就，它定义了下一代数据湖仓一体应该实现的目标。Hudi 在 2017 年率先推出了事务性数据湖，如今我们生活在一个技术类别作为“数据湖仓一体”成为主流的世界。与其他 OSS 替代方案出现时相比，Hudi 社区为这一类别做出了几项关键的、原创的和首创的贡献，如下所示。对于一个相对较小的 OSS 社区来说，在竞争激烈的商业数据生态系统中维持下去，这是一项非常罕见的壮举。另一方面，它也证明了在专注的开源社区中深入了解技术类别的价值。所以我首先要感谢/祝贺 Hudi 社区和 60+ 贡献者，他们使 1.0 成为现实。

Apache Hudi 1.0 重点特性及下一代Lakehouse详解

Apache Hudi 1.0.0 是 Apache Hudi 的一个重要里程碑版本。此版本包含重要的格式更改和令人兴奋的新功能。

Apache Hudi 1.0.0 版本正式发布

最新发布的 Hudi-rs 0.2.0 延续了首个版本的势头，为 Rust 和 Python 生态系统中的数据湖平台带来了更多功能。Hudi-rs 让无需 JVM 就能与 Hudi 表进行交互成为可能，为轻量级、高性能的工作流开辟了新的机遇。

2024 年 11 月 Apache Hudi 社区新闻

文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

EdgeOne AI 安全实战专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

腾讯云开发者社区推出了ApacheHudi专栏，为你提供了ApacheHudi的相关文章，致力于帮助开发者快速成长与发展。

ApacheHudi

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐