首页
学习
活动
专区
工具
TVP
发布

ApacheHudi

专栏成员
190
文章
236285
阅读量
47
订阅数
Apache Hudi - 我们需要的开放数据湖仓一体平台
毋庸置疑,Hudi 是一个非常成功和有影响力的开源项目,它已经为许多公司提供了 7+ 年,在云上管理多个 EB。但考虑到我们所处的位置以及市场上人为的双头垄断叙事,很高兴看到一些数据来获得观点。
ApacheHudi
2024-06-21
230
数据湖在快手的应用实践
快手业务发展迅速,对数据精细化运营的要求越来越高。随之而来,数仓的数据模型持续快速增长。这带来了两个主要问题:
ApacheHudi
2024-06-21
220
基于 XTable 的 Dremio Lakehouse分析
这种开放性和灵活性的方法使数据存储和使用方式发生了转变。如今,客户可以选择在云对象存储(如 Amazon S3、Microsoft Azure Blob Storage或 Google Cloud Storage)中以开放表格式存储数据。数据由数据所有者全资拥有和管理,并保存在其安全的 Virtual Private Cloud (VPC) 帐户中。用户可以为其工作负载提供正确类型的查询引擎,而无需复制数据。这创建了一个面向未来的架构,可以在需要时将新工具添加到技术栈中。
ApacheHudi
2024-06-08
850
超硬核解析Apache Hudi 的一致性模型(第三部分)
在第 1 部分中,我们构建了一个逻辑模型,用于说明写入时复制表在 Apache Hudi 中的工作方式,并提出了许多关于并发控制类型、时间戳单调性等方面的一致性问题。在第 2 部分中,我们研究了时间戳冲突、它们的概率以及如何避免它们(并符合 Hudi 规范)。在第 3 部分中,我们将重点介绍模型检查 TLA+ 规范的结果,并回答这些问题。
ApacheHudi
2024-05-29
940
使用 Apache Hudi + Daft + Streamlit 构建 Lakehouse 分析应用
为了应对这些挑战,像 Streamlit[1] 这样的低代码工具作为 Python 生态系统的包装器,允许将 API、模型和业务逻辑变为现实。Streamlit 支持从数据库、API 和文件系统等各种来源轻松使用数据,从而轻松集成到应用程序中。在这篇博客中,我们将重点介绍如何使用直接来自开放湖仓一体平台的数据来构建数据应用。
ApacheHudi
2024-05-20
690
2024 年 4 月 Apache Hudi 社区新闻
https://github.com/apache/hudi/pull/10949
ApacheHudi
2024-05-10
1221
超硬核解析Apache Hudi 的一致性模型(第二部分)
同样 v5 Hudi 规范说,确保时间戳是单调的实现是实现者的责任。非单调时间戳违反了规范。即便如此,也需要了解多个写入端之间时间戳冲突的影响。
ApacheHudi
2024-05-10
940
超硬核解析Apache Hudi 的一致性模型(第一部分)
Hudi 更复杂并不意味着 Iceberg 更好,只是需要更多的工作来内化设计。复杂性的一个关键原因是 Hudi 在核心规范中加入了更多功能。Iceberg 目前只是一种表格式,而 Hudi 是一种具有多种查询类型的完全成熟的托管表格式。如果精通 Delta Lake 内部结构,会发现 Hudi 的设计与 Delta Lake 的设计有许多相似之处。
ApacheHudi
2024-04-30
1110
揭秘Robinhood扩展和管理PB级规模Lakehouse架构
Robinhood 团队成员高级工程师 Balaji Varadarajan 和技术主管 Pritam Dey 描述了他们公司的数据Lakehouse的实现,Robinhood 的数据团队如何基于 Apache Hudi 和相关 OSS 服务来处理数 PB 规模的指数级增长。
ApacheHudi
2024-04-26
1160
Apache Hudi +MinIO + HMS构建现代数据湖
我们已经探索了[1] MinIO 和 Hudi 如何协同工作来构建现代数据湖。这篇博文旨在以这些知识为基础,提供一种利用 Hive Metastore 服务 (HMS[2]) 的 Hudi 和 MinIO 的替代实现。部分源于 Hadoop 生态系统的起源故事,Hudi 的许多大规模数据实现仍然利用 HMS。通常从遗留系统的迁移故事涉及某种程度的混合,因为要利用所涉及的所有产品中最好的产品来取得成功。
ApacheHudi
2024-04-18
1370
Apache Hudi从零到一:写入流程和操作(三)
在上一篇文章中,我们讨论了 Hudi 查询类型及其与 Spark 的集成。在这篇文章中,我们将深入研究另一个方面——写入流程,以 Spark 作为示例引擎。在写入数据时可以调整多种配置和设置。因此这篇文章的目的并不是作为完整的使用指南。相反主要目标是呈现内部数据流并分解所涉及的步骤。这将使读者更深入地了解运行和微调 Hudi 应用程序。各种实际使用示例请查阅Hudi的官方文档页面。
ApacheHudi
2024-04-11
3130
Uber 基于Apache Hudi的超级数据基础设施
Uber 是一个全球品牌,在全球 10,000 多个城市运营。该公司运营规模庞大,每月为超过 1.37 亿用户提供服务,每天为 2500 万次出行提供服务。数据驱动——乘客、司机和企业经营者采取的每一个行动。在如此规模的数据中,将所有这些活动的原始数据转化为业务洞察的技术挑战尤其困难,尤其是以高效且可靠的方式做到这一点。
ApacheHudi
2024-03-25
1280
从 POC 到生产!Leboncoin 基于 Apache Hudi 构建 Lakehouse 实践
每天约有 800 万独立访问者访问 Leboncoin,到 2022 年,该网站每月有超过 1000 亿次 HTTP 调用并且启动和运行 700 个应用程序,使其成为访问量最大的法国网站之一。
ApacheHudi
2024-03-18
900
沃尔玛基于 Apache Hudi 构建 Lakehouse
开源数据峰会上最有趣的会议之一是三级数据工程师 Ankur Ranjan 和高级数据工程师 Ayush Bijawat 的演讲,介绍他们在领先零售商沃尔玛中使用 Apache Hudi。
ApacheHudi
2024-03-18
750
金融信创湖仓一体数据平台架构实践
大数据基础设施的发展经历了四个主要阶段,每个阶段都有着标志性的技术进步来应对新的应用需求。
ApacheHudi
2024-03-18
1620
降本百万!Notion 基于Apache Hudi构建LakeHouse
这篇博文是由 Notion 数据平台团队的软件工程师 Thomas Chow 和 Nathan Louie 于 2023 年 12 月 13 日发表的题为 Notion's Journey Through Different Stages of Data Scale 的 Hudi 现场活动的简短摘要。下面的视频剪辑给出了Notion 演讲的简短摘要,还可以查看演讲幻灯片[1]或查看完整演讲[2]。
ApacheHudi
2024-03-06
1340
Grab 基于 Apache Hudi 实现近乎实时的数据分析
在数据处理领域,数据分析师在数据湖上运行其即席查询。数据湖充当分析和生产环境之间的接口,可防止下游查询影响上游数据引入管道。为了确保数据湖中的数据处理效率,选择合适的存储格式至关重要。
ApacheHudi
2024-02-27
1450
滴滴OLAP的技术实践与发展方向
导读本次分享题目为StarRocks物化视图在滴滴的实践,由来自滴滴出行的资深开发工程师刘雨飞老师带来经验分享。
ApacheHudi
2024-02-06
2150
LakeHouse 还是 Warehouse?(1/2)
Onehouse 创始人/首席执行官 Vinoth Chandar 于 2022 年 3 月在奥斯汀数据委员会[1]发表了这一重要演讲。奥斯汀数据委员会是“世界上最大的独立全栈数据会议”,这是一个由社区驱动的活动,包括数据科学、数据工程、分析、机器学习 (ML)、人工智能 (AI) 等。
ApacheHudi
2024-01-23
1480
通用数据湖仓一体架构正当时
这篇博文中提出的建议并不新鲜。事实上许多组织已经投入了数年时间和昂贵的数据工程团队的工作,以慢慢构建这种架构的某个版本。我知道这一点,因为我以前在Uber和LinkedIn做过这样的工程师。我还与数百个组织合作,在开源社区中构建它并朝着类似的目标迈进。
ApacheHudi
2024-01-17
1860
点击加载更多
社区活动
AI代码助手快速上手训练营
鹅厂大牛带你玩转AI智能结对编程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档