首页
学习
活动
专区
工具
TVP
发布

ApacheHudi

专栏成员
195
文章
250161
阅读量
49
订阅数
降本增效!Notion数据湖构建和扩展之路
在过去三年中,由于用户和内容的增长,Notion 的数据增长了 10 倍,以 6-12 个月的速度翻了一番。要管理这种快速增长,同时满足关键产品和分析用例不断增长的数据需求,尤其是我们最近的 Notion AI 功能,意味着构建和扩展 Notion 的数据湖。以下来介绍我们是如何做到的。
ApacheHudi
2024-07-26
1000
Apache Doris + Apache Hudi 快速搭建指南
在过去多个版本中,Apache Doris 持续加深与数据湖的融合,当前已演进出一套成熟的湖仓一体解决方案。
ApacheHudi
2024-07-16
1840
Apache Hudi 背后商业公司 Onehouse 宣布3500万美元 B 轮融资
加利福尼亚州桑尼维尔,2024 年 6 月 26 日 - 通用数据湖仓一体公司 Onehouse 今天宣布已获得由 Craft Ventures 领投的 3500 万美元 B 轮融资。现有投资者 Addition 和 Greylock Partners 参与了新一轮融资,迄今为止的总融资额达到 6800 万美元。
ApacheHudi
2024-07-15
1070
Apache Hudi从零到一:关于写入索引的一切(四)
写入端索引抽象在 HoodieIndex 定义。我将在下面介绍一些关键的 API,以便大致了解索引的含义。
ApacheHudi
2024-07-04
1710
Apache Hudi 0.15.0 版本发布
此版本保留与 0.14.0 版本相同的表版本 (6),如果从 0.14.0 升级,则无需升级表版本。有一些模块和 API 更改以及行为更改,如下所述,用户在使用 0.15.0 版本之前应采取相应的操作。
ApacheHudi
2024-07-04
3230
Apache Hudi - 我们需要的开放数据湖仓一体平台
毋庸置疑,Hudi 是一个非常成功和有影响力的开源项目,它已经为许多公司提供了 7+ 年,在云上管理多个 EB。但考虑到我们所处的位置以及市场上人为的双头垄断叙事,很高兴看到一些数据来获得观点。
ApacheHudi
2024-06-21
2160
数据湖在快手的应用实践
快手业务发展迅速,对数据精细化运营的要求越来越高。随之而来,数仓的数据模型持续快速增长。这带来了两个主要问题:
ApacheHudi
2024-06-21
1430
基于 XTable 的 Dremio Lakehouse分析
这种开放性和灵活性的方法使数据存储和使用方式发生了转变。如今,客户可以选择在云对象存储(如 Amazon S3、Microsoft Azure Blob Storage或 Google Cloud Storage)中以开放表格式存储数据。数据由数据所有者全资拥有和管理,并保存在其安全的 Virtual Private Cloud (VPC) 帐户中。用户可以为其工作负载提供正确类型的查询引擎,而无需复制数据。这创建了一个面向未来的架构,可以在需要时将新工具添加到技术栈中。
ApacheHudi
2024-06-08
1640
超硬核解析Apache Hudi 的一致性模型(第三部分)
在第 1 部分中,我们构建了一个逻辑模型,用于说明写入时复制表在 Apache Hudi 中的工作方式,并提出了许多关于并发控制类型、时间戳单调性等方面的一致性问题。在第 2 部分中,我们研究了时间戳冲突、它们的概率以及如何避免它们(并符合 Hudi 规范)。在第 3 部分中,我们将重点介绍模型检查 TLA+ 规范的结果,并回答这些问题。
ApacheHudi
2024-05-29
1380
使用 Apache Hudi + Daft + Streamlit 构建 Lakehouse 分析应用
为了应对这些挑战,像 Streamlit[1] 这样的低代码工具作为 Python 生态系统的包装器,允许将 API、模型和业务逻辑变为现实。Streamlit 支持从数据库、API 和文件系统等各种来源轻松使用数据,从而轻松集成到应用程序中。在这篇博客中,我们将重点介绍如何使用直接来自开放湖仓一体平台的数据来构建数据应用。
ApacheHudi
2024-05-20
1020
2024 年 4 月 Apache Hudi 社区新闻
https://github.com/apache/hudi/pull/10949
ApacheHudi
2024-05-10
1921
超硬核解析Apache Hudi 的一致性模型(第二部分)
同样 v5 Hudi 规范说,确保时间戳是单调的实现是实现者的责任。非单调时间戳违反了规范。即便如此,也需要了解多个写入端之间时间戳冲突的影响。
ApacheHudi
2024-05-10
1400
超硬核解析Apache Hudi 的一致性模型(第一部分)
Hudi 更复杂并不意味着 Iceberg 更好,只是需要更多的工作来内化设计。复杂性的一个关键原因是 Hudi 在核心规范中加入了更多功能。Iceberg 目前只是一种表格式,而 Hudi 是一种具有多种查询类型的完全成熟的托管表格式。如果精通 Delta Lake 内部结构,会发现 Hudi 的设计与 Delta Lake 的设计有许多相似之处。
ApacheHudi
2024-04-30
1900
揭秘Robinhood扩展和管理PB级规模Lakehouse架构
Robinhood 团队成员高级工程师 Balaji Varadarajan 和技术主管 Pritam Dey 描述了他们公司的数据Lakehouse的实现,Robinhood 的数据团队如何基于 Apache Hudi 和相关 OSS 服务来处理数 PB 规模的指数级增长。
ApacheHudi
2024-04-26
1370
Apache Hudi +MinIO + HMS构建现代数据湖
我们已经探索了[1] MinIO 和 Hudi 如何协同工作来构建现代数据湖。这篇博文旨在以这些知识为基础,提供一种利用 Hive Metastore 服务 (HMS[2]) 的 Hudi 和 MinIO 的替代实现。部分源于 Hadoop 生态系统的起源故事,Hudi 的许多大规模数据实现仍然利用 HMS。通常从遗留系统的迁移故事涉及某种程度的混合,因为要利用所涉及的所有产品中最好的产品来取得成功。
ApacheHudi
2024-04-18
2650
Apache Hudi从零到一:写入流程和操作(三)
在上一篇文章中,我们讨论了 Hudi 查询类型及其与 Spark 的集成。在这篇文章中,我们将深入研究另一个方面——写入流程,以 Spark 作为示例引擎。在写入数据时可以调整多种配置和设置。因此这篇文章的目的并不是作为完整的使用指南。相反主要目标是呈现内部数据流并分解所涉及的步骤。这将使读者更深入地了解运行和微调 Hudi 应用程序。各种实际使用示例请查阅Hudi的官方文档页面。
ApacheHudi
2024-04-11
4970
Uber 基于Apache Hudi的超级数据基础设施
Uber 是一个全球品牌,在全球 10,000 多个城市运营。该公司运营规模庞大,每月为超过 1.37 亿用户提供服务,每天为 2500 万次出行提供服务。数据驱动——乘客、司机和企业经营者采取的每一个行动。在如此规模的数据中,将所有这些活动的原始数据转化为业务洞察的技术挑战尤其困难,尤其是以高效且可靠的方式做到这一点。
ApacheHudi
2024-03-25
1520
从 POC 到生产!Leboncoin 基于 Apache Hudi 构建 Lakehouse 实践
每天约有 800 万独立访问者访问 Leboncoin,到 2022 年,该网站每月有超过 1000 亿次 HTTP 调用并且启动和运行 700 个应用程序,使其成为访问量最大的法国网站之一。
ApacheHudi
2024-03-18
1180
沃尔玛基于 Apache Hudi 构建 Lakehouse
开源数据峰会上最有趣的会议之一是三级数据工程师 Ankur Ranjan 和高级数据工程师 Ayush Bijawat 的演讲,介绍他们在领先零售商沃尔玛中使用 Apache Hudi。
ApacheHudi
2024-03-18
1020
金融信创湖仓一体数据平台架构实践
大数据基础设施的发展经历了四个主要阶段,每个阶段都有着标志性的技术进步来应对新的应用需求。
ApacheHudi
2024-03-18
2370
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档