暂无搜索历史
Hudi 更复杂并不意味着 Iceberg 更好,只是需要更多的工作来内化设计。复杂性的一个关键原因是 Hudi 在核心规范中加入了更多功能。Iceberg 目...
Robinhood 团队成员高级工程师 Balaji Varadarajan 和技术主管 Pritam Dey 描述了他们公司的数据Lakehouse的实现,R...
我们已经探索了[1] MinIO 和 Hudi 如何协同工作来构建现代数据湖。这篇博文旨在以这些知识为基础,提供一种利用 Hive Metastore 服务 (...
在上一篇文章中,我们讨论了 Hudi 查询类型及其与 Spark 的集成。在这篇文章中,我们将深入研究另一个方面——写入流程,以 Spark 作为示例引擎。在写...
Uber 是一个全球品牌,在全球 10,000 多个城市运营。该公司运营规模庞大,每月为超过 1.37 亿用户提供服务,每天为 2500 万次出行提供服务。数据...
每天约有 800 万独立访问者访问 Leboncoin,到 2022 年,该网站每月有超过 1000 亿次 HTTP 调用并且启动和运行 700 个应用程序,使...
开源数据峰会上最有趣的会议之一是三级数据工程师 Ankur Ranjan 和高级数据工程师 Ayush Bijawat 的演讲,介绍他们在领先零售商沃尔玛中使用...
大数据基础设施的发展经历了四个主要阶段,每个阶段都有着标志性的技术进步来应对新的应用需求。
这篇博文是由 Notion 数据平台团队的软件工程师 Thomas Chow 和 Nathan Louie 于 2023 年 12 月 13 日发表的题为 No...
在数据处理领域,数据分析师在数据湖上运行其即席查询。数据湖充当分析和生产环境之间的接口,可防止下游查询影响上游数据引入管道。为了确保数据湖中的数据处理效率,选择...
导读本次分享题目为StarRocks物化视图在滴滴的实践,由来自滴滴出行的资深开发工程师刘雨飞老师带来经验分享。
Onehouse 创始人/首席执行官 Vinoth Chandar 于 2022 年 3 月在奥斯汀数据委员会[1]发表了这一重要演讲。奥斯汀数据委员会是“世界...
这篇博文中提出的建议并不新鲜。事实上许多组织已经投入了数年时间和昂贵的数据工程团队的工作,以慢慢构建这种架构的某个版本。我知道这一点,因为我以前在Uber和Li...
在上一篇文章中,我们讨论了 Hudi 表中的数据布局,并介绍了 CoW 和 MoR 两种表类型,以及它们各自的权衡。在此基础上我们现在将探讨 Hudi 中的读取...
Hudi 是一个事务性数据湖平台,它将数据库和数据仓库功能引入数据湖。下图摘自 Hudi 社区举办的网络研讨会[1],清楚地说明了该平台的主要功能
火山引擎LAS 全称(Lakehouse Analysis Service)湖仓一体分析服务,融合了湖与仓的优势,既能够利用湖的优势将所有数据存储到廉价存储中,...
索引是一个关键组件,有助于 Hudi 写入端快速更新和删除,并且它在提高查询执行方面也发挥着关键作用。Hudi提供了多种索引类型,包括全局变化的Bloom索引和...
湖仓一体架构模式的两个关键支柱是开放性和互操作性。在云存储系统(如S3、GCS、ADLS)上构建数据湖仓,并将数据存储在开放格式中,提供了一个您技术栈中几乎每个...
在数字化转型驱动下,实时化需求日益成为金融业数据应用新常态。传统离线数仓“T+N”数据供给模式,难于满足“T+0”等高时效场景需求;依托Storm、Spark ...
Apache Hudi 0.14.0 标志着一个重要的里程碑,具有一系列新功能和增强功能。其中包括引入Record Level Index、自动生成记录键 、用...
暂未填写公司和职称
暂未填写个人简介
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市