学习
实践
活动
工具
TVP
写文章

ApacheHudi

LV1
举报
发表了文章

Apache Hudi vs Delta Lake:透明TPC-DS Lakehouse性能基准

最近几周,人们对比较 Hudi、Delta 和 Iceberg 的表现越来越感兴趣[1]。我们认为社区应该得到更透明和可重复的分析。我们想就如何执行和呈现这些基...

ApacheHudi
https网络安全Go腾讯云测试服务GitHub
发表了文章

详解Apache Hudi Schema Evolution(模式演进)

Schema Evolution(模式演进)允许用户轻松更改 Hudi 表的当前模式,以适应随时间变化的数据。从 0.11.0 版本开始,支持 Spark SQ...

ApacheHudi
spark编程算法
发表了文章

Apache Hudi数据跳过技术加速查询高达50倍

在 Hudi 0.10 中,我们引入了对高级数据布局优化技术的支持,例如 Z-order和希尔伯特空间填充曲线[1](作为新的聚类算法),即使在经常使用过滤器查...

ApacheHudi
https网络安全存储ApacheGitHub
发表了文章

深入理解Apache Hudi异步索引机制

在我们之前的文章中,我们讨论了多模式索引[1]的设计,这是一种用于Lakehouse架构的无服务器和高性能索引子系统,以提高查询和写入性能。在这篇博客中,我们讨...

ApacheHudi
网络安全https搜索引擎ApacheGitHub
发表了文章

腾讯广告业务基于Apache Flink + Hudi的批流一体实践

广告主和代理商通过广告投放平台来进行广告投放,由多个媒介进行广告展示 ,从而触达到潜在用户。整个过程中会产生各种各样的数据,比如展现数据、点击数据。其中非常重要...

ApacheHudi
数据处理编程算法JavaScript存储数据湖
发表了文章

基于TIS构建Apache Hudi千表入湖方案

随着大数据时代的到来,数据量动辄PB级,因此亟需一种低成本、高稳定性的实时数仓解决方案来支持海量数据的OLAP查询需求,Apache Hudi[1]应运而生。H...

ApacheHudi
大数据Flink数据库云数据库 SQL ServerSQL
发表了文章

超级重磅!Apache Hudi多模索引对查询优化高达30倍

与许多其他事务数据系统一样,索引一直是 Apache Hudi 不可或缺的一部分,并且与普通表格式抽象不同。在这篇博客中,我们讨论了我们如何重新构想索引并在 A...

ApacheHudi
https网络安全数据湖数据库SQL
发表了文章

Halodoc使用Apache Hudi构建Lakehouse的关键经验

Halodoc 数据工程已经从传统的数据平台 1.0 发展到使用 LakeHouse 架构的现代数据平台 2.0 的改造。在我们之前的博客中,我们提到了我们如何...

ApacheHudi
Apache数据湖文件存储Unix数据库
发表了文章

印尼医疗龙头企业Halodoc的数据平台转型之Lakehouse架构

在 Halodoc,我们始终致力于为最终用户简化医疗保健服务,随着公司的发展,我们不断构建和提供新功能。我们两年前建立的可能无法支持我们今天管理的数据量,以解决...

ApacheHudi
数据库数据迁移SQL数据迁移解决方案数据湖
发表了文章

Apache Hudi 0.11.0版本重磅发布!

在 0.11.0 中,我们默认为 Spark writer 启用具有同步更新的元数据表和基于元数据表的file listing,以提高在大型 Hudi 表上的分...

ApacheHudi
https网络安全spark打包HTML
发表了文章

印尼医疗龙头企业Halodoc的数据平台转型之路:基于Apache Hudi的数据平台V2.0

数据平台已经彻底改变了公司存储、分析和使用数据的方式——但为了更有效地使用它们,它们需要可靠、高性能和透明。数据在制定业务决策和评估产品或 Halodoc 功能...

ApacheHudi
数据湖编程算法UML存储Apache
发表了文章

KLOOK客路旅行基于Apache Hudi的数据湖实践

客路旅行(KLOOK)是一家专注于境外目的地旅游资源整合的在线旅行平台,提供景点门票、一日游、特色体验、当地交通与美食预订服务。覆盖全球100个国家及地区,支持...

ApacheHudi
Flink大数据Hive数据库SQL
发表了文章

印尼医疗龙头企业Halodoc的数据平台转型之路:数据平台V1.0

数据是每项技术业务的支柱,作为一个健康医疗技术平台,Halodoc 更是如此,用户可以通过以下方式与 Halodoc 交互:

ApacheHudi
数据湖数据库数据可视化数据结构SQL
发表了文章

Apache Hudi如何加速传统批处理模式?

在我们的用例中1-10% 是对历史记录的更新。当记录更新时,我们需要从之前的 updated_date 分区中删除之前的条目,并将条目添加到最新的分区中,在没有...

ApacheHudi
数据湖Apache
发表了文章

基于 Apache Hudi 构建增量和无限回放事件流的 OLAP 平台

在本博客中,我们将讨论在构建流数据平台时如何利用 Hudi 的两个最令人难以置信的能力。

ApacheHudi
WindowsKafkaUML
发表了文章

基于Apache Hudi在Google云平台构建数据湖

自从计算机出现以来,我们一直在尝试寻找计算机存储一些信息的方法,存储在计算机上的信息(也称为数据)有多种形式,数据变得如此重要,以至于信息现在已成为触手可及的商...

ApacheHudi
httpsKafka网络安全Apache
发表了文章

图文详解CDC技术,看这一篇就够了!

假设我们正在构建一个简单的 Web 应用程序。在大多数情况下,此类项目从最小的数据架构开始。例如,像 MySQL 或 PostgreSQL 这样的关系数据库足以...

ApacheHudi
数据库SQL存储
发表了文章

基于Apache Hudi和Debezium构建CDC入湖管道

当想要对来自事务数据库(如 Postgres 或 MySQL)的数据执行分析时,通常需要通过称为更改数据捕获[4] CDC的过程将此数据引入数据仓库或数据湖等 ...

ApacheHudi
网络安全https数据库SQL云数据库 PostgreSQL
发表了文章

Robinhood基于Apache Hudi的下一代数据湖实践

Robinhood 的使命是使所有人的金融民主化。Robinhood 内部不同级别的持续数据分析和数据驱动决策是实现这一使命的基础。我们有各种数据源——OLTP...

ApacheHudi
Apache数据湖数据库SQLKafka
发表了文章

Onehouse 对Apache Hudi开源社区的承诺

早些时候,我们宣布了我们的新公司 Onehouse,重磅!基于Apache Hudi的商业公司Onehouse成立,它提供了一个建立在 Apache Hudi(...

ApacheHudi
https网络安全开源数据湖Apache

个人简介

个人成就

扫码关注腾讯云开发者

领取腾讯云代金券