ApacheHudi

LV1
发表了文章

提升50%+!Presto如何提升Hudi表查询性能?

分享一篇关于使用Hudi Clustering来优化Presto查询性能的talk

ApacheHudi
发表了文章

在AWS Glue中使用Apache Hudi

AWS Glue是Amazon Web Services(AWS)云平台推出的一款无服务器(Serverless)的大数据分析服务。对于不了解该产品的读者来说,...

ApacheHudi
发表了文章

致广大数据湖用户的一封信

随着数据湖概念的流行,涌现了很多关于Apache Hudi的文章,但很多文章在阐述时仅仅将Hudi当做一种表格式,这引发了社区的思考,思考Hudi的愿景到底是什...

ApacheHudi
发表了文章

Apache Hudi在Linkflow构建实时数据湖的生产实践

Linkflow 作为客户数据平台(CDP),为企业提供从客户数据采集、分析到执行的运营闭环。每天都会通过一方数据采集端点(SDK)和三方数据源,如微信,微博等...

ApacheHudi
发表了文章

Apache Hudi 0.8.0版本重磅发布

自从Hudi 0.7.0版本支持Flink写入后,Hudi社区又进一步完善了Flink和Hudi的集成。包括重新设计性能更好、扩展性更好、基于Flink状态索引...

ApacheHudi
发表了文章

一文彻底掌握Apache Hudi的主键和分区配置

Hudi中的每个记录都由HoodieKey唯一标识,HoodieKey由记录键和记录所属的分区路径组成。基于此设计Hudi可以将更新和删除快速应用于指定记录。H...

ApacheHudi
发表了文章

Apache Flink 1.12.2集成Hudi 0.9.0运行指南

•下载Flink 1.12.2包:https://mirrors.tuna.tsinghua.edu.cn/apache/flink/flink-1.12.2/...

ApacheHudi
发表了文章

干货!Apache Hudi如何智能处理小文件问题

Apache Hudi是一个流行的开源的数据湖框架,Hudi提供的一个非常重要的特性是自动管理文件大小,而不用用户干预。大量的小文件将会导致很差的查询分析性能,...

ApacheHudi
发表了文章

查询时间降低60%!Apache Hudi数据布局黑科技了解下

Apache Hudi将流处理带到大数据,相比传统批处理效率高一个数量级,提供了更新鲜的数据。在数据湖/仓库中,需要在摄取速度和查询性能之间进行权衡,数据摄取通...

ApacheHudi
发表了文章

Apache Hudi 0.7.0版本重磅发布

0.7.0版本中支持了对Hudi表数据进行Clustering(对数据按照数据特征进行聚簇,以便优化文件大小和数据布局),Clustering提供了更灵活地方式...

ApacheHudi
发表了文章

Lakehouse: 统一数据仓库和高级分析的新一代开放平台

数仓架构在未来一段时间内会逐渐消亡,会被一种新的Lakehouse架构取代,该架构主要有如下特性

ApacheHudi
发表了文章

实战 | Apache Hudi回调功能简介及使用示例

从0.6.0版本开始,Hudi开始支持 commit 回调功能,即每当Hudi成功提交一次 commit, 其内部的回调服务就会向外部系统发出一条回调信息,用户...

ApacheHudi
发表了文章

Apache Hudi + Flink作业运行指南

近日Apache Hudi社区合并了Flink引擎的基础实现(HUDI-1327),这意味着 Hudi 开始支持 Flink 引擎。有很多小伙伴在交流群里咨询 ...

ApacheHudi
发表了文章

最佳实践 | 通过Apache Hudi和Alluxio建设高性能数据湖

T3出行的杨华和张永旭描述了他们数据湖架构的发展。该架构使用了众多开源技术,包括Apache Hudi和Alluxio。在本文中,您将看到我们如何使用Hudi和...

ApacheHudi
发表了文章

Apache Hudi初学者指南

客户在使用数据湖时通常会问一个问题:当源记录被更新时,如何更新数据湖?这是一个很难解决的问题,因为一旦你写了CSV或Parquet文件,唯一的选择就是重写它们,...

ApacheHudi
发表了文章

假期结束还没缓过神?Hudi on Flink最新进展了解下?

Apache Hudi是由Uber开发并开源的数据湖框架,它于2019年1月进入Apache孵化器孵化,次年5月份顺利毕业晋升为Apache顶级项目。是当前最为...

ApacheHudi
发表了文章

Apache Hudi和Presto的前世今生

一篇由Apache Hudi PMC Bhavani Sudha Saktheeswaran和AWS Presto团队工程师Brandon Scheller分享...

ApacheHudi
发表了文章

Apache Hudi 异步Compaction部署方式汇总

对于Merge-On-Read表,数据使用列式Parquet文件和行式Avro文件存储,更新被记录到增量文件,然后进行同步/异步compaction生成新版本的...

ApacheHudi
发表了文章

Apache Hudi 0.6.0版本重磅发布

hddong, xushiyan, wangxianghu, shenh062326, prashantwason, bvaradar, vinothchand...

ApacheHudi
发表了文章

详解Apache Hudi如何配置各种类型分区

Apache Hudi支持多种分区方式数据集,如多级分区、单分区、时间日期分区、无分区数据集等,用户可根据实际需求选择合适的分区方式,下面来详细了解Hudi如何...

ApacheHudi

个人简介

个人成就

扫码关注云+社区

领取腾讯云代金券