首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Apache Doris 3.1 重磅发布:半结构化与湖仓一体的飞跃升级

Apache Doris 3.1 重磅发布:半结构化与湖仓一体的飞跃升级

作者头像
数据极客圈
发布2025-11-12 12:58:37
发布2025-11-12 12:58:37
130
举报

亲爱的小伙伴们,大数据分析领域的又一重磅消息来袭!Apache Doris 3.1 版本正式发布啦,这一版本堪称是 Doris 发展历程中的又一里程碑,为广大用户带来了众多令人惊喜的新特性与优化,赶紧跟着我们一起来先睹为快!

一、半结构化分析,迎来里程碑式革新

在大数据时代,数据结构愈发复杂,半结构化数据的处理需求与日俱增。Doris 3.1 版本敏锐捕捉到这一趋势,在 VARIANT 类型上实现了重大突破。

(一)稀疏列能力,轻松驾驭数万子列

以往面对 “超宽表” 场景,传统 OLAP 数据库常常因元数据膨胀、合并放大等问题,导致查询性能退化。但在 Doris 3.1 中,新增的稀疏列能力为这一难题提供了完美解决方案。通过该能力,VARIANT 类型能够轻松应对包含数万子列的复杂场景,将可维护的列数上限大幅提升。在实际应用中,像车联网、IoT 遥测这类设备型号众多、传感器维度频繁动态增减的场景,以及营销自动化、CRM 系统中事件和用户属性持续扩展的情况,Doris 3.1 的稀疏列能力都能大显身手,稳定支撑业务数据的高效存储与查询,避免元数据与索引的指数级膨胀,确保查询与合并延迟更加平滑。

(二)模板化 schema,兼顾性能与灵活性

Doris 3.1 还创新性地在 VARIANT 类型上引入模板化 schema 能力。这一特性让 VARIANT 类型在关键路径上实现了查询加速、索引稳定性增强,同时成本也得到有效控制,且丝毫未丢失其灵活性。用户可以根据实际业务需求,灵活定制模板,使得数据存储与查询更加贴合业务场景,显著提升半结构化数据的分析效率。

(三)倒排索引升级,搜索能力全面进化

在倒排索引方面,Doris 3.1 版本引入了 index v3 版本的索引格式,相较于 v2 版本,存储空间节省可达 20%,大大降低了存储成本。不仅如此,新版本还支持了更为丰富的分词手段,新增了 ICU Tokenizer、IK Tokenizer 和 Basic Tokenizer 三种分词器,并且进一步支持自定义分词器。这意味着用户能够突破内置分词器的局限,根据自身业务场景定制分词规则,从而显著提升搜索召回率。无论是在全文检索场景,还是在需要精准匹配特定关键词的业务中,Doris 3.1 的倒排索引升级都将为用户带来更出色的搜索体验。

二、湖仓一体,能力再上新台阶

随着企业数据架构逐渐向湖仓一体演进,Doris 3.1 版本也在这一领域实现了显著增强,为用户搭建起湖与仓之间的高效桥梁。

(一)异步物化视图,贯通湖仓数据

在 3.1 版本中,Apache Doris 将异步物化视图中的分区构建和透明改写分区补偿这两项关键能力引入数据湖。自 2.1 版本支持异步物化视图功能以来,经过多个版本的不断打磨,如今的异步物化视图已经支持了众多有价值的特性。而在 3.1 版本中,更是重点针对湖仓一体方向进行优化,全面支持主流数据湖表格式 Paimon、Iceberg、Hudi 的分区刷新以及透明改写时的外部数据源分区补偿,使得 Doris 能够成为联通湖和仓的高速公路,极大提升了数据在湖仓之间的流动与分析效率。

(二)Iceberg 与 Paimon,特性支持再扩充

  1. Iceberg 功能升级:3.1.0 版本针对 Iceberg 表格式进行了多项优化与能力增强。原生支持 Iceberg Branch & Tag 的创建、删除、读取与写入操作,用户可以像使用 Git 一样轻松管理 Iceberg 表数据,为多版本并行管理、灰度测试、环境隔离等业务场景提供了强大支持。同时,新增对 Iceberg 逻辑视图的访问和查询能力,并支持通过ALTER TABLE语句对 Iceberg 表进行字段的新增、删除、重命名和重排序操作,进一步完善了 Doris 对 Iceberg 表的管理功能,用户无需再借助第三方引擎即可轻松完成表管理工作。此外,Iceberg 的依赖版本也升级到 1.9.2,以更好地支持新功能。
  2. Paimon 功能更新:对于 Paimon 表格式,3.1.0 版本同样结合用户实际场景进行了诸多功能更新。支持读取 Paimon 表指定两个快照之间的增量数据,增强了用户对增量数据的访问能力,尤其在增量物化视图构建方面发挥了重要作用。同时,支持对 Paimon 表的 Branch / Tag 进行读取,方便用户灵活访问多版本数据。此外,还提供了丰富的 Paimon 系统表支持,如manifests、tags、snapshots等,用户可通过SELECT * FROM partition_tablefiles等语句直接查询 Paimon 的底层元数据信息,为表的探测、调试和优化提供了极大便利,依赖版本也升级到 1.1.1。

(三)性能优化,数据湖查询更高效

在数据湖查询性能方面,Doris 3.1.0 版本进行了深度优化。引入动态分区裁剪功能,在多表关联查询场景下,能够根据右表数据生成分区列谓词,有效减少数据扫描范围;同时采用批量分片执行技术,在特定场景下将数据湖查询性能提升多达 40%,并显著降低了 FE 的内存占用。此外,重构了各个数据源的连接属性,不仅使对接各类元数据服务和数据存储系统的方式更加清晰,还支持了更为丰富的连接能力,为用户提供了更加稳定、高效的数据湖分析体验。

三、存储引擎,持续打磨优化

(一)灵活列更新,数据更新更自由

Doris 3.1 提供了全新的数据更新方式 —— 灵活列更新。在部分列更新的基础上,进一步放开限制,允许在一次导入中针对每一行更新不同的列。这一特性为用户在处理数据更新需求时提供了更大的灵活性,能够更好地适应复杂业务场景下的数据变更需求。

(二)存算分离优化,高并发导入更流畅

在存算分离场景下,Doris 3.1 对 MOW 表部分链路的锁获取逻辑和使用范围进行了优化,有效提升了高并发导入场景下的使用体验。通过这些优化措施,系统能够在高并发环境下更加稳定、高效地运行,确保数据导入的及时性与准确性。

四、性能优化,全面提升查询效率

(一)分区裁剪与规划性能优化

3.1 版本着重优化了分区裁剪能力和规划性能。在面对数万分区和复杂分区过滤表达式的场景时,能够显著提升查询性能,降低资源消耗。通过更加智能的分区裁剪策略,系统能够快速定位所需数据,减少不必要的数据扫描,从而实现查询效率的大幅提升。

(二)基于数据特征的优化手段

在优化器中,Doris 3.1 全面引入基于数据特征的优化手段。根据数据的分布、基数等特征,优化器能够生成更加高效的执行计划,在特定场景下可获得超过 10 倍的性能提升。这一优化手段使得 Doris 在处理不同类型数据时,都能充分发挥其性能优势,为用户提供更加快速、准确的查询结果。

还等什么呢?赶紧下载体验 Apache Doris 3.1 版本,体验更快更好的Doris吧!

往期推荐

Doris BE节点下线卡住?快速排障技巧全攻略!

Apache Doris 索引的全面剖析与使用指南

Apache Doris 湖仓一体:打破数据边界,解锁实时分析的终极答案

Doris vs ClickHouse 企业级实时分析引擎怎么选?

Doris查询报错-230?别慌,教你几招秒解!

Doris Tablet 损坏如何应对?能恢复数据吗?

Doris 导入慢该如何排查和优化

Doris 建表与分区问题全解析

数据极客圈子介绍

圈子1

Apache Doris社区是目前国内最活跃的开源社区(之一)。Apache Doris(Apache 顶级项目) 聚集了世界全国各地的用户与开发人员,致力于打造一个内容完整、持续成长的互联网开发者学习生态圈!

如果您对Apache Doris感兴趣,可以通过以下入口访问官方网站、社区论坛、GitHub和dev邮件组:

💡官网文档:https://doris.apache.org

💡社区论坛:https://ask.selectdb.com

💡GitHub:https://github.com/apache/doris

💡dev邮件组:dev@doris.apache.org

可以加作者微信(Faith_xzc)直接进Doris官方社区群

圈子2

PowerData是由一群数据从业人员,因为热爱凝聚在一起,以开源精神为基础,组成的数据开源社区。

社区群内会定期组织模拟面试、线上分享、行业研讨、线下Meetup、城市聚会、求职内推等活动,同时在社区群内你可以进行技术讨论、问题请教,结识更多志同道合的数据朋友。

社区整理了一份每日一题汇总及社区分享PPT,内容涵盖大数据组件、编程语言、数据结构与算法、企业真实面试题等各个领域,帮助您提升自我,成功上岸。

可以加作者微信(Faith_xzc)直接进PowrData官方社区群

叮咚✨ “数据极客圈” 向你敞开大门,走对圈子跟对人,行业大咖 “唠” 数据,实用锦囊天天有,就缺你咯!快快关注数据极客圈,共同成长!

点击上方公众号关注我们

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-09-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据极客圈 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、半结构化分析,迎来里程碑式革新
    • (一)稀疏列能力,轻松驾驭数万子列
    • (二)模板化 schema,兼顾性能与灵活性
    • (三)倒排索引升级,搜索能力全面进化
  • 二、湖仓一体,能力再上新台阶
    • (一)异步物化视图,贯通湖仓数据
    • (二)Iceberg 与 Paimon,特性支持再扩充
    • (三)性能优化,数据湖查询更高效
  • 三、存储引擎,持续打磨优化
    • (一)灵活列更新,数据更新更自由
    • (二)存算分离优化,高并发导入更流畅
  • 四、性能优化,全面提升查询效率
    • (一)分区裁剪与规划性能优化
    • (二)基于数据特征的优化手段
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档