首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >从Presto跳槽到Doris后,湖仓一体省时又省力

从Presto跳槽到Doris后,湖仓一体省时又省力

作者头像
一臻数据
发布2025-11-17 16:25:37
发布2025-11-17 16:25:37
1790
举报
文章被收录于专栏:一臻数据一臻数据

见字如面,我是一臻

在大数据领域,数据湖查询引擎的选择对企业数据架构的效率和成本效益至关重要。 Apache Doris 和 Presto/Trino 作为主流的查询引擎,各自具备不同的架构设计和适用场景。 今天,我们就来相互vs一下。

Presto/Trino 专注于提供一个联邦查询引擎,擅长跨异构数据源进行查询,但其本身不包含存储层。

相比之下,Apache Doris 提供了一个融合数据仓库与数据湖查询能力的统一架构。这种设计既能作为独立的、高性能的数据仓库存在,也能高效查询外部数据湖,从而帮助企业简化技术栈,避免在多个系统之间进行选择和维护。

性能层面,两者存在显著差异。

Doris 基于 C++ 实现的全向量化执行引擎,在性能上通常优于主要基于 Java 实现的 Presto/Trino。

TPC-DS 1TB  Benchmark
TPC-DS 1TB Benchmark

根据 TPC-DS 1TB 基准测试结果,当直接查询外部 Hive 表时,Doris 的执行效率比 Presto/Trino 快2到3倍;而当数据导入 Doris 内部表时,其查询性能更是可以达到 Presto/Trino 的10倍以上

这种性能优势源于Doris更先进的查询优化器(CBO),该优化器能够更好地支持复杂查询,并利用完善的统计信息进行成本估算。

此外,Doris 内置了多层缓存机制,包括元数据缓存和数据缓存,有效减少了网络 I/O 和对外部存储系统(如 HDFS)的依赖,从而提升了查询的稳定性和响应速度。

Doris 的物化视图功能也更为成熟,支持增量刷新和查询透明加速,优化器能自动匹配最优物化视图,而 Presto 则需要手动进行全量刷新...

好比之前顺丰科技:自主研发的可视化数据自助分析工具“丰景台”,最初使用 Presto 作为查询引擎,但在大规模应用中遇到了查询速度慢、服务稳定性差、资源成本高昂以及场景局限等一系列挑战。Presto 的查询优化器在处理复杂查询时能力有限,且由于缺乏内置缓存,系统稳定性易受 HDFS I/O 抖动的影响。为解决这些问题,顺丰科技决定引入 Apache Doris 进行架构升级,并得到 提速3倍,成本降48% 的结果。

还有其它多家企业实践,也通过基于Apache Doris的架构升级后,有了不同程度的降本增效:

当下若还有客官问:选择 Presto/Trino 还是 Apache Doris,真就有点像是在问:是继续用一把万能但偶尔卡顿的瑞士军刀,还是换上一套为特定任务精雕细琢、锋利无比的专业工具?

Doris 凭借其“快、准、狠”的统一湖仓架构,正在成为许多数据团队的“新宠”。它用全向量化引擎、智能优化器和多层缓存这些工艺,告别了查询慢、运维难的窘境...

如果你正头疼于如何简化架构、提升性能并控制成本,那么 Apache Doris 或许就是那个能让你“鱼与熊掌兼得”的答案吧。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-09-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 一臻数据 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档