首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >菜鸟的 Doris 成长记:从300核到上万核,成本降90%!

菜鸟的 Doris 成长记:从300核到上万核,成本降90%!

作者头像
一臻数据
发布2025-11-17 16:20:15
发布2025-11-17 16:20:15
300
举报
文章被收录于专栏:一臻数据一臻数据

见字如面,我是一臻

菜鸟作为全球最大的物流网络之一,每天处理着8000万个快递包裹,平均6000万月活用户在菜鸟APP上查看物流信息,以及200多个国家和地区的物流数据、1100多个仓库的实时库存变化、订单状态的频繁更新。 传统的数据库系统在这种压力下,随时可能趴窝。 经过最近 2 年的优化和迭代,Doris 已经逐步变成菜鸟在 OLAP 上的最优选型...

初试锋芒:300核小集群的惊艳表现

在那2年多里,最让人印象深刻的是验证阶段的那个场景。

菜鸟选择了最核心的包裹生产进度场景来做测试,这个场景涉及多张亿级别大表的Join操作,对稳定性要求极高。如果连这个最难啃的骨头都能搞定,其他场景就不在话下了。

结果让所有人都大跌眼镜。

图片
图片

Doris的表现简直可以用惊艳来形容:点查场景的QPS达到1000-2000,查询响应时间稳定在几十毫秒到200毫秒之间;复杂的多表关联聚合查询一般在1秒内返回结果,即使是最复杂的场景也能在4-5秒内完成。

更让人惊叹的是,成本直接降低了90%,平均响应时间降低了72%

当时负责测试的工程师反复确认了好几遍?生怕是看花了眼?

但事实就是如此,Doris的MOW(Merge-on-Write)模式配合Delete Bitmap + Primary Index技术架构,在处理菜鸟这种高频更新的物流数据时,展现出了传统OLAP系统无法比拟的优势。

物流行业的数据有个特点,就是更新频繁但TPS相对不高,单表字段数却很多,通常有300-400个字段。订单从创建到配送完成,状态要经历十几次变更;库存数据需要实时反映商品的入库、出库、调拨情况;包裹的物流轨迹更是需要秒级更新。

传统的Copy-on-Write机制在面对这种场景时,就像一个笨重的大象,动作缓慢且资源消耗巨大。而Doris的LSM tree数据组织方式和主键索引优化,让数据写入后可以在秒级内可见,查询时直接跳过已标记删除的数据行,无需实时计算删除逻辑。

2023年双11,菜鸟的第一个Doris小集群(只有300多核)成功扛住了大促的考验。那一刻,整个技术团队都松了一口气,但这只是开始,真正的挑战在于大规模迁移。

攻坚克难:从验证到万核规模的华丽转身

迁移过程中遇到的问题比预想的要复杂。

图片
图片

语法兼容性问题、数据导出的中文乱码、全量数据同步的稳定性...每一个问题都需要团队花费大量精力去解决。

图片
图片

最头疼的是多值列的语法支持,业务场景中大量使用指定分隔符拼接的字符串,用户可以任意匹配分隔后的一个或多个值。原有存储有明确的数据类型和语法支持,但Doris最初还不支持这种场景。

大家很清楚,如果迁移成本过高,业务方可能不会配合,不能让业务方改写所有的SQL。最终,团队在倒排索引分词器的基础上增加了指定分隔符分词并构建倒排索引的能力,完美解决了这个问题。

类似的技术攻关还有很多,比如数据导出时的编码问题,团队通过在输出流中增加BOM头标记来解决中文乱码问题...

2024年11月,菜鸟首次用大规模Doris集群征战双11。

那几天,菜鸟团队的心情可能就像坐过山车,既兴奋又紧张。

但结果证明了所有的努力都是值得的:25个集群遍布3个地域,日常上万核的规模,整个迁移过程未发生一起线上故障

运维升级:从人肉操作到一键自动化

图片
图片

更让人惊喜的是Doris在菜鸟运维方面的表现。

传统的人肉运维方式在面对频繁的大促扩缩容需求时,不仅效率低下,还容易出错。

图片
图片

菜鸟团队将Doris集群的创建、扩容、缩容等流程完全自动化,通过workflow的方式编排所有核心流程。现在创建一个集群只需要选择地域和规格,10分钟就能完成初始化并交付给业务方使用。

这不得感慨几番:以前每次大促前可能都要加班到深夜做扩容,现在点几下鼠标就搞定了?这种自动化运维能力不仅提升了效率,更重要的是降低了人为操作失误的风险。

其中,BadSQL治理也是一个有趣的话题。

图片
图片

在OLAP数据库中,BadSQL就像定时炸弹,随时可能影响集群稳定性。

菜鸟团队通过流量打标的方式,为每个查询都贴上了身份证,一旦出现问题可以快速定位到SQL的来源和使用场景。配合Doris的SQL Block Rule和一键Kill Query的功能,可以实现BadSQL的快速精准阻断,将影响范围控制在最小...

诸如此类,还有很多,可细读引文:Apache Doris 在菜鸟的大规模湖仓业务场景落地实践

结语

回顾这2年多Doris相伴的成长之路,不知菜鸟技术团队会不会有这样的感受:选择比努力更重要

现在的菜鸟,每天8000万个包裹的处理背后,都有Doris在默默支撑。从补货业务的秒级决策,到库存管理的实时更新,再到物流轨迹的准确追踪,Doris已经成为菜鸟数据基础设施中不可或缺的一部分。

图片
图片

未来,也将探索更多的可能性:存算分离、湖仓一体、同城容灾、运维底座...

在这个数据驱动的时代,每一个技术决策都可能改变企业的命运,而菜鸟的这次选择,无疑是正确的。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-09-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 一臻数据 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 初试锋芒:300核小集群的惊艳表现
  • 攻坚克难:从验证到万核规模的华丽转身
  • 运维升级:从人肉操作到一键自动化
  • 结语
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档