首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >lmdeploy v0.12.1 最新版本发布!全面支持glm-4.7-flash,优化Qwen3系列模型与Transformers v5兼容性,稳定性与性能双提升!

lmdeploy v0.12.1 最新版本发布!全面支持glm-4.7-flash,优化Qwen3系列模型与Transformers v5兼容性,稳定性与性能双提升!

作者头像
福大大架构师每日一题
发布2026-03-04 19:42:05
发布2026-03-04 19:42:05
340
举报
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

近日,lmdeploy v0.12.1版本正式发布!这一版本不仅在功能上实现了重要突破,还在性能优化与Bug修复方面带来了全面升级,标志着lmdeploy框架在大模型部署与推理领域迈出了坚实一步。以下为本次更新的详细内容。


🚀 新功能(Features)

在v0.12.1中,新增了几个关键功能:

  • 支持glm-4.7-flash:新增对glm-4.7-flash模型的全面支持,为用户提供更高效的推理体验。
  • Ascend平台支持EP:正式支持Ascend平台的EP运行模式,提升在华为昇腾硬件上的兼容和性能表现。

💥 改进(Improvements)

性能与兼容性方面进行了多项优化:

  • 修复Transformers v5的rotary embedding兼容问题:有效解决了在新版transformers中旋转嵌入异常的问题,提升模型稳定性。
  • 改进指标日志(metrics log)输出:优化指标记录与性能监控机制,使调试与性能评估更直观。
  • 支持Qwen3模型量化配置中忽略特定层:进一步增强Qwen3模型的量化灵活性,方便开发者自定义量化策略。
  • 新增自定义noaux kernel:提升系统可扩展性和内核处理能力。
  • 修复Qwen3-VL与Transformers v5兼容问题:保证视觉语言模型在最新Transformers环境下的兼容与稳定运行。

🐞 Bug修复(Bug fixes)

本次版本修复了多个关键问题,有效提升系统的稳定性与可靠性:

  • • 修复工具调用解析器的流式游标问题。
  • • 解决TP模式下引导解码的并发竞争问题。
  • • 修复FA3检查逻辑。
  • • 修复时间序列预处理中出现的异常。
  • • 修复Attention算子中负KV序列长度错误。
  • • 修复Qwen3-VL-MOE模型在长上下文场景下的不稳定问题。
  • • 优化smooth quant逻辑,将量化后的norm移至CPU,避免旧q_linear引用问题。
  • • 更新noaux-kernel检查机制,提升内核稳定性。

🌐 其他更新(Other)

在系统环境与文档方面也进行了更新:

  • 输入CUDA版本调整为12.6.2,适配最新CUDA环境,提高兼容性。
  • 在llm_compressor.md中新增Qwen3-8B精度评估,为开发者提供更全面的参考指标。
  • 重构CI测试用例,提升持续集成的稳定性与效率。
  • 设置interns1_1为interns1_pro别名,简化模型调用配置。
  • Docker构建优化:在使用CU13环境时自动跳过FA2组件,提高构建灵活性。
  • • 最后,版本号正式升级至v0.12.1

📦 更新概览

  • 共计12位贡献者参与本次版本迭代
  • 提交次数:21次
  • 文件改动:150处

🔧 总结

代码地址:github.com/InternLM/lmdeploy

lmdeploy v0.12.1版本专注于多平台适配、模型兼容性提升高稳定性优化。此次更新不仅扩展了对新模型(如glm-4.7-flash、Qwen3-VL)的支持,还在性能日志、量化策略、内核执行方面实现了更高层次的优化。对于开发者而言,这一版本无疑是当前最值得升级的版本之一。

·


我们相信人工智能为普通人提供了一种“增强工具”,并致力于分享全方位的AI知识。在这里,您可以找到最新的AI科普文章、工具评测、提升效率的秘籍以及行业洞察。 欢迎关注“福大大架构师每日一题”,发消息可获得面试资料,让AI助力您的未来发展。

·

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-02-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 福大大架构师每日一题 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 🚀 新功能(Features)
  • 💥 改进(Improvements)
  • 🐞 Bug修复(Bug fixes)
  • 🌐 其他更新(Other)
  • 📦 更新概览
  • 🔧 总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档