首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

lmdeploy v0.7.3 震撼发布!支持 Qwen3/DeepSeekV2/Llama4,性能碾压 Ollama/VLLM

LMDeploy(由InternLM团队开发的高效推理引擎)迎来v0.7.3版本,带来多项重磅升级!本次更新不仅新增了对Qwen3、Qwen3MoE、DeepSeekV2、Llama4等热门模型的支持,还在Ascend NPU上优化了8bit 量化推理(W8A8),并大幅提升MOE(混合专家)模型的推理效率!

核心更新亮点

1. 新模型支持

Qwen3 & Qwen3MoE:通义千问最新开源模型,MoE 架构性能更强!

DeepSeekV2:深度求索的高效大模型,推理速度再升级!

Llama4:Meta 新一代开源模型,LMDeploy 率先适配!

2. Ascend NPU 优化

• 支持W8A8 低精度推理,显著降低显存占用!

QwenVL2.5支持Graph 模式,推理速度更快!

MOE 模型优化,Ascend 平台性能提升!

3. 功能增强

交互式 API支持spaces_between_special_tokens,优化特殊 token 处理。

动态端口检测,避免端口冲突问题。

Dynamo 模式修复,提升 PyTorch 兼容性。

4. Bug 修复

• 修复finish_reason返回错误问题。

• 优化MLP 激活计算,减少显存占用。

• 修复Qwen3MoE 配置解析问题。

LMDeploy vs. Ollama vs. VLLM:谁更强?

结论

LMDeploy国产芯片(Ascend)优化MOE 模型支持上优势明显,适合企业级部署。

Ollama适合个人开发者快速体验模型,但功能较简单。

VLLMGPU 高并发推理上表现优秀,但缺少 NPU 支持。

如何体验?

pip install lmdeploy==0.7.3

或参考官方文档:https://github.com/InternLM/lmdeploy

·

欢迎关注“福大大架构师每日一题”,让AI助力您的未来发展。

·

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O4r0Ljzyvit-Mx_fC2PLHlzg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券