首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >vLLM 0.12.0 重磅更新:whisper终于支持verbose_json 时间戳了

vLLM 0.12.0 重磅更新:whisper终于支持verbose_json 时间戳了

作者头像
井九
发布2025-12-19 11:24:08
发布2025-12-19 11:24:08
2450
举报
文章被收录于专栏:四楼没电梯四楼没电梯

vLLM 0.12.0 发布了。这次更新堪称一次“地基级”升级:从执行引擎到推理并行、从推理加速到多模态支持,全线都有显著改动。

以下我们从核心变化、主要特性、性能优化、API 更新到不兼容变更进行完整解读。

🔥 核心亮点(TL;DR)

  • GPU Model Runner V2:执行管线重写,结构更纯粹、采样更高效。
  • Prefill Context Parallel(PCP):解决长序列推理卡脖子问题。
  • EAGLE 推测解码增强:多步 CUDA Graph、DP>1、多模态通吃。
  • 多模态进一步扩展:支持 Qwen3VL、Gemma3 GGUF 等。
  • PyTorch 2.9 + CUDA 12.9:需要升级环境(Breaking)。
  • 大量 API 统一、性能优化、硬件适配扩展。

1. 核心引擎升级

1.1 GPU Model Runner V2:完全重写的推理执行管线

该版本最关键的变动,无疑是 GPU Model Runner V2(#25266)。

它带来的能力包括:

✔ 取消持久化 batch reordering

旧版每次 batch 变化时都要维护复杂结构,现在不需要了。

✔ 引入 GPU 持久化 Block Tables

解决 KV Cache 在大模型长度和 KV 分组数多时的扩展问题。

✔ Triton 原生采样器
  • 彻底摆脱“-1 temperature hack”
  • 每个请求独立种子
  • 内存更紧凑的 prompt logprobs
✔ 更易维护的分布式(DP)和 CUDA Graph 实现

整体架构变得更清晰,让未来扩展更容易。

✔ 更高效的结构化输出支持

对 JSON/工具调用等结构化生成进一步优化。

这是一次真正意义上的底层重构,而不是简单 patch。


1.2 Prefill Context Parallel(PCP)

长序列推理一向是大模型的“吞 GPU 黑洞”。

v0.12.0 带来了 PCP(Prefill Context Parallel)

  • prefill 阶段 按序列维度分片
  • 与之前的 DCP(Decode Context Parallel)形成互补
  • 对长上下文推理(比如 128k、256k token)提效显著

这是未来“长上下文时代”不可或缺的能力。


2. EAGLE 推测解码升级

vLLM 的推测解码(speculative decoding)路线持续推进。

2.1 Multi-step CUDA graph(#29559)

支持更复杂的 EAGLE 多步推理图,大幅提升吞吐。

2.2 DP > 1 支持(#26086)

推测解码可在数据并行中正常工作,扩展到大规模训练集群。

2.3 多模态支持(Qwen3VL)(#29594)

EAGLE 不再局限文本,现在连图文模型都能一起推测。

2.4 logprobs + 异步调度兼容(#29223)

提供结构化生成、对齐训练、工具调用更丰富的基础。


3. 模型生态扩展

这一版本新增大量新模型支持。

3.1 新模型族

  • PLaMo-3
  • OpenCUA-7B
  • HunyuanOCR
  • Mistral Large 3 / Ministral 3

3.2 格式增强

  • Gemma3 GGUF 多模态支持

3.3 多模态优化

  • Qwen3 Omni 语音输入视频流
  • Qwen3VL 的 Eagle3 多模态图支持
  • QwenVL cos/sin cache 优化(性能收益)

vLLM 已从“文本推理框架”快速演化为“多模态推理平台”。


4. 性能优化(NVIDIA / AMD / CPU)

4.1 NVIDIA GPU 侧优化

主要包括:

  • DeepSeek V3.1:BMM 优化带来 18.1% 吞吐提升10.7% TTFT 优化
  • FlashInfer DeepGEMM 重叠:2%+ 提升
  • DeepEP MoE 管线优化
  • H200、NVFP4、MoE kernel 全线增强

特别对于 MoE 工作负载,多项优化叠加后收益明显。


4.2 AMD ROCm 侧支持增强

  • DeepSeek v3.2 / SparseMLA 支持
  • FP8 MLA decode
  • AITER sampling + backend
  • bitsandbytes 量化可在 AMD warp size 32 下工作
  • Whisper v1 with flash attention

AMD 生态的支持明显加速成熟。


4.3 CPU 侧优化

  • ARM NEON 优化 paged attention GEMM
  • int4 MoE 多线程 token 并行
  • DP>1 的 CPU all-reduce 优化

对于 CPU 主部署场景也能获得可观提升。


5. 量化(Quantization)扩展

vLLM 0.12.0 的量化更新非常多:

W4A8

  • Marlin kernel 支持

NVFP4

  • MoE CUTLASS kernel for SM120
  • TRTLLM NVFP4 kernel
  • CuteDSL DeepEP dispatch 支持
  • 非 gated 激活支持 modelopt 流程

AWQ

  • 支持 Turing GPU 上的压缩张量

LoRA

  • FusedMoE LoRA Triton kernel(MXFP4 后端)

Online Quant 迁移

  • 在线量化移动到 model.load_weights(),更统一。

6. API & 前端变化

✔ Responses API
  • 多轮对话支持非 Harmony 请求
  • reasoning item parsing (让 vLLM 更贴近 OpenAI 的 Response API 形态)
✔ Tool Calling
  • 已解析工具参数
  • parallel_tool_calls 参数
  • ToolServer 支持过滤 Tool
✔ Whisper
  • 支持 verbose_json 和时间戳 (用户长期期待)
✔ Sampling
  • Flat logprob 控制移动到 SamplingParams
✔ GGUF
  • repo_id:quant_type 的加载方式更友好
✔ Profiling
  • Torch/CUDA profiler 逐 iteration 分析
✔ 日志输出
  • 现在是彩色的

7. 不兼容变更(Breaking Changes)

强制升级:PyTorch 2.9 + CUDA 12.9

这是本次最关键的 breaking change,需要:

  • CUDA 12.9
  • PyTorch 2.9
  • 若使用 Docker,需更新镜像

移除/废弃项包括:

已移除
  • num_lookahead_slots
  • best_of
  • LoRA extra vocab
废弃(即将移除)
  • xformers backend
  • seed=None
  • ParallelConfig 中的 EPLB 字段
  • guided_* 字段
  • override_pooler_config / disable_log_requests
  • CompilationConfig.use_inductor
  • 部分 metrics
自动检测变更
  • Mistral 格式加载逻辑调整

强烈建议在升级前验证所有自定义配置。


8. Docker / 部署改进

  • 官方镜像减少约 200MB
  • 多 NUMA 节点支持改进
  • 更稳定的跨硬件部署能力

总结

vLLM 0.12.0 是一次 “大版本级别”的更新

  • 引擎重构:更快、更稳、更易扩展
  • 长序列推理:PCP 解锁未来超长 context
  • 推测解码:多模态、多步、分布式全支持
  • 模型生态:覆盖更多文本与多模态家族
  • 性能优化:NVIDIA / AMD / CPU 全栈提速
  • API 体验:更接近 OpenAI 标准、更稳定、更丰富
  • Breaking changes:需要注意 PyTorch/CUDA 升级与配置迁移

如果你正在构建任意类型的大语言模型推理系统,vLLM 0.12.0 值得尽快尝试。

代码语言:javascript
复制
from openai import OpenAI

path = "example.wav"

client = OpenAI(
    api_key=openai_api_key,
    base_url=openai_api_base,
)

with open(path, "rb") as f:
    resp = client.audio.transcriptions.create(
        language="zh",
        file=f,
        model="large-v3-turbo",
        timestamp_granularities=["segment"],
        response_format = "verbose_json",
    )

    result = resp
    print("Chat completion output from input audio:", resp)
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2025-12-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 🔥 核心亮点(TL;DR)
  • 1. 核心引擎升级
    • 1.1 GPU Model Runner V2:完全重写的推理执行管线
      • ✔ 取消持久化 batch reordering
      • ✔ 引入 GPU 持久化 Block Tables
      • ✔ Triton 原生采样器
      • ✔ 更易维护的分布式(DP)和 CUDA Graph 实现
      • ✔ 更高效的结构化输出支持
    • 1.2 Prefill Context Parallel(PCP)
  • 2. EAGLE 推测解码升级
    • 2.1 Multi-step CUDA graph(#29559)
    • 2.2 DP > 1 支持(#26086)
    • 2.3 多模态支持(Qwen3VL)(#29594)
    • 2.4 logprobs + 异步调度兼容(#29223)
  • 3. 模型生态扩展
    • 3.1 新模型族
    • 3.2 格式增强
    • 3.3 多模态优化
  • 4. 性能优化(NVIDIA / AMD / CPU)
    • 4.1 NVIDIA GPU 侧优化
    • 4.2 AMD ROCm 侧支持增强
    • 4.3 CPU 侧优化
  • 5. 量化(Quantization)扩展
    • W4A8
    • NVFP4
    • AWQ
    • LoRA
    • Online Quant 迁移
  • 6. API & 前端变化
    • ✔ Responses API
    • ✔ Tool Calling
    • ✔ Whisper
    • ✔ Sampling
    • ✔ GGUF
    • ✔ Profiling
    • ✔ 日志输出
  • 7. 不兼容变更(Breaking Changes)
    • 强制升级:PyTorch 2.9 + CUDA 12.9
    • 移除/废弃项包括:
      • 已移除
      • 废弃(即将移除)
      • 自动检测变更
  • 8. Docker / 部署改进
  • 总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档