vLLM 项目在 11 月 4 日宣布,正式支持 PaddleOCR-VL 模型。

PaddleOCR-VL 是一个专注于文档解析的视觉语言模型,其核心是参数量仅为 0.9B 的紧凑模型。它结合了动态分辨率视觉编码器和 ERNIE 语言模型,能够准确识别文档中的文字、表格、公式和图表等元素。
有开发者提到,这次合作显著降低了文档解析模型的部署门槛。与传统方案相比,vLLM 的优化使得模型推理效率更高,特别是在处理批量请求时表现突出。
根据官方提供的部署指南,用户可以通过几条命令快速启动服务:
vllm serve PaddlePaddle/PaddleOCR-VL \
--trust-remote-code \
--max-num-batched-tokens 16384 \
--no-enable-prefix-caching \
--mm-processor-cache-gb 0配置建议显示,由于 OCR 任务的特点,关闭前缀缓存和图像复用功能可以避免不必要的计算开销。用户还可以根据硬件性能调整批处理参数,以获得更好的吞吐量。
官方特别指出,这一功能从提出需求到代码合并,整个流程在社区成员的共同推动下快速完成,这给其他模型的集成提供了好的榜样。