
今天,我们要聊一个多模态大语言模型(MLLM)领域的重磅玩家——来自阿里巴巴的 Ovis2.5。

在AI圈,MLLM早已不是什么新鲜词,它们能看、能听、能聊,正在逐步改变我们与数字世界的交互方式。然而,看似全能的背后,许多模型其实都有两个“阿喀琉斯之踵”:一是“视力不佳”,在处理复杂图表或高清大图时,往往需要把图片切成小块,像通过一根吸管看世界,丢失了全局信息;二是“思维线性”,习惯于一步到位的“思维链”(Chain-of-Thought),缺乏自我反思和纠错的能力,遇到复杂问题容易“一条道走到黑”。

这正是Ovis2.5团队想要解决的核心痛点。他们的新作不仅要让AI看得更清、看得更全,还要教会它如何“三思而后行”。这篇技术报告,就是他们交出的答卷。接下来,就让我们一起深入探索,Ovis2.5究竟带来了哪些突破,又是如何实现的。
在深入技术细节之前,我们先用几句话概括Ovis2.5最核心的四大贡献,让你对它的能力有个直观的印象:

1. 原生分辨率感知:看得清,看得全
Ovis2.5最大的革新之一,就是整合了原生分辨率视觉变换器(NaViT)。这意味着它不再需要将图片“大卸八块”,而是可以直接处理任意原始尺寸和长宽比的图像。这就像从一个定焦镜头升级到了一个能自由变焦、拥有超广角的全能相机,无论是精细的图表数据点还是复杂的全局页面布局,都能一览无余。
2. 深度推理能力:引入可选的“思考模式”
为了突破线性思维的局限,Ovis2.5在训练中引入了一种特殊的“反思式”数据,教会模型在回答前进行自我检查和修正。这个能力在推理时以一个可选的“思考模式”(Thinking Mode)开放给用户。对于简单问题,可以关闭它追求速度;对于复杂难题,可以开启它,让模型“多想一会儿”,以延迟换取更高的准确率。
3. SOTA性能表现:登顶开源模型榜单
Ovis2.5-9B在权威的OpenCompass多模态综合排行榜上,以78.3分的平均成绩,登顶40B参数规模以下的开源模型榜首。更令人印象深刻的是,其2B版本也取得了73.9的高分,在同量级模型中一骑绝尘,完美诠释了“小模型,大性能”的理念。
4. 高效训练架构:速度与规模兼得
如此强大的模型背后,是一套高效的训练基础设施。通过多模态数据打包和混合并行等优化技术,Ovis2.5的端到端训练速度提升了3到4倍,为模型快速迭代和扩展提供了坚实的基础。
首先,Ovis2.5继承了Ovis系列一贯的优雅架构。我们可以把它理解为一个精密的“视觉翻译系统”,由三个核心部件协同工作:

在稳固的基石之上,Ovis2.5进行了两大革命性的升级,彻底解决了前文提到的两大痛点。
升级一:NaViT——给AI一双“鹰之眼”
传统的视觉编码器(如标准ViT)处理图像的方式非常死板:不管图片多大、长宽比如何,都必须先缩放、裁剪成固定尺寸(如224x224),或者切成同样大小的图块。这种“一刀切”的做法,对于信息密度极高的图表或文档来说是灾难性的。
Ovis2.5引入的NaViT (Native-resolution ViT)则完全不同。它的核心思想是“输入即所见”,能够直接处理任意分辨率和长宽比的图像。
升级二:Qwen3 + “思考模式”——教会AI“三思而后行”
强大的感知能力需要匹配强大的推理能力。Ovis2.5将LLM底座升级为推理能力更强的Qwen3,并在此基础上,通过一种创新的训练方法,教会了模型进行深度思考。
传统的“思维链”(CoT)训练,是让模型学习模仿“问题 → 步骤1 → 步骤2 → 答案”这样的线性过程。但如果步骤1就错了,模型很难自我发现并纠正。
Ovis2.5的解决方案是构建一种“反思式”的训练数据。这些数据的格式不再是简单的线性链条,而是包含了显式的自我反思和修正过程,并用特殊的<think>...</think>标签包裹起来。
• 训练数据示例:
问题:[一个复杂的数学问题]
回答:
<think>
好的,我们来分析这个问题。首先,我需要识别出所有的已知条件...
第一步,我尝试用公式A来计算,得到结果X。
等一下,我检查一下这个结果。似乎公式A在这里的应用前提不满足,这会导致错误。
我应该换个思路,使用公式B。
好的,用公式B重新计算第一步... 这样就合理了。
接下来进行第二步...
</think>
[最终的、经过修正的解题步骤和答案]• 训练效果:通过学习大量这样的样本,模型不仅学会了如何解决问题,更学会了如何评估自己的解题过程。它的大脑里仿佛内置了一个“监察员”,会时常审视自己的推理链路是否合理,从而在遇到复杂问题时表现得更加鲁棒和可靠。这就是“思考模式”的由来。
拥有了顶级的硬件(架构)和教材(数据),还需要一套科学的“教学计划”。Ovis2.5设计了一个精密的五阶段训练课程,像培养一个精英学生一样,逐步构建模型的能力。

第一阶段:VET预训练 (视觉基础启蒙)
第二阶段:多模态预训练 (图文对话入门)
第三阶段:多模态指令微调 (能力全面拓展)
<think>...</think>标签的反思式推理数据,开始培养模型的“思考模式”。第四阶段:多模态 DPO (与人类对齐)
第五阶段:多模态强化学习 (推理能力冲刺)
这套环环相扣、层层递进的训练流程,确保了Ovis2.5在成长的每个阶段都打下了坚实的基础,最终成长为一个能力全面且特长突出的多模态模型。
Ovis2.5的实际表现如何?论文通过一系列详尽的实验给出了答案。
OpenCompass是一个综合性的多模态能力评测套件,涵盖了从常识问答、幻觉评估到专业学科推理的8个主流基准。


这些综合分数证明,Ovis2.5的各项改进是系统性的、全面的,而非在个别任务上的“偏科生”。
Ovis2.5是为解决特定问题而设计的,它在这些核心场景下的表现更能体现其技术的先进性。


除了上述两大核心优势领域,Ovis2.5在其他多模态任务上也表现出色:


总而言之,实验数据清晰地描绘了Ovis2.5的画像:它不仅是一个在综合能力上领先的“通才”,更是在其设计的核心应用领域——复杂视觉感知和深度推理上,拥有绝对优势的“专才”。
这篇报告清晰地告诉我们,要构建更强大的MLLM,必须双管齐下:一方面,要不断打磨模型的“感知器官”,让它拥有更接近物理世界的、不受限制的感知能力;另一方面,则要精心设计其“思维模式”,引导它从简单的模式匹配走向复杂的、带反思的认知过程。
当然,探索永无止境。Ovis2.5团队也坦诚地指出了未来的研究方向:
我们有理由相信,随着这些方向的不断突破,一个真正像人一样看世界、想问题的通用多模态智能,正离我们越来越近。而Ovis2.5,无疑是这条道路上一个坚实而闪亮的里程碑。
论文名称:Ovis2.5 Technical Report
第一作者:阿里 - Ovis Team
论文链接:https://arxiv.org/pdf/2508.11737
最新日期:2025年8月15日
github:https://github.com/AIDC-AI/Ovis.git