
InternVL介绍
它是迄今为止最大的开源视觉/视觉语言基础模型(14B),在视觉感知、跨模态检索、多模态对话等广泛任务上实现了32项最先进的性能。是绝对的开源最能打的多模态与视觉语言模型(VLM)。


InternVL3.5
InternVL3.5,这是一个新的开源多模态模型系列,它在多功能性、推理能力和推理效率方面显著推进了 InternVL 系列。一个关键的创新是 级联强化学习 (Cascade RL) 框架,该框架通过两阶段过程增强推理能力:离线 RL 用于稳定收敛,在线 RL 用于精细对齐。这种从粗到细的训练策略在下游推理任务上带来了显著改进,例如 MMMU 和 MathVista。
为了优化效率,我们提出了 视觉分辨率路由器 (ViR),它可以动态调整视觉 token 的分辨率而不影响性能。结合 ViR,我们的解耦 视觉-语言部署 (DvD) 策略将视觉编码器和语言模型分离到不同的 GPU 上,有效地平衡了计算负载。这些贡献共同使 InternVL3.5 在整体推理性能上比其前身(即 InternVL3)提高了 +16.0%,并且推理速度提高了 4.05 倍。

此外,InternVL3.5 支持诸如 GUI 交互和具身代理等新功能。值得注意的是,我们最大的模型,即 InternVL3.5-241B-A28B,在通用多模态、推理、文本和代理任务中取得了开源 MLLM 中的最佳结果——缩小了与领先商业模型(如 GPT-5)之间的性能差距。
训练方法
我们的训练流程包括四个阶段:多模态持续预训练(CPT)、监督微调(SFT)以及级联强化学习(CascadeRL)。在级联强化学习中,我们首先在离线强化学习环境下使用混合偏好优化(MPO)对模型进行微调,然后在在线强化学习环境下使用GSPO。 对于InternVL3.5的闪存版本,我们还引入了一个轻量级训练阶段,称为视觉一致性学习(ViCO),这减少了表示图像块所需的token成本。


应用演示
InternVL三种典型能力演示 - ORC、类别预测、图像语义理解



未来的AI,必将是感知与认知交融的“全能思考者”。率先掌握多模态与视觉语言模型(VLM)这项技术,就是掌握了塑造新产业、定义新体验的核心主动权。2026年正是拥抱多模态,将想象力转化为现实的最佳起点。
系统化学习多模态与视觉语言模型