首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >InternVL3.5 - 开源多模态视觉大模型王者

InternVL3.5 - 开源多模态视觉大模型王者

作者头像
OpenCV学堂
发布2026-04-02 21:44:51
发布2026-04-02 21:44:51
1380
举报

InternVL介绍

它是迄今为止最大的开源视觉/视觉语言基础模型(14B),在视觉感知、跨模态检索、多模态对话等广泛任务上实现了32项最先进的性能。是绝对的开源最能打的多模态与视觉语言模型(VLM)。

InternVL3.5

InternVL3.5,这是一个新的开源多模态模型系列,它在多功能性、推理能力和推理效率方面显著推进了 InternVL 系列。一个关键的创新是 级联强化学习 (Cascade RL) 框架,该框架通过两阶段过程增强推理能力:离线 RL 用于稳定收敛,在线 RL 用于精细对齐。这种从粗到细的训练策略在下游推理任务上带来了显著改进,例如 MMMU 和 MathVista。

为了优化效率,我们提出了 视觉分辨率路由器 (ViR),它可以动态调整视觉 token 的分辨率而不影响性能。结合 ViR,我们的解耦 视觉-语言部署 (DvD) 策略将视觉编码器和语言模型分离到不同的 GPU 上,有效地平衡了计算负载。这些贡献共同使 InternVL3.5 在整体推理性能上比其前身(即 InternVL3)提高了 +16.0%,并且推理速度提高了 4.05 倍。

此外,InternVL3.5 支持诸如 GUI 交互和具身代理等新功能。值得注意的是,我们最大的模型,即 InternVL3.5-241B-A28B,在通用多模态、推理、文本和代理任务中取得了开源 MLLM 中的最佳结果——缩小了与领先商业模型(如 GPT-5)之间的性能差距。

训练方法

我们的训练流程包括四个阶段:多模态持续预训练(CPT)、监督微调(SFT)以及级联强化学习(CascadeRL)。在级联强化学习中,我们首先在离线强化学习环境下使用混合偏好优化(MPO)对模型进行微调,然后在在线强化学习环境下使用GSPO。 对于InternVL3.5的闪存版本,我们还引入了一个轻量级训练阶段,称为视觉一致性学习(ViCO),这减少了表示图像块所需的token成本。

应用演示

InternVL三种典型能力演示 - ORC、类别预测、图像语义理解

未来的AI,必将是感知与认知交融的“全能思考者”。率先掌握多模态与视觉语言模型(VLM)这项技术,就是掌握了塑造新产业、定义新体验的核心主动权。2026年正是拥抱多模态,将想象力转化为现实的最佳起点。

系统化学习多模态与视觉语言模型

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-12-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 OpenCV学堂 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档