昨天,昆仑万维正式开源了全球首个工业界「多模态推理大模型」Skywork R1V(以下简称「R1V」),又一重磅开源,标志着多模态推理领域迈入了一个全新的阶段。
git地址:https://github.com/SkyworkAI/Skywork-R1V
一、R1V的卓越性能与技术亮点
R1V作为全球首个开源的多模态推理模型,其性能表现令人瞩目。
在视觉问答任务中,它能够与Claude 3.5 Sonnet、GPT-4o等闭源模型相媲美,同时保留了顶级的文本推理能力。
在MMMU基准测试中,R1V以69分创下同等规模的新高,在MathVista上拿下67.5分,达到了领先的开源模型水平。
无论是复杂的数学推理还是图像中的逻辑分析,R1V都能轻松驾驭,堪称多模态领域的“全能战士”。
1、跨模态迁移学习
昆仑万维的研究者首次实现了将大模型的文本推理能力高效迁移至视觉模态。
通过Skywork-VL视觉投影器的有效训练,显著保留了原有的推理能力。整个过程无需从头重新训练基座语言模型和视觉编码器,有效减少了对大量多模态推理数据的需求。
这种方法的关键在于将视觉-语言表示的对齐与推理能力的保留解耦,从而大幅提高了训练效率。
2、混合式训练策略
R1V采用了迭代监督微调(Iterative SFT)和 GRPO强化学习相结合的混合训练方法,能够动态调整思维链长度。
整个训练过程分为三个阶段:初始训练、迭代训练、强化学习。
在SFT阶段,研究人员迭代训练一系列模型,每个后续模型都在奖励模型选择的高质量数据和前一迭代中处理不正确的样本上进行训练。
在RL阶段,利用基于规则的奖励系统GRPO,进一步提升模型的泛化能力。
然后经过强化学习训练后的模型,不仅提升了推理效率,还在开源模型中率先实现SOTA。
3、自适应长度思维链蒸馏
昆仑万维提出的自适应长度的思维链蒸馏(AL-CoTD)框架,能够根据需求动态调整思维链长度,有效缓解推理模型“过度思考”的问题,并显著提升推理效率。
该框架包含质量与难度评估模块(QDAM)、视觉-文本集成分析器(VTIA)、动态推理长度控制器(DRLC)三大核心组件,以及多阶段自蒸馏管线。
通过这些组件的协同工作,AL-CoTD能够更准确地评估多模态任务的难度,确保模型合理分配计算资源。
二、昆仑万维的AI战略布局
昆仑万维作为中国AI领域的领军企业,始终致力于实现AGI。
过去三年,公司在音乐大模型、文本大模型、视频模型等领域取得了一系列突破,并构建起了完整的AI产品矩阵,包括天工AI搜索、全球首个AI音乐创作平台Mureka、AI短剧平台SkyReels、AI社交产品Linky等。
上个月,团队还发布了世界模型系列Matrix-Zero,进一步拓展了其在AI领域的布局。
三、R1V的开源影响
昆仑万维选择开源R1V,一方面希望同DeepSeek一样打造开源界的技术影响力,另一方面也是为了推动开源社区的技术进步,让技术可以惠及到更多人。
即日起,模型权重、推理代码、技术报告全盘开源,这意味着全球的开发者和研究者都可以基于R1V进行进一步的研究和开发。
R1V的诞生是中国AI向世界发出的洪亮声音,展示了中国AI企业在技术创新方面的硬核实力。昆仑万维将继续开源具有空间推理能力和世界理解能力的视觉思考模型,以及全模态思考模型,为全球AI技术的发展贡献更多的力量。
欢迎加入「AI创世纪-PMKG」知识社群,一起探索更多高价值的AI应用。
已经看到这儿了,那就点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。
领取专属 10元无门槛券
私享最新 技术干货