昆仑万维近日宣布了一项重大开源举措,正式推出了业界首款多模态思维链推理模型Skywork R1V,并向全球开发者开放模型权重和技术报告。
据悉,Skywork R1V模型旨在引领多模态推理的新时代,其开源地址已公布在Hugging Face和GitHub平台上。开发者可以通过以下链接获取模型权重和技术文档:
Hugging Face链接 | GitHub链接 | 详细技术报告
昆仑万维此举标志着中国企业在多模态推理模型领域的重大突破,成为全球首个开源此类模型的企业。随着OpenAI的GPT-4和DeepSeek-R1等模型掀起长思考模型的热潮,Skywork R1V的推出进一步推动了AI技术的新范式。
视觉推理模型是一类能够解决复杂视觉任务的模型,它们通过多步逻辑推理与分析,逐步推导出最终结果。Skywork R1V不仅擅长图像内容的识别与理解,更强调通过层层递进的推理路径,实现视觉逻辑推理、视觉数学问题、科学现象分析等复杂任务的精准求解。这种能力使得Skywork R1V在医学影像诊断、数据分析、学术问题解答等多个领域具有广泛应用潜力。
在实际测试中,Skywork R1V展现出了强大的推理能力。在MATH500和AIME基准测试中,Skywork R1V分别取得了94.0和72.0的高分,领先行业内众多主流模型。同时,在视觉推理基准MMMU和MathVista中,Skywork R1V也取得了优异成绩,充分证明了其在跨模态任务中的领先地位。
Skywork R1V的成功离不开三大核心技术创新。首先,昆仑万维团队首次提出了利用Skywork-VL的视觉投影器,实现了文本推理能力的高效迁移到视觉任务,同时保留了原本强大的文本推理能力。其次,团队采用了多模态混合式训练(Iterative SFT+GRPO),通过结合迭代监督微调和强化学习,实现了视觉与文本表征的高效融合。最后,团队提出了自适应长度思维链蒸馏技术,动态优化模型推理过程,避免过度思考,提升推理效率。
Skywork R1V的训练过程采用了三阶段方法,包括视觉语言表征的初始对齐、推理能力迁移和视觉与文本模态精准对齐。通过这一训练流程,Skywork R1V成功地将文本端的强大推理能力迁移到了视觉任务上,实现了突破性进展。
昆仑万维还在不断探索多模态理解模型的进化之路。基于Skywork R1V模型,团队设计了一种灵活扩展语音理解模态的方式,旨在实现一个具备图像、视频、语音全模态理解能力的思考大模型。这一全模态模型已在语音和视觉理解评测中取得了多项领先成绩,昆仑万维表示将陆续公布测评成绩并开源全模态思考大模型。
昆仑万维作为中国AI领域的领军企业,一直致力于推动技术开源和生态共建。自2023年10月以来,公司已陆续开源了多款优秀模型和工具包,包括百亿级大语言模型「天工」Skywork-13B系列、数字智能体全流程研发工具包AgentStudio等。此次开源Skywork R1V多模态推理模型,再次彰显了昆仑万维在AI技术领域的创新实力和开放态度。
领取专属 10元无门槛券
私享最新 技术干货