首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

昆仑万维引领AI新突破,开源R1V多模态视觉推理模型

昆仑万维近日宣布了一项重大开源举措,正式推出了业界首款多模态思维链推理模型Skywork R1V,并向全球开发者开放模型权重和技术报告。

据悉,Skywork R1V模型旨在引领多模态推理的新时代,其开源地址已公布在Hugging Face和GitHub平台上。开发者可以通过以下链接获取模型权重和技术文档:

Hugging Face链接 | GitHub链接 | 详细技术报告

昆仑万维此举标志着中国企业在多模态推理模型领域的重大突破,成为全球首个开源此类模型的企业。随着OpenAI的GPT-4和DeepSeek-R1等模型掀起长思考模型的热潮,Skywork R1V的推出进一步推动了AI技术的新范式。

视觉推理模型是一类能够解决复杂视觉任务的模型,它们通过多步逻辑推理与分析,逐步推导出最终结果。Skywork R1V不仅擅长图像内容的识别与理解,更强调通过层层递进的推理路径,实现视觉逻辑推理、视觉数学问题、科学现象分析等复杂任务的精准求解。这种能力使得Skywork R1V在医学影像诊断、数据分析、学术问题解答等多个领域具有广泛应用潜力。

在实际测试中,Skywork R1V展现出了强大的推理能力。在MATH500和AIME基准测试中,Skywork R1V分别取得了94.0和72.0的高分,领先行业内众多主流模型。同时,在视觉推理基准MMMU和MathVista中,Skywork R1V也取得了优异成绩,充分证明了其在跨模态任务中的领先地位。

Skywork R1V的成功离不开三大核心技术创新。首先,昆仑万维团队首次提出了利用Skywork-VL的视觉投影器,实现了文本推理能力的高效迁移到视觉任务,同时保留了原本强大的文本推理能力。其次,团队采用了多模态混合式训练(Iterative SFT+GRPO),通过结合迭代监督微调和强化学习,实现了视觉与文本表征的高效融合。最后,团队提出了自适应长度思维链蒸馏技术,动态优化模型推理过程,避免过度思考,提升推理效率。

Skywork R1V的训练过程采用了三阶段方法,包括视觉语言表征的初始对齐、推理能力迁移和视觉与文本模态精准对齐。通过这一训练流程,Skywork R1V成功地将文本端的强大推理能力迁移到了视觉任务上,实现了突破性进展。

昆仑万维还在不断探索多模态理解模型的进化之路。基于Skywork R1V模型,团队设计了一种灵活扩展语音理解模态的方式,旨在实现一个具备图像、视频、语音全模态理解能力的思考大模型。这一全模态模型已在语音和视觉理解评测中取得了多项领先成绩,昆仑万维表示将陆续公布测评成绩并开源全模态思考大模型。

昆仑万维作为中国AI领域的领军企业,一直致力于推动技术开源和生态共建。自2023年10月以来,公司已陆续开源了多款优秀模型和工具包,包括百亿级大语言模型「天工」Skywork-13B系列、数字智能体全流程研发工具包AgentStudio等。此次开源Skywork R1V多模态推理模型,再次彰显了昆仑万维在AI技术领域的创新实力和开放态度。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OFVUL_cUSk9gXCJrYw4Dhq-Q0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券