首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

全球首个工业界多模态推理模型开源!昆仑万维引领技术新潮流

大家好!这里是AI智能新时代! 阅读文章前建议先点击名片先收藏公众号.

大家好,AI智能新时代真的要到来了! 今天要给大家带来一个重磅消息——昆仑万维正式开源了全球首个工业界多模态推理模型Skywork R1V(简称「R1V」)!这不仅标志着多模态推理新时代的开启,更是中国AI科技公司在全球技术舞台上的又一硬核担当!

R1V的惊艳表现

R1V在视觉问答任务中直接对标Claude 3.5 Sonnet、GPT-4o等顶级闭源模型,同时还保留了强大的文本推理能力。在MMMU基准测试中,R1V以69分创下同等规模新高,在MathVista上拿下67.5分,达到了领先的开源模型水平。

无论是复杂的数学推理,还是图像中的逻辑分析,R1V都能轻松驾驭,堪称多模态领域的「全能战士」。

R1V的技术亮点

跨模态迁移学习:R1V首次实现了将大模型的文本推理能力高效迁移至视觉模态,显著保留了原有的推理能力,大幅减少了对多模态推理数据的需求。

混合式训练策略:结合迭代监督微调和GRPO强化学习,动态调整思维链长度,提升推理效率和模型泛化能力。

自适应长度思维链蒸馏:提出AL-CoTD框架,根据需求动态调整思维链长度,缓解推理模型“过度思考”的问题,提高推理效率。

全模态扩展技术

更令人振奋的是,昆仑万维还设计了一种全新的全模态扩展技术,使得R1V在单个模型中具备同时处理图像、视频、语音等多种模态信息的能力。结果显示,进化后的R1V在语音和视觉理解评测中均斩获多项SOTA成绩。

开源的意义

昆仑万维选择无偿开源R1V模型,不仅展示了其在多模态推理领域的技术实力,更是希望通过开源持续打造技术影响力,推动全球AI开源社区的技术进步。

获取更多信息

想要了解更多关于R1V的技术细节和应用前景吗?快来访问以下链接吧:

GitHub:Skywork R1V

Hugging Face:Skywork R1V-38B

技术报告:Skywork_R1V.pdf

让我们一起见证多模态推理技术的崛起,期待昆仑万维在未来带来更多惊喜!

#AI #多模态推理 #开源 #昆仑万维 #技术进步

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O1EycdMws__V-LamWkKEKcVw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券