首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Omni-R1:浙大团队打造全模态推理新范式,让AI同时掌握视频、音频和精细像素理解能力

论文详情与研究团队

这项由浙江大学的郑浩、朱沐之、杜宗泽、黄铮、赵灿宇、刘明玉、王雯、陈浩和沈春华教授领导的研究团队于2025年5月发表在arXiv预印本平台(arXiv:2505.20256v1),论文标题为《Omni-R1: Reinforcement Learning for Omnimodal Reasoning via Two-System Collaboration》。研究团队提出了一种针对全模态理解的强化学习新框架,代码已在GitHub开源:https://github.com/aim-uofa/Omni-R1。

研究背景:AI理解世界的两难困境

想象你在观看一场复杂的体育比赛。如果你只看低分辨率的全场镜头,你能掌握整体战术走向,但很难辨认出球员的表情或细节动作。反之,如果你只看高清特写镜头,你能清晰看到每个表情和动作细节,却失去了对整场比赛的全局把握。

人工智能面临着类似的挑战。目前的全模态AI系统(能同时处理文本、视频和音频的系统)在两个关键能力之间存在根本性的矛盾:

1. 长时间序列的视频和音频理解需要大量帧来覆盖整体时间脉络,但处理大量帧会导致内存和计算资源不足,迫使模型降低每帧的分辨率。

2. 精细像素级别的视觉理解则需要高分辨率输入来保留细节,但这又限制了能处理的帧数。

简单来说,这就像是你不能同时拥有望远镜和显微镜的优势——要么看得远但不精细,要么看得清但视野窄。现有的AI模型难以兼顾这两种能力,这大大限制了它们在复杂现实世界场景中的应用。

浙大团队的创新解决方案:双系统协作架构

面对这一挑战,浙大团队提出了一个名为"Omni-R1"的创新框架,采用了类似人类认知的"双系统"协作架构:

### 系统1:全局推理系统(Global Reasoning System)

这就像是一位赛事分析师,以低分辨率观看整场比赛,识别关键时刻并理解整体脉络。具体来说,系统1处理低分辨率的完整视频流,负责: - 从长视频中选择最具信息量的关键帧 - 重新表述复杂任务,将其简化为只需关注局部细节的子任务

### 系统2:细节理解系统(Detail Understanding System)

这就像是一位细节观察员,只关注高清特写镜头中的精细信息。系统2只处理系统1选出的少量高分辨率关键帧,专注于: - 精确定位和理解每一帧中的目标对象 - 执行像素级别的精细分割和识别

举个例子,假设AI需要识别"视频中最后一个离开现场的人"。系统1会先以低分辨率处理整个视频,确定哪个人是最后离开的,然后选择几个包含这个人的关键片段。系统2接着以高分辨率分析这些关键片段,精确地在像素级别定位并分割出这个人的形象。

这种协作方式巧妙解决了全局理解与细节处理之间的矛盾,让AI能够既理解长时间的时序信息,又能进行精细的视觉理解,而无需对整个视频进行高分辨率处理。

突破性创新:用强化学习训练系统1

研究团队发现,定义"最优"关键帧选择和任务重构非常困难且高度依赖具体任务,很难通过人工标注的监督学习数据来训练。这就像是很难教会一个人"哪些是电影中的关键场景"——不同人会有不同见解,而且标准往往是模糊的。

因此,研究团队将这一问题重新定义为强化学习(RL)任务。他们基于"群组相对策略优化"(Group Relative Policy Optimization, GRPO)构建了端到端强化学习框架,让系统1通过与系统2的实时协作来学习如何选择最佳关键帧和重构任务。

这个过程类似于两个人协作完成任务的学习过程:

1. 系统1(全局推理系统)首先选择一些关键帧并提出简化后的任务描述。 2. 系统2(细节理解系统)尝试使用这些高分辨率关键帧和任务描述来完成目标。 3. 根据最终结果的好坏,系统1获得奖励反馈,逐渐调整和改进自己的策略。 4. 随着训练进行,系统1学会了选择最有信息量的关键帧,并以最有效的方式重构任务。

研究团队设计了一套分层奖励函数来指导系统1的学习,包括:

1. 关键帧质量奖励:评估选择的关键帧是否具有多样性、是否覆盖了目标物体的显著部分等。 2. 帧-指令对齐奖励:评估本地化指令与相应关键帧的匹配程度。 3. 全局时间一致性奖励:评估最终的分割结果在整个视频中的空间准确性和时间一致性。

通过这种强化学习方法,系统1不断改进其选择关键帧和重构任务的能力,从而使整个系统在处理复杂的全模态理解任务时更加高效和准确。

实验验证:卓越的性能提升

研究团队在两个极具挑战性的任务上评估了Omni-R1的性能:

### 1. 指代音视频分割任务(RefAVS)

这项任务要求AI根据自然语言指令和音频信息在视频中分割出指定的物体。例如,"定位视频中发出敲击声音的铁锅"。

在RefAVS测试集上,Omni-R1仅训练一个周期就取得了显著突破: - 在"见过"的数据集上:J&F得分提升16.4%(从31.6%到47.2%) - 在"未见过"的数据集上:J&F得分提升8.0%(从66.2%到74.2%)

这一结果不仅大幅超越了基线模型,甚至超越了专门为此任务设计的最先进模型EEMC。

### 2. 推理视频物体分割任务(REVOS)

这项任务要求AI基于时间行为的复杂描述来分割视频中的物体。例如,"分割视频中最后一个被拿起的物体"。

在REVOS数据集上,7B参数的Omni-R1作为系统1和系统2时,在整体测试集上达到了47.6%的J&F得分,比基线模型提高了11.0%。

当11B参数的Omni-R1作为系统1与Sa2VA(一个专业的分割模型)作为系统2协作时,性能进一步提升至58.9%,超越了专门为分割任务设计的Sa2VA-26B(58.4%)等更大的模型。

特别值得注意的是,Omni-R1在推理子集上取得了53.7%的得分,表明其出色的时序推理能力。

### 3. 通用全模态理解能力

除了上述专业任务外,研究团队还评估了Omni-R1在通用理解基准上的表现:

- OmniBench:得分提升2.0%(从47.3%到49.3%) - VideoMME:得分提升2.7%(从58.3%到60.7%) - MVBench:得分提升3.7%(从66.1%到70.3%)

这些结果表明,通过针对视频分割任务的强化学习,Omni-R1不仅提高了特定任务的性能,还增强了其通用的多模态理解能力。

消除幻觉问题的意外收获

在训练过程中,研究团队还发现了一个意外收获:Omni-R1显著减少了多模态幻觉问题(即AI虚构不存在的内容)。

在AVHBench的JUDGE子集上,结合视频物体分割(VOS)和音视频分割(AVS)任务训练的Omni-R1将准确率从基线模型的58.5%提升到了71.9%,改善了13.4%。这表明多任务强化学习不仅提高了音视频理解能力,还更有效地减轻了幻觉问题。

研究团队分析认为,这可能是因为双系统架构迫使模型更加严谨地处理信息:系统1必须提供准确的关键帧和任务描述,系统2才能成功完成任务。这种协作机制自然形成了一种内部验证机制,减少了模型产生幻觉的可能性。

未来展望与局限性

尽管Omni-R1在多项任务上取得了优异成绩,研究团队也坦率指出了当前方法的局限性:

系统1和系统2之间的完全功能分离可能在某些需要精细时间敏感性的任务中带来挑战。例如,当需要检测和描述特定时间段内的异常行为时,系统2缺乏时间上下文可能会影响一致性。

研究团队建议未来研究可以探索更具交互性的架构,使系统1和系统2之间能够双向交流信息。这将使系统1能够利用系统2的本地洞察来改进其全局推理,同时使系统2能够获得系统1提供的更广泛的上下文意识。

研究者们认为,将当前的单向推理流程转变为双向合作推理结构,有望进一步提升多模态时序理解能力,特别是在更灵活和复杂的任务上。

总结:AI理解世界的新范式

归根结底,Omni-R1提出的双系统协作架构代表了AI理解复杂现实世界的一种新范式。就像人类在观察世界时会自然地结合全局扫描和局部聚焦一样,这种方法让AI能够同时把握时序脉络和捕捉细节信息。

通过将关键帧选择和任务重构形式化为强化学习问题,浙大团队成功地让AI学会了如何在不同任务中有效地分配注意力资源。这种方法不仅在特定任务上表现优异,还改善了模型的通用理解能力和跨域泛化能力,同时减少了多模态幻觉问题。

Omni-R1代表了将强化学习应用于大规模全模态推理的首次成功尝试,为构建真正通用的人工智能基础模型提供了可扩展的路径。这一研究向我们展示,通过模拟人类认知的协作机制,AI可以更好地理解和解释我们这个丰富多彩的世界。

对于关注AI发展的读者来说,这项研究意味着未来的AI系统将能够更全面、更精准地理解包含视频、音频和文本的复杂场景,无论是辅助视频内容创作、智能监控系统、自动驾驶感知,还是辅助医疗诊断等领域,都将因此受益。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/Ovsab3ZIgHoDfWbFcHT0PAyw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券