首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >单个摄像头已过时?清华微软等发布机器人“多视角理解”新基准,戳破VLMs的3D幻觉

单个摄像头已过时?清华微软等发布机器人“多视角理解”新基准,戳破VLMs的3D幻觉

作者头像
一点人工一点智能
发布2025-11-26 16:26:44
发布2025-11-26 16:26:44
740
举报

编辑:陈萍萍的公主@一点人工一点智能

摘要:本文聚焦于视觉-语言模型在机器人场景中的空间推理能力评估问题。作者指出,现有的VLM评估大多局限于单视角设定,忽视了多视角信息融合的能力,而多摄像头配置在机器人平台中日益普及,能够有效缓解遮挡和深度模糊问题。为此,作者提出了MV-RoboBench,一个专门用于评估机器人在多视角空间推理能力的基准测试集。该基准包含1.7K个人工标注的问答对,涵盖八个子任务,分为空间理解和机器人执行两大类别。

作者对多种开源与闭源VLM进行了系统评估,并探索了基于思维链的增强技术。实验结果表明,当前最先进的模型在多视角机器人感知任务中仍远低于人类表现,尤其是在三维空间一致性和机器人执行任务中表现尤为薄弱。

此外,作者还发现两个关键现象:

一是在多视角机器人场景中,空间智能与机器人任务执行呈正相关;

二是在通用单视角空间基准上表现优异的模型,并不能保证在多视角机器人任务中同样成功。

论文地址:https://arxiv.org/pdf/2510.19400

项目地址:https://github.com/microsoft/MV-RoboBench

引言

视觉-语言模型在具身智能中扮演着核心角色,不仅支撑机器人的多模态感知与推理,也是视觉-语言-行动模型的基础。与通用多模态推理不同,机器人在物理环境中操作,必须具备空间智能,即理解三维结构、推理几何关系并保持跨视角一致性的能力。单视角输入受限于遮挡、深度模糊和视野狭窄等问题,而多视角观测则提供了互补信息,有助于提升感知的鲁棒性。

尽管已有多个基准测试用于评估VLM的空间推理能力,如EmbSpatial-Bench、Visual Spatial、RoboSpatial等,但它们大多基于单视角数据,且侧重于抽象空间任务,忽视了机器人操作中的具身性与动作导向需求。ShareRobot虽然评估了具身任务,但未涉及多视角感知;All-Angles Bench和Ego3D-Bench虽然引入了多视角输入,但其任务仍局限于图像对齐或导航感知,而非面向操作的多视角推理。

为填补这一空白,作者提出了MV-RoboBench,这是首个在机器人操作场景中整合多视角输入与空间-机器人推理的基准测试。该基准基于真实机器人演示数据构建,包含同步多摄像头视角,涵盖空间理解与机器人执行两类任务,共计1.7K个高质量人工标注问答对。其核心贡献在于:构建了首个多视角机器人操作基准;通过实验揭示了当前模型的局限性;提供了空间与机器人任务之间的相关性分析,并指出单视角基准的表现不能直接迁移至多视角机器人场景。

MV-RoboBench 基准构建

MV-RoboBench基于AgiWorld和BridgeV2两个机器人操作数据集构建,涵盖单臂与双臂操作场景。基准共包含1,708道单选题,分为八个子任务,分为空间理解与机器人执行两大类别。空间理解任务侧重于跨视角感知与三维场景重建,包括跨视角匹配、距离判断、视角识别和三维空间一致性四个子任务;机器人执行任务则进一步将空间推理延伸至具身决策,包括动作规划、步骤执行、轨迹选择和可操作性识别四个子任务。

在基准构建过程中,作者设计了一个多阶段、人工参与的质量控制流程。首先通过规则筛选和GPT-4.1辅助过滤,从同步多视角图像对中提取候选样本;随后由人工标注员根据任务模板构建五选一的问题与选项;最后通过多轮人工审核与答案平衡,确保问题质量与选项分布的公平性。整个流程强调“真实多视角推理”的需求,避免模型仅通过模式匹配即可回答问题。

基准的数据分布显示,其源自980个机器人演示片段,涵盖了多样化的操作任务与环境设置。每个子任务都针对多视角推理的不同方面设计,例如跨视角匹配要求模型在不同视角下识别同一物体,距离判断需综合多视角信息推断相对距离,三维空间一致性则要求模型将物体位置映射到统一的三维坐标系中。

探索基于思维链的多视角理解增强

为了提升模型在多视角场景中的推理能力,作者探索了三种基于思维链的增强策略。

第一种是文本CoT,通过在输入中增加场景描述,显式表达空间上下文信息,使用GPT-4.1生成多视角场景的整体描述段落。

第二种是视觉CoT,通过新颖视角合成生成额外视角图像,作为视觉推理的中间步骤,作者采用了VGGT作为合成方法,因其在几何一致性方面表现优于其他方法。

第三种是结构CoT,通过引入深度先验,为模型提供几何约束,作者使用MoGe-2生成深度图,并将其作为额外输入与RGB图像一同输入模型。

这三种增强策略在推理阶段实施,无需微调,确保了与零样本基线的一致性。作者在实验中系统比较了这些策略对不同模型的影响,发现其效果具有模型依赖性:文本增强和深度先验对某些模型有提升,而视角合成则往往因生成质量不稳定而带来负面影响。这一部分的分析揭示了在多视角机器人任务中,单纯依靠提示工程难以稳定提升性能,更需要模型具备显式的几何理解与结构化推理能力。

从感知到动作:相关性分析

作者提出了两个分析维度:

一是内部相关性轴,探讨在多视角操作任务中,空间理解与机器人执行之间的关系;

二是外部泛化轴,研究在单视角基准上表现良好的模型是否能将其空间智能迁移至多视角机器人任务中。

在内部相关性分析中,作者发现,对于具备强推理能力的闭源模型,空间任务与机器人任务的表现呈正相关,即空间感知能力的提升伴随着执行能力的增强。然而,大多数开源VLM模型在两类任务中均接近随机猜测水平,表明其未能有效融合多视角信息以支持具身决策。这一结果说明,空间与机器人推理的关联性依赖于模型是否具备足够的跨视角融合能力。

在外部泛化分析中,作者以OmniSpatial作为单视角空间基准进行对比。结果显示,除了少数专为推理优化的闭源模型外,大多数在OmniSptial上表现良好的模型在MV-RoboBench上仍接近随机水平。这表明多视角机器人任务对模型的视角融合、遮挡解决和空间一致性提出了更高要求,而这些能力在单视角基准中并未得到充分锻炼。

实验设置

作者对五类模型进行了系统评估:盲测模型(仅文本LLM)、闭源多模态模型(如GPT-4o、GPT-4.1、Claude、Gemini系列)、闭源推理模型(如o4-mini、GPT-5、Claude-3.7-thinking、Gemini-2.5-pro)、开源VLM(如Gemma-3、InternVL3、Qwen2.5系列)以及开源MoE模型(如Llama-4-Scout与Maverick)。所有任务均以单选题形式呈现,采用统一的零样本提示模板,确保评估的公平性与可复现性。

图像以Base64编码形式输入,系统提示中明确要求模型仅基于问题与选项作答,不引入外部知识。人类评估由五名具有计算机科学背景的参与者完成,作为性能上界参考。评估指标为准确率,所有模型在同一问题顺序与随机种子下运行,确保结果的可比性。

主要实验结果

实验结果显示,从感知导向模型到显式推理优化模型,性能呈现明显提升趋势。闭源多模态模型中,GPT-4.1达到30.90%的平均准确率,开源模型中Qwen2.5-v1-72B为24.29%,MoE模型Llama-4-Maverick为26.11%。而在闭源推理模型类别中,GPT-5以56.41%的准确率领先,Gemini-2.5-pro和o4-mini分别为49.52%和46.47%。尽管推理模型表现突出,但仍远低于人类91.04%的水平。

从子任务层面看,三维空间一致性是最具挑战性的任务,大多数非推理模型的表现接近或低于随机水平,表明其未能有效利用多视角信息。机器人任务中,动作规划与轨迹选择在推理模型中提升最为显著,说明多步推理与时空结构理解对机器人决策至关重要。

CoT增强策略评估

作者对三种CoT增强策略在三个代表性模型(Qwen2.5-v1-7B、Gemma-3-12B、GPT-4.1)上进行了详细分析。结果显示,增强效果具有明显的模型依赖性:

Qwen2.5-v1-7B对多数增强策略不敏感,仅深度先验带来轻微提升;

Gemma-3-12B在文本CoT上提升显著;

GPT-4.1则主要受益于深度先验。

视角合成策略普遍表现不佳,尤其是在窄基线、遮挡严重的机器人场景中,生成的视角往往质量低下,反而干扰模型判断。

总体而言,CoT增强策略的效果并不稳定,提示层面的增强难以根本解决多视角融合问题。作者指出,未来研究需更注重模型内部几何表示与推理机制的耦合,而非依赖外部提示工程。

相关工作

在多模态大语言模型的空间理解方面,近年来已有诸多研究尝试将几何先验或显式三维特征融入模型中,如SpatialGPT、3D-LLM、Scene-LLM等。然而,这些方法往往破坏了预训练阶段的视觉-语言对齐,降低了指令跟随的鲁棒性。即使引入深度或点云输入,当前模型仍难以在跨视角一致性或几何线索利用方面表现出可靠能力。

在基准测试方面,已有多个数据集评估VLM的空间推理能力,如EmbSpatial-Bench、Visual Spatial、RoboSpatial等,但它们大多基于单视角或非具身设定。All-Angles Bench和Ego3D-Bench虽然引入多视角,但其任务仍局限于图像对齐或导航感知。OmniSpatial虽然覆盖了更广的空间推理类别,但仍为单视角设定。相比之下,MV-RoboBench是首个将多视角空间推理与机器人执行任务相结合的基准,填补了具身多视角智能评估的空白。

讨论与未来工作

本文的研究揭示了三个主要结论:

第一,多视角机器人推理不仅需要感知能力,更需要显式推理机制;

第二,空间与机器人智能在多视角任务中呈正相关,但当前模型仍远未达到人类水平;

第三,单视角空间基准的表现不能可靠迁移至多视角机器人场景。

展望未来,作者指出进一步的发展方向应包括:

设计显式编码几何先验并强制跨视角一致性的模型架构;

构建对齐感知与动作基础的训练流程;

以及开发更大规模、更复杂的多摄像头机器人数据集。

MV-RoboBench的发布不仅为社区提供了评估标准,也为揭示多视角基础中的瓶颈问题提供了重要工具。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-10-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 一点人工一点智能 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档