导读:文章介绍了灵巧抓取在机器人学中的基础地位与现有研究的局限性,并详细剖析了DexGraspVLA框架的层次化架构设计理念与核心创新点。通过对方法部分的深度解读,揭示了该研究如何通过领域不变表示转换和扩散策略实现泛化能力突破。实验分析部分展示了该方法在多样化场景下的卓越性能,最后讨论了研究的局限性与未来发展方向。
论文地址:https://arxiv.org/pdf/2502.20900
项目地址:https://dexgraspvla.github.io/
简介
灵巧多指手机器人末端执行器在各种操作任务中展现出卓越能力,而抓取作为最基础的前提条件,却始终是机器人学中最具挑战性的问题之一。现有灵巧抓取方法通常在孤立物体或简化环境下进行评估,然而现实应用场景如工业制造和家庭环境需要机器人具备更普适的抓取能力。针对这一核心矛盾,论文分析了实现通用灵巧抓取面临的多维度挑战:
· 物体层面需适应几何形状、质量、纹理和姿态的多样性;
· 环境层面需对光照条件、背景复杂度和外界干扰保持鲁棒性;
· 多物体场景下还需具备复杂推理能力以规划最优抓取序列。
当前研究主要分为两类技术路线:两阶段方法和端到端方法。
· 两阶段方法首先生成目标抓取姿态,再通过运动规划执行,这类方法严重依赖精确的相机标定和机械精度,缺乏闭环反馈。
· 端到端方法如模仿学习和强化学习则基于实时反馈连续调整动作,提供更鲁棒和自适应的解决方案。
强化学习虽在仿真中取得成果,但难以模拟真实世界的物理复杂性,存在不可避免的仿真到现实鸿沟;模仿学习直接从人类示范中学习,却受限于示范数据的覆盖范围,难以泛化到未见过的物体和环境变化。
视觉与语言基础模型通过互联网规模数据的预训练,展现出对视觉和语言输入的强大场景理解和泛化能力。现有视觉-语言-动作(VLA)模型的两种主流范式:
· 直接微调范式需要海量人工收集的示范数据,仍难以应对新场景且会导致灾难性遗忘;
· 分层架构范式虽在长视野任务完成方面表现良好,但如何利用基础模型学习可泛化的低级控制器仍待探索。
DexGraspVLA的创新之处在于,它有机融合了基础模型的世界知识与模仿学习的动作建模能力,通过将多样化输入迭代转化为领域不变表示,实现了真实场景中的鲁棒泛化。
整体框架与核心创新
2.1 框架
DexGraspVLA框架采用分层的模块化架构,由高层任务规划器和低层动作控制器组成,这种设计体现了"分而治之"的智能系统构建原则。
· 高层规划器基于预训练的Qwen视觉语言模型(VLM),负责解析和推理语言指令、规划整体抓取任务并生成任务可供性信号;
· 低层控制器则是基于扩散模型的模块化设计,在可供性信号和多模态输入引导下生成闭环动作序列。
这种分层架构不仅实现了高级认知与低级控制的解耦,更通过模块化设计保持了系统的可扩展性和灵活性。
值得注意的是,框架设计体现了"开放整合"的理念。规划器直接使用开源预训练的VLM,使得系统可以无缝接入更强大的基础模型;控制器同样采用主流开源模型作为特征提取器。
这种设计不仅降低了开发成本,更保证了系统的持续进化能力——随着基础模型的进步,DexGraspVLA的性能可以"水涨船高"而无需改动整体架构。
论文中已经展示了将规划器从Qwen-VL-Chat升级到Qwen2.5-VL-72B-Instruct带来的长视野任务性能提升,验证了这一设计理念的有效性。
2.2 创新
2.2.1 核心创新
框架的核心创新在于提出了"领域不变表示转换"的通用范式。
研究者深刻认识到,虽然原始视觉和语言输入可能因环境和任务描述方式不同而呈现巨大差异(领域变化),但通过基础模型提取的语义特征和中间表示(如边界框和目标掩码)却保持相对稳定(领域不变)。
具体而言,系统首先将多样化的语言指令转化为统一的边界框表示,将语言描述的领域变化转化为定位任务的领域不变;然后利用SAM和Cutie模型从边界框生成并持续跟踪目标物体的二进制掩码,进一步将视觉外观的多样性转化为目标分割的一致性;最后通过DINOv2等预训练视觉模型从原始图像中提取高级语义特征,屏蔽像素级变化对策略学习的干扰。
这种迭代转换机制使模仿学习可以在稳定、一致的表示空间中进行,从根本上解决了传统方法因输入分布偏移导致的泛化能力受限问题。
2.2.2 工程创新
规划器采用提示工程(prompt engineering)将整体任务分解为四个子任务:指令生成、边界框预测、抓取结果验证和任务完成判断,每个子任务都设计了针对性的系统提示模板。
控制器则创新地将目标掩码通过随机初始化的ViT投影到头部相机特征空间,并与原始特征拼接,实现了多模态特征融合;动作预测采用扩散变换器(DiT)模型,通过双向自注意力、交叉注意力和MLP变换预测动作序列的噪声,在推理时通过迭代去噪生成多步动作。
这种基于扩散的策略表达方式能够捕捉复杂、多模态的动作分布,相比确定性策略具有更强的表现力。
方法细节深度解析
DexGraspVLA的方法论精髓体现在其层次化学习范式和表示转换机制的协同设计上。从形式化定义来看,该研究将语言引导的灵巧抓取建模为序贯决策问题:给定语言指令l(如"抓取玩具"),策略π在每一时间步t接收腕部相机图像
、头部相机图像
和机器人本体感受状态
(包括7维手臂关节角和6维手部关节角),输出动作
,直到满足终止条件。对于长视野提示p(如"清理桌子"),系统需将其分解为多个抓取指令{li}并顺序执行。
· 规划器的实现展现了提示工程的艺术。
针对指令生成子任务,系统提示VLM基于初始和当前头部图像,按照"右侧优先、避免遮挡、符合提示"等原则选择最佳抓取目标,输出包含颜色、形状和相对位置信息的自然语言描述。
边界框预测子任务则要求VLM以JSON格式返回边界框坐标、简短标签和完整描述,这种结构化输出确保了与下游模块的可靠对接。抓取验证子任务综合头部和腕部视图,判断目标物体是否被稳固抓取;任务完成判断则通过比较初始和当前场景,评估用户提示是否已完全满足。
这些精心设计的提示模板将通用VLM"塑造"为专业的机器人任务规划器,展示了语言模型在具身智能中的适配技巧。
· 控制器的技术实现更为复杂,其核心挑战是如何将多源异构观察映射为连续动作空间。
DexGraspVLA的解决方案是构建多级特征提取与融合管道:
首先,头部和腕部图像分别通过DINOv2 ViT-B/14和ViT-L/14提取特征
和
;
同时,目标掩码m_t通过随机初始化ViT编码为
,与头部特征拼接得到增强表示
。
随后,三个MLP分别将
、
和st投影到统一1024维空间,拼接形成完整观察特征序列
。
这种设计既保留了各模态的特性,又在高层语义空间实现对齐,为后续策略学习奠定基础。
· 动作预测采用扩散策略的创新范式。
在训练阶段,将未来H=64步的动作块
添加噪声得到
,其中α_k和σk是DDPM系数。扩散变换器(DiT)以噪声动作块和观察特征为输入,通过L=12层变换预测原始噪声ε,目标函数为简单的MSE损失。每层DiT包含三个关键操作:动作令牌间的双向自注意力、对观察条件的交叉注意力以及MLP变换。
在推理阶段,从高斯噪声出发,通过16步DDIM采样迭代去噪生成动作序列,采用滑动窗口控制策略每6步重新预测。
这种基于扩散的方法能够表达多模态动作分布,相比传统确定性策略更能捕捉人类示范中的多样性,同时迭代细化机制也增强了生成的鲁棒性。
· 训练流程设计
虽然基础模型参数保持冻结,但控制器仍有1.63亿可训练参数。为高效训练,研究采用bfloat16混合精度和FusedAdamW优化器,在8块A800 GPU上84个epoch仅需不到一天。这种设计平衡了模型容量与训练成本,使方法具备实用化潜力。
非预抓取操作实验采用了调整的配置:统一使用DINOv2 ViT-B/14编码器,延长动作视野至100步,训练200个epoch,验证了框架的灵活适应能力。
· 数据收集方案
通过kinesthetic teaching方式收集2,094个杂乱场景下的成功示范,涵盖36个家庭物品。每个示范序列
包含多模态观察和动作,固定75时间步(3.75秒),经过严格人工质检。
研究者设置了独立的数据采集和测试环境(不同房间),实现真正的"零样本"评估,这种严谨的实验设计增强了结果的可信度。
实验设计与结果分析
DexGraspVLA的实验设计体现了系统性验证的思想,通过五个递进的研究问题全面评估方法性能。硬件平台采用RealMan RM75-6F机械臂搭配PsiBot G0-R灵巧手,腕部和头部分别安装RealSense D405C和D435相机,构成完整的感知-动作闭环系统。这种配置既保证了实验的严谨性,也展现了方法在真实机器人系统上的可部署性。
· 大规模泛化评估设置了三个精心设计的任务维度:360个未见物体(单一背景和光照)、6种未见背景(103物体子集)和3种未见光照条件(同前物体集),共1,287种组合。评估指标简洁而严格——物体被稳固抓离桌面10厘米并保持20秒视为成功。结果显示,DexGraspVLA在单次尝试下达到90.8%的平均成功率(未见物体91.1%、未见背景90.5%、未见光照90.9%),允许三次尝试时进一步提升至96.9%。这些数字背后反映的是框架对透明、可变形、反光等挑战性物体的适应能力,以及对外观变化的鲁棒性。特别值得注意的是,平均每次抓取仅需6秒,接近人类水平,满足实际应用的时间要求。
· 基线对比实验揭示了表示学习的关键作用。在13个见过和8个未见物体的单物体抓取任务中,完整DexGraspVLA达到98.6%成功率(见过98.5%、未见98.8%),显著优于两种变体:可训练DINOv2编码器版本(34.8%)和小型可训练ViT版本(50.5%)。更有趣的是,模型在未见物体上表现略优于见过物体,说明其真正学习了抓取技能本身,而非对训练数据的过拟合。这一发现颠覆了传统模仿学习"见过数据表现优于未见数据"的认知,验证了领域不变表示转换的有效性。
· 内部行为分析通过可视化技术揭示了模型的运作机制。研究者在四种不同环境(白桌、标定板、彩色桌布、迪斯科灯光)下测试同一杂乱场景,发现虽然原始图像差异显著,但DINOv2特征表现出惊人的一致性;Cutie跟踪的掩码准确无误;DiT的注意力始终聚焦目标物体而非干扰背景。这些证据链共同证明,DexGraspVLA确实实现了"将感知多样性转化为表示不变性"的设计目标,为其卓越的泛化能力提供了合理解释。
· 长视野任务评估展示了框架的复杂推理能力。针对"清理桌子"、"抓取所有瓶子"、"抓取所有绿色物体"和"抓取所有食物"四种提示,DexGraspVLA达到89.6%平均任务完成率。细粒度分析显示,规划器指令生成准确率94.3%,边界框预测精度98.4%,抓取执行成功率92.2%,完成判断准确率96.3%。这些结果验证了分层架构在处理需要多步推理和长期规划的复杂任务时的优势,体现了高级语言理解与低级动作控制的有机协同。
· 非预抓取操作扩展实验证明了框架的通用性。在32个扁平物体(盘子、盒子、书籍等)的1,029条示范数据上训练后,DexGraspVLA在18个未见物体上达到84.7%平均成功率(未见物体88.9%、未见背景86.1%、未见光照77.8%),显著优于基线。这一成功特别有意义,因为它展示了方法在完全不同的操作模式(先推动物体到桌边再抓取)上的适应能力,无需修改架构即实现了技能迁移,验证了框架设计的一般性。
讨论与未来展望
局限性:最显著的不足是尚未涉及功能性抓取和后续操作——当前系统只关注"抓起来"这一动作本身,而不考虑抓取方式是否适合后续使用(如锤子的握柄位置)。这限制了方法在复杂任务链中的应用潜力。另一个重要缺失是触觉感知的整合,灵巧手的丰富触觉反馈未被纳入当前系统,丧失了重要的环境交互信息源。这些局限反映了现有工作与完全通用操作之间的差距。
未来研究方向:最直接的是实现功能抓取能力,这需要扩展规划器以生成考虑后续操作的抓取姿态(如工具的功能部位朝向),并开发任务导向的控制器。整合触觉反馈是另一个富有前景的方向,可以探索多模态融合架构,将视觉-语言-触觉信息统一到决策过程中。从框架角度看,探索终身学习机制将使系统能够持续适应新物体和新任务,而不只是依赖零样本泛化。此外,将DexGraspVLA扩展到双臂协调操作、人机协作等更复杂场景,也是自然的延伸方向。