首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >常用VLA模型及特点对比

常用VLA模型及特点对比

作者头像
索旭东
发布2026-05-22 18:34:48
发布2026-05-22 18:34:48
950
举报
文章被收录于专栏:具身小站具身小站

1

VLA技术路线

目前主流的VLA模型主要基于三类核心技术路线,它们的根本差异在于如何处理机器人动作的生成:

自回归路线

将连续动作离散化为Token,再用类似处理文本的方式,从左到右逐个预测这些动作Token。

  • 核心机制 :动作Token化 + 复用大语言模型(LLM)的“下一个词预测”范式。
  • 优势 :能直接复用成熟的LLM架构,语言理解能力强。
  • 劣势 :容易产生 误差累积 ,且串行生成方式导致推理慢,不擅长高频连续动作。

扩散路线

通过“加噪-去噪”的迭代过程,从随机噪声中逐步精炼出最终的动作。

  • 核心机制 :去噪扩散概率模型。
  • 优势 :能并行生成完整动作序列,全局一致性高,天生适合处理高维度和多模态的动作分布。
  • 劣势 :通常需要多次采样迭代,计算成本较高。

流匹配路线

可以看作是扩散模型的进阶版,它不模拟扩散过程,而是直接学习一条从随机噪声“流向”目标动作的“直线路径”。

  • 核心机制 :学习一个“流场”直接映射噪声到动作。
  • 优势 :结合了扩散模型的全局建模能力,训练和采样更高效,能生成 平滑、连续的动作 ,是目前处理高频精细动作的前沿方向。

2

VLA模型对比

模型名称

所属机构

核心技术路线

核心亮点

适用场景与主要局限

OpenVLA

斯坦福等

自回归 (VLM as Backbone)

开源标杆,基于Llama 2,在97万条数据上微调。

科研/开发者社区,泛化性强。局限:消费级硬件训练仍有门槛。

π系列 (π0, π0.5)

PhysicalIntelligence

流匹配

业界性能标杆,动作生成平滑,泛化能力强。

复杂、长程、需精细力控的灵巧操作。局限:模型细节未完全公开。

SmolVLA

Hugging Face

流匹配 + 轻量化

极轻量(4.5亿参数),可在MacBook运行,开源易用。

资源受限环境、快速原型验证、社区驱动开发。局限:性能上限低于超大模型。

X-VLA

清华 & 上海AI Lab

流匹配 + 软提示

跨本体通用性强(0.9B),数据效率极高,可零样本迁移。

需要跨不同机器人平台部署的任务。局限:轻量化的极限探索。

WALL-A

自变量机器人

端到端统一 + 世界模型

参数规模最大,首创“世界模型+VLA”深度融合,零样本泛化能力极强。

追求极致零样本通用性,覆盖多种复杂操作的场景。局限:参数规模大,实际部署成本高。

GOVLA

智平方

全域全身 + 双系统

全身控制,首创输出移动轨迹+机械臂动作,适合复杂长程任务。

需要移动底盘与机械臂协同的复杂任务,如工业制造、商业服务。局限:技术门槛高,落地成本高。

HoloBrain-0

地平线

自回归 + 具身先验

三维空间理解强,首创注入机器人本体信息,轻量版仅0.2B参数。

对空间理解要求高的任务、端侧部署、跨本体泛化。局限:受限于轻量化,复杂推理能力可能受限。

RT-2

Google DeepMind

自回归 (VLM as Backbone)

VLA概念奠基者,开创性将互联网知识迁移至机器人控制。

基础研究,评估互联网知识对机器人控制的赋能效果。局限:架构已非最优,动作生成效率低。

Goal-VLA

新加坡国立大学

世界模型 (生成式VLM)

零样本操作新范式,将规划与控制解耦,无需成对动作数据。

开放词汇、零样本泛化的通用操作场景。局限:目前偏向学术探索,实时性和复杂任务泛化待验证。

EfficientVLA

上海交大

推理加速 (无需训练)

即插即用,将CogACT推理速度提升1.93倍,计算量降至28.9%。

对现有VLA模型的快速、无损加速。局限:是加速框架,非独立模型。

FlashVLA

复旦大学

推理加速 (无需训练)

首个支持“动作复用”的即插即用加速框架,计算量减少55.7%。

对现有VLA模型的高效推理加速。局限:是加速框架,非独立模型。

VLA-Pilot

理想汽车

端到端融合

专为自动驾驶设计,能像人类司机一样处理复杂路况。

自动驾驶,非通用机器人场景。局限:非通用机器人模型。

Sim2Real-VLA

香港中文大学 (深圳)

双系统架构 (Sim2Real)

纯仿真训练即可零样本部署到真实世界,极大降低数据采集成本。

数据难以获取的场景、仿真到现实迁移研究。局限:对仿真环境逼真度要求极高。

行业标杆与奠基者

RT-2:VLA概念的奠基者

RT-2由Google DeepMind于2023年提出,核心是 将预训练的视觉-语言模型(VLM)与机器人动作数据进行联合微调 ,将VLM的知识迁移到机器人控制中。它开创性地将机器人动作离散化为Token,统一到语言模型中处理。但该架构动作生成是串行的,效率不高,且受限于当时技术,动作平滑度一般。

π系列:流匹配路线的性能标杆

Physical Intelligence发布的π0采用 稀疏混合专家(MoE)架构 ,包含VLM专家(30亿参数)和动作专家(3亿参数),并通过 流匹配 技术生成平滑、连续的动作。后续的π0.5通过“知识绝缘”微调技术,进一步提升了泛化能力,同时保持了对高频精细动作的控制精度。它在零样本场景中的泛化能力是目前的天花板之一,但对算力要求较高,且技术细节未完全公开。

开源与轻量化力量

OpenVLA:开源社区的基石

OpenVLA基于Llama 2构建,在Open X-Embodiment数据集的97万条轨迹上微调,是开源社区最流行的VLA基座模型之一。它的开源特性和强大的泛化能力为VLA技术普及做出了巨大贡献,但由于基于自回归架构,推理效率仍是瓶颈。

SmolVLA:真正“小而美”的开源模型

Hugging Face推出的SmolVLA仅4.5亿参数,能在MacBook或普通GPU上运行。它基于SmolVLM-2视觉语言模型,采用 流匹配 技术生成动作,通过减少视觉Token数、层跳过和异步推理等设计实现高效运行。它在计算效率和开源友好性上做到了极致,是资源受限研究的绝佳起点。

X-VLA:跨本体泛化的高效代表

清华和上海AI Lab提出的X-VLA仅0.9B参数,但通过 流匹配+软提示 技术,在不同机器人形态间展现出强大的零样本迁移能力。它在数据效率上表现惊人,仅需少量数据即可学会复杂任务(如叠衣服)并迁移到新机器人上,但其轻量化的极限仍在探索中。

产业与场景落地派

GOVLA:全域全身控制的开拓者

智平方的GOVLA采用“ 快慢双系统 ”架构, 首次突破了常规VLA仅输出机械臂动作的限制,能同时输出全身控制和移动轨迹 ,实现对移动底盘和机械臂的统一协调。它更适合需要跨区域移动、多机协作的工业制造等复杂场景,但对底层硬件控制和系统集成的挑战极高。

HoloBrain-0:强化空间理解的轻量化开源模型

地平线的HoloBrain-0 首创性地在架构中显式注入机器人本体信息 (如相机参数、运动学结构),使模型具备更强的3D空间感知能力。它提供0.2B和1.1B两个版本,轻量版证明了在端侧芯片上部署复杂VLA的可行性。它对3D空间关系的精确理解是其他模型难以比拟的,但受限于轻量化,其复杂推理能力可能弱于超大模型。

WALL-A:追求零样本泛化的超大模型

自变量机器人的WALL-A 首创了“世界模型+VLA”深度融合的联合框架 ,通过世界模型进行时空状态预测和因果推理,帮助模型内化物理常识。WALL-A以参数规模最大著称,零样本泛化能力强,能在95%以上的场景中完成数分钟级别的长程任务,但超大规模参数带来的实际部署成本不容忽视。

前沿学术探索

Goal-VLA:零样本操作的新范式

新加坡国立大学提出的Goal-VLA 将规划与控制彻底解耦 ,使用图像生成式VLM作为“以物体为中心的世界模型”来生成语义目标状态,然后由免训练的底层策略执行。它无需成对的“指令-视觉-动作”数据,能实现强大的零样本泛化,但目前在复杂实时任务中的泛化能力仍需验证。

EfficientVLA & FlashVLA:加速框架

这两个都不是独立模型,而是即插即用的加速框架。 EfficientVLA 将CogACT推理速度提升1.93倍,计算量降至28.9%; FlashVLA 通过“动作复用”策略,计算量减少55.7%。它们能对现有VLA模型进行高效加速,但对特定架构的适配性需要验证。

3

多维度横向对比

维度

推荐模型

泛化能力

WALL-A、π系列、Goal-VLA、X-VLA

计算效率

SmolVLA、EfficientVLA、FlashVLA、HoloBrain-0

动作平滑性

π系列、SmolVLA、X-VLA

三维空间理解

HoloBrain-0

全身/移动控制

GOVLA

力控友好型

π系列、X-VLA、SmolVLA

零样本能力

Goal-VLA、WALL-A

开源生态与易用性

OpenVLA、SmolVLA、HoloBrain-0

4

总结

这14个模型大致可以分为四类:

  • 性能标杆型 :追求最优泛化和动作质量 → π系列、WALL-A
  • 轻量高效型 :追求计算效率和快速落地 → SmolVLA、X-VLA
  • 产业落地型 :追求场景适配和系统集成 → GOVLA、HoloBrain-0
  • 前沿探索型 :追求技术突破 → Goal-VLA、加速框架

对于清洁场景 (需要机械臂精细力控、场景相对固定):

  • 首选π0系列或X-VLA :它们的流匹配架构能生成平滑的力控动作,泛化能力强,且对接触类任务友好。
  • 若资源有限 :从 SmolVLA 开始快速原型验证,它能在普通硬件上运行,社区生态完善。
  • 若需要移动底盘+机械臂协同 :考虑 GOVLA ,它是目前唯一能同时控制移动和操作的模型。
  • 若在端侧部署、对空间感知要求高 : HoloBrain-0 是理想选择,它的0.2B版本能在端侧芯片高效运行。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-05-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 具身小站 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档