1
VLA技术路线
目前主流的VLA模型主要基于三类核心技术路线,它们的根本差异在于如何处理机器人动作的生成:
自回归路线
将连续动作离散化为Token,再用类似处理文本的方式,从左到右逐个预测这些动作Token。
扩散路线
通过“加噪-去噪”的迭代过程,从随机噪声中逐步精炼出最终的动作。
流匹配路线
可以看作是扩散模型的进阶版,它不模拟扩散过程,而是直接学习一条从随机噪声“流向”目标动作的“直线路径”。
2
VLA模型对比
模型名称 | 所属机构 | 核心技术路线 | 核心亮点 | 适用场景与主要局限 |
|---|---|---|---|---|
OpenVLA | 斯坦福等 | 自回归 (VLM as Backbone) | 开源标杆,基于Llama 2,在97万条数据上微调。 | 科研/开发者社区,泛化性强。局限:消费级硬件训练仍有门槛。 |
π系列 (π0, π0.5) | PhysicalIntelligence | 流匹配 | 业界性能标杆,动作生成平滑,泛化能力强。 | 复杂、长程、需精细力控的灵巧操作。局限:模型细节未完全公开。 |
SmolVLA | Hugging Face | 流匹配 + 轻量化 | 极轻量(4.5亿参数),可在MacBook运行,开源易用。 | 资源受限环境、快速原型验证、社区驱动开发。局限:性能上限低于超大模型。 |
X-VLA | 清华 & 上海AI Lab | 流匹配 + 软提示 | 跨本体通用性强(0.9B),数据效率极高,可零样本迁移。 | 需要跨不同机器人平台部署的任务。局限:轻量化的极限探索。 |
WALL-A | 自变量机器人 | 端到端统一 + 世界模型 | 参数规模最大,首创“世界模型+VLA”深度融合,零样本泛化能力极强。 | 追求极致零样本通用性,覆盖多种复杂操作的场景。局限:参数规模大,实际部署成本高。 |
GOVLA | 智平方 | 全域全身 + 双系统 | 全身控制,首创输出移动轨迹+机械臂动作,适合复杂长程任务。 | 需要移动底盘与机械臂协同的复杂任务,如工业制造、商业服务。局限:技术门槛高,落地成本高。 |
HoloBrain-0 | 地平线 | 自回归 + 具身先验 | 三维空间理解强,首创注入机器人本体信息,轻量版仅0.2B参数。 | 对空间理解要求高的任务、端侧部署、跨本体泛化。局限:受限于轻量化,复杂推理能力可能受限。 |
RT-2 | Google DeepMind | 自回归 (VLM as Backbone) | VLA概念奠基者,开创性将互联网知识迁移至机器人控制。 | 基础研究,评估互联网知识对机器人控制的赋能效果。局限:架构已非最优,动作生成效率低。 |
Goal-VLA | 新加坡国立大学 | 世界模型 (生成式VLM) | 零样本操作新范式,将规划与控制解耦,无需成对动作数据。 | 开放词汇、零样本泛化的通用操作场景。局限:目前偏向学术探索,实时性和复杂任务泛化待验证。 |
EfficientVLA | 上海交大 | 推理加速 (无需训练) | 即插即用,将CogACT推理速度提升1.93倍,计算量降至28.9%。 | 对现有VLA模型的快速、无损加速。局限:是加速框架,非独立模型。 |
FlashVLA | 复旦大学 | 推理加速 (无需训练) | 首个支持“动作复用”的即插即用加速框架,计算量减少55.7%。 | 对现有VLA模型的高效推理加速。局限:是加速框架,非独立模型。 |
VLA-Pilot | 理想汽车 | 端到端融合 | 专为自动驾驶设计,能像人类司机一样处理复杂路况。 | 自动驾驶,非通用机器人场景。局限:非通用机器人模型。 |
Sim2Real-VLA | 香港中文大学 (深圳) | 双系统架构 (Sim2Real) | 纯仿真训练即可零样本部署到真实世界,极大降低数据采集成本。 | 数据难以获取的场景、仿真到现实迁移研究。局限:对仿真环境逼真度要求极高。 |
行业标杆与奠基者
RT-2:VLA概念的奠基者
RT-2由Google DeepMind于2023年提出,核心是 将预训练的视觉-语言模型(VLM)与机器人动作数据进行联合微调 ,将VLM的知识迁移到机器人控制中。它开创性地将机器人动作离散化为Token,统一到语言模型中处理。但该架构动作生成是串行的,效率不高,且受限于当时技术,动作平滑度一般。
π系列:流匹配路线的性能标杆
Physical Intelligence发布的π0采用 稀疏混合专家(MoE)架构 ,包含VLM专家(30亿参数)和动作专家(3亿参数),并通过 流匹配 技术生成平滑、连续的动作。后续的π0.5通过“知识绝缘”微调技术,进一步提升了泛化能力,同时保持了对高频精细动作的控制精度。它在零样本场景中的泛化能力是目前的天花板之一,但对算力要求较高,且技术细节未完全公开。
开源与轻量化力量
OpenVLA:开源社区的基石
OpenVLA基于Llama 2构建,在Open X-Embodiment数据集的97万条轨迹上微调,是开源社区最流行的VLA基座模型之一。它的开源特性和强大的泛化能力为VLA技术普及做出了巨大贡献,但由于基于自回归架构,推理效率仍是瓶颈。
SmolVLA:真正“小而美”的开源模型
Hugging Face推出的SmolVLA仅4.5亿参数,能在MacBook或普通GPU上运行。它基于SmolVLM-2视觉语言模型,采用 流匹配 技术生成动作,通过减少视觉Token数、层跳过和异步推理等设计实现高效运行。它在计算效率和开源友好性上做到了极致,是资源受限研究的绝佳起点。
X-VLA:跨本体泛化的高效代表
清华和上海AI Lab提出的X-VLA仅0.9B参数,但通过 流匹配+软提示 技术,在不同机器人形态间展现出强大的零样本迁移能力。它在数据效率上表现惊人,仅需少量数据即可学会复杂任务(如叠衣服)并迁移到新机器人上,但其轻量化的极限仍在探索中。
产业与场景落地派
GOVLA:全域全身控制的开拓者
智平方的GOVLA采用“ 快慢双系统 ”架构, 首次突破了常规VLA仅输出机械臂动作的限制,能同时输出全身控制和移动轨迹 ,实现对移动底盘和机械臂的统一协调。它更适合需要跨区域移动、多机协作的工业制造等复杂场景,但对底层硬件控制和系统集成的挑战极高。
HoloBrain-0:强化空间理解的轻量化开源模型
地平线的HoloBrain-0 首创性地在架构中显式注入机器人本体信息 (如相机参数、运动学结构),使模型具备更强的3D空间感知能力。它提供0.2B和1.1B两个版本,轻量版证明了在端侧芯片上部署复杂VLA的可行性。它对3D空间关系的精确理解是其他模型难以比拟的,但受限于轻量化,其复杂推理能力可能弱于超大模型。
WALL-A:追求零样本泛化的超大模型
自变量机器人的WALL-A 首创了“世界模型+VLA”深度融合的联合框架 ,通过世界模型进行时空状态预测和因果推理,帮助模型内化物理常识。WALL-A以参数规模最大著称,零样本泛化能力强,能在95%以上的场景中完成数分钟级别的长程任务,但超大规模参数带来的实际部署成本不容忽视。
前沿学术探索
Goal-VLA:零样本操作的新范式
新加坡国立大学提出的Goal-VLA 将规划与控制彻底解耦 ,使用图像生成式VLM作为“以物体为中心的世界模型”来生成语义目标状态,然后由免训练的底层策略执行。它无需成对的“指令-视觉-动作”数据,能实现强大的零样本泛化,但目前在复杂实时任务中的泛化能力仍需验证。
EfficientVLA & FlashVLA:加速框架
这两个都不是独立模型,而是即插即用的加速框架。 EfficientVLA 将CogACT推理速度提升1.93倍,计算量降至28.9%; FlashVLA 通过“动作复用”策略,计算量减少55.7%。它们能对现有VLA模型进行高效加速,但对特定架构的适配性需要验证。
3
多维度横向对比
维度 | 推荐模型 |
|---|---|
泛化能力 | WALL-A、π系列、Goal-VLA、X-VLA |
计算效率 | SmolVLA、EfficientVLA、FlashVLA、HoloBrain-0 |
动作平滑性 | π系列、SmolVLA、X-VLA |
三维空间理解 | HoloBrain-0 |
全身/移动控制 | GOVLA |
力控友好型 | π系列、X-VLA、SmolVLA |
零样本能力 | Goal-VLA、WALL-A |
开源生态与易用性 | OpenVLA、SmolVLA、HoloBrain-0 |
4
总结
这14个模型大致可以分为四类:
对于清洁场景 (需要机械臂精细力控、场景相对固定):
