作者 / RoboX
本月初,AI 机器人公司 Figure 刚刚宣布与OpenAI终止合作,并表示 Figure 在完全自主研发的端到端机器人 AI 方面取得了重大突破,还承诺「将展示一些从未在人形机器人上见过的东西」。
昨日(2月20日),Figure通过一段视频,展示了其通用的VLA模型——Helix可达到的能力,这也引发了具身智能行业的集体关注。
在视频中,两台Figure 02人形机器人互相协作,将首次见到的物体归类,放置于它们应当放置的地方(例如冰箱、碗等等)。
它们虽然动作较慢,但十分流畅,甚至还有类似人类的「眼神交流」和「点头示意」,合作起来非常自然。
Figure方面表示,Helix可以用于所有机器人的所有任务,通用性和泛化能力极强。
据介绍,与以往的方法不同,Helix使用单一的一组神经网络权重,来学习所有行为——包括抓取和放置物品、使用抽屉和冰箱以及机器人之间的交互——而无需进行任何针对特定任务的微调。
该系统包含两个主要组件:S2(一个视觉-语言模型(VLM)主干网络)和S1(一个潜在条件视觉运动Transformer)。
S2基于一个拥有70亿参数的开源、开放权重的VLM构建,该模型在互联网规模的数据上进行了预训练。它处理单目机器人图像和机器人状态信息(包括手腕姿态和手指位置),并将这些信息投影到视觉-语言嵌入空间中。
结合指定期望行为的自然语言指令,S2将所有与任务相关的语义信息提炼成一个单一的连续潜在向量,并将其传递给S1以调节其低级动作。
而S1是一个拥有8000万参数的交叉注意力编码器-解码器Transformer,负责低级控制。
虽然S1接收与S2相同的图像和状态输入,但它以更高的频率处理这些信息,以实现更灵敏的闭环控制。S2的潜在向量被投影到S1的标记空间中,并与S1视觉主干网络的视觉特征在序列维度上进行拼接,从而为任务提供条件。
S1以200赫兹的频率输出完整的人形上半身控制,包括期望的手腕姿态、手指屈曲和外展控制,以及躯干和头部的方向目标。
据Figure方面介绍,以往的方法面临一个根本性的权衡:VLM主干网络具有通用性,但速度不快,而机器人的视觉运动策略速度快,但不具有通用性。
Helix通过两个互补的系统解决了这一权衡问题,这两个系统经过端到端的训练以进行通信:
系统2(S2):一个车载的、在互联网上预训练的VLM,以7-9赫兹的速度运行,用于场景理解和语言理解,能够在不同的物体和情境中实现广泛的泛化。
系统1 (S1):一种快速响应的视觉运动策略,能将系统2 (S2) 产生的潜在语义表征转化为精确的连续机器人动作,动作频率为200赫兹。
这种解耦架构允许每个系统在其最佳时间尺度上运行。S2可以“慢慢思考”高层次的目标,而S1可以“快速思考”以实时执行和调整动作。
由此,Helix开创了如下先河:
全身上部控制:Helix是首个能够输出整个人形上半身高频连续控制的VLA模型,包括手腕、躯干、头部和单个手指。
多机器人协作:Helix是首个能够同时在两台机器人上运行的VLA模型,使它们能够共同解决一个涉及之前从未见过的物品的长期操作任务。
抓取任何物品:配备Helix的人形机器人现在只需遵循自然语言提示,就能抓取几乎任何小型家用物品,包括数千种之前从未遇到过的物品。
单一神经网络:与以往的方法不同,Helix使用单一组神经网络权重来学习所有行为——抓取和放置物品、使用抽屉和冰箱以及机器人之间的交互——而无需进行任何针对特定任务的微调。
商业就绪:Helix是首个完全在嵌入式低功耗GPU上运行的VLA模型,使其立即具备商业部署的条件。
同时,Helix也具备如下特点:
速度和泛化能力:Helix的速度与专门用于单一任务的行为克隆策略相匹配,同时能够零样本泛化到数千个新的测试对象。
可扩展性:Helix直接输出高维动作空间的连续控制,避免了先前视频语言代理(VLA)方法中使用的复杂动作标记方案。这些方法在低维控制设置(如二进制并行夹持器)中取得了一些成功,但在高维类人控制方面面临扩展挑战。
架构简洁性:Helix使用标准架构——一个开源、开放权重的视觉语言模型(VLM)作为系统2,以及一个基于简单Transformer的视觉运动策略作为S1。
关注点分离:将S1和S2解耦,使其能够分别对每个系统进行迭代,而无需受到寻找统一观察空间或动作表征的限制。