设计AI机器人熟练使用工具的模型

CreateAMind

发布于 2024-04-11 14:36:25

770

发布于 2024-04-11 14:36:25

文章被收录于专栏：CreateAMind

Hierarchical hybrid modeling for flexible tool use

具身智能实现路径系列论文

[43]强调了主动推理框架内的三种深度：factorial, temporal, and hierarchical。因子深度意味着代理的生成模型中存在独立因素（例如，环境的对象或更抽象的状态），这些因素可以组合起来生成结果和转换。从离散的角度来看，时间深度意味着对即将到来的未来的愿景，可用于决策；或者，从连续的角度来看，需要对动态轨迹进行越来越精确的估计，例如，产生平滑的运动。层次深度引入了不同层次之间的空间因果关系，导致时间尺度的分离，从而较高的层次恰好构建了更不变的世界表征，而较低的层次可以更好地捕捉感官刺激的快速变化。

贡献简要总结如下：

• 我们提出了一种主动推理代理，可以在不断变化的环境中提供稳健的规划。该代理由多个动态推断世界事态的单元和一个同步其行为并计划复合运动的高级离散模型组成。

• 然后，我们考虑针对需要分层建模的任务的模块化架构，并描绘适合灵活工具使用的设计。除了动态规划之外，使用工具到达移动物体还需要两个附加功能。首先，智能体必须保持自我相对于物体的潜在配置。其次，代理必须以分层方式表示每个实体，并在需要时通过参考系的迭代变换来修改其运动链。

•最后，我们研究智能体在所呈现的任务下的行为，分析智能体的意图、智能体生成模型的轨迹以及感官证据的动态积累之间的相互作用。通过所提出的方法，代理能够在不断变化的环境中并通过灵活的层次结构推断和施加轨迹。

C. Algorithms

Abstract

在最近的一种称为主动推理的计算框架中，离散模型可以与其连续模型联系起来，以便在不断变化的环境中执行决策。从另一个角度来看，简单的智能体可以组合起来，以更好地捕捉世界的因果关系。我们如何结合使用这两个功能来实现高效的目标导向行为？我们提出了一种由多个混合（连续和离散）单元组成的架构，这些单元复制代理的配置，由实现动态规划和同步行为的高级离散模型控制。每个级别内的附加因式分解允许按层次表示与自我相关的其他代理和对象。我们在一项不平凡的任务上评估这种分层混合模型：在选择移动工具后到达移动物体。这项研究将过去的控制工作扩展为推理，并提出了深度强化学习的替代方向。

索引术语主动推理；电机控制;动态规划；分层混合模型

I. INTRODUCTION

处理复杂任务（例如灵活使用工具）的最先进的解决方案通常依赖于深度强化学习（RL）[1]、[2]。虽然这种方法在机器学习方面取得了显着的进步，但神经网络在数据效率、可解释性和泛化方面存在众所周知的问题[3]。预测编码网络 (PCN) 受到一种称为贝叶斯大脑的新假设的启发，已被证明可以很好地推广到分类或回归任务 [4]、[5]，同时是反向传播的合理近似 [6]–[9] 。然而，很少有研究使用预测编码的模块化和分层性质来表示模型动态并与环境交互[10]‑[15]，大部分是通过强化学习完成的。

近年来，人们提出了关于强化学习的另一个担忧：用价值函数表达目标可能会限制智能体可以学习的运动范围，因为价值只能定义无卷曲策略，而无法编码无散组件。divergence-free components 16]。相反，诸如手写或行走之类的螺线管运动可以通过将目标编码为对环境的先验信念的生成模型来轻松实现[17]。主动推理理论建立在这个前提之上：它假设目标导向的行为是对世界有偏见的表示的结果，产生一连串的预测错误，最终导致代理对那些使其信念成立的观察进行采样[18 ]–[21]。按照这种观点，探索和利用之间的权衡自然而然地出现，驱使智能体在最大化潜在奖励之前最小化其内部模型的不确定性[22]。

这种创新的视角可能是当前机器学习取得进展的关键，特别是对于将控制和规划描述为推理过程的研究领域[23]‑[26]。主动推理的一个显着特征是，人们可以通过在不同时间尺度展开的原因和动态状态的层次结构来对环境进行建模[27]。然而，目前主动推理中的分层模型与预测编码相比尚未得到深入研究，并且对复杂数据的适应仍然依赖于使用神经网络作为生成模型[28]‑[36]。

一项研究表明，每个级别具有独立动力学函数的分层代理可以不断修改其内部轨迹以匹配先前的期望，从而提供复杂运动链的高级控制[37]。因此，表达和学习中间时间尺度的可能性可以为解决标准强化学习任务带来许多优势。考虑现实生活应用时，主动推理利用所谓的混合或混合模型，将离散决策与连续感觉和运动相结合1。然而，最先进的实现仅在静态上下文中使用混合模型[20 ]，[39]‑[42]，并且在动态环境中运行需要额外的框架[35]。

在这项工作中，我们从统一的角度解决上述问题。我们的贡献简要总结如下：

• 然后，我们考虑针对需要分层建模的任务的模块化架构，并描绘适合灵活工具使用的设计。除了动态规划之外，使用工具到达移动物体还需要两个附加功能。首先，智能体必须保持自我相对于物体的潜在配置。其次，代理必须以分层方式表示每个实体，并在需要时通过参考系的迭代变换来修改其运动链。

II. HIERARCHICAL HYBRID MODELING

在分析分布式智能的出现时，[43]强调了主动推理框架内的三种深度：factorial, temporal, and hierarchical。因子深度意味着代理的生成模型中存在独立因素（例如，环境的对象或更抽象的状态），这些因素可以组合起来生成结果和转换。从离散的角度来看，时间深度意味着对即将到来的未来的愿景，可用于决策；或者，从连续的角度来看，需要对动态轨迹进行越来越精确的估计，例如，产生平滑的运动。层次深度引入了不同层次之间的空间因果关系，导致时间尺度的分离，从而较高的层次恰好构建了更不变的世界表征，而较低的层次可以更好地捕捉感官刺激的快速变化。

接下来，我们描述层次混合模型的主要特征，在灵活行为、动态规划和参考系迭代变换的背景下分析阶乘factorial、时间和层次深度。通过分层混合模型，我们提出了一种由分层连接的混合单元组成的主动推理模型。这里，混合意味着离散和连续表示在每个单元内进行编码，其中两者之间的通信是通过贝叶斯模型简化来实现的[44]，[45]。所有内部操作都可以通过自动微分来计算，即通过在执行每次前向传递时维护梯度图并传播回预测误差。

图 1 描述了混合单元 U 的因子图。变量是：连续隐藏状态 x 和 x′、观测值 y 和离散隐藏原因 v。隐藏状态包含两个时间顺序，第一个分量将表示为 0 阶。这些因素是：动力学函数 f 和似然函数 g。还要注意 0 阶隐藏状态 η 的先验，以及隐藏原因 H 的先验。生成模型如下：

其中字母 m 表示第 m 个隐藏原因。我们假设隐藏原因和隐藏状态具有不同的维度，从而导致两个因式分解。维度为 N 的隐藏状态是从独立高斯分布“2”注释2See [46] about using the Laplace approximation in active inference中采样的，并在并行路径中生成预测：

这与最先进的混合架构不同，differs from state-of-the-art hybrid architectures which assume separate continuous and discrete models with continuous hidden causes[47]。离散隐藏原因vm 与隐藏状态x一致，生成第一时间顺序x′ 的特定预测：

我们认为这个概率分布是完整先验模型的第 m 个简化版本：

这使我们能够使用变分方法来近似真实的后验分布“3”注释：3See [20] for a full account of ELBO maximization (or free energy minimization) in active inference.，分别通过贝叶斯模型平均和贝叶斯模型比较将离散信号转换为连续信号，反之亦然[44]、[45]。特别是，自上而下的消息将简化的轨迹先验

与相应的离散隐藏原因

结合起来：

相反，自下而上的消息将代理的先前惊喜

与每个简化模型的对数证据

进行比较。后者在连续时间 T 内累积：

其中

是第 m 个简化模型的平均值、后验精度和先验精度“4”。注释：4See [45] for a derivation of Bayesian model comparison under the Laplace assumption, and [48] for more details about the proposed approach。通过这种方式，可以推断出与同一离散周期 τ 内某些主体的假设相关的动态轨迹[48]。

背景知识：

意图、假设、行动、证据 Dynamic inference by model reduction

背景知识end

除了提供离散变量的动态推断之外，单个混合单元具有有趣的功能，这些功能源自隐藏状态和原因的阶乘factorial深度。考虑这样的情况：隐藏状态编码代理的配置和其他环境对象，而隐藏原因代表代理的意图。混合单元可以在特定时刻动态分配其动作的原因：这很关键，例如，在拾取和放置操作中，在此过程中，物体首先是手部运动的原因“5”注释：5 In active inference, it is a limb (extrinsic) trajectory that produces (intrinsic)muscle movements; see [17], [49] for a more detailed treatment.- 导致拾取动作 - 但随后这是由目标位置引起的操纵的结果——导致定位动作。这种方法不同于其他解决方案[18]、[50]，后者直接对隐藏原因中的目标位置进行编码。此外，将环境实体（而不仅仅是自我）编码到隐藏状态中可以推断它们的动态轨迹，这对于捕捉飞行中的物体[51]或用眼睛跟踪隐藏目标[52]来说是基础。

注释6：6 In active inference, the policies are sequences of actions, while the expectedfree energy is the free energy that the agent expects to perceive in the future,which is used to compute the future state that best conform to the prior belief;see [53] for a complete treatment.

一段时间内的预期自由能取决于政策长度[54]。第二时间深度随着频率的增加而细化动态轨迹，并且可用于更准确地推断离散变量。

如果离散模型并行链接到不同的混合单元（如图 2 所示），则通过组合多个证据来推断离散隐藏状态：

其中

,τ是在策略

和时间 τ 条件下的离散隐藏状态，而上标 i 表示第 i 个混合单元。这些并行路径还可以根据高层决策同步所有低层单元的行为，从而允许同时协调运动链的每个分支。

C. Hierarchical depth and iterative transformations

等式 11 引入了分层依赖性，其中高级离散模型对低级混合单元施加先验。在许多需要学习模块化和灵活功能的任务中，层次结构深度至关重要。以运动学模型为例：重复正向运动学在运动链的每个元素中，从以身体为中心的参考系计算末端执行器位置。迭代转换也是计算机视觉的基础，其中相机模型按顺序执行旋转平移和透视投影。我们如何用推理来表达这种层次计算？我们设计了一种称为 Intrinsic‑Extrinsic（或 IE）模块的结构，在参考系 [37]、[55] 之间执行迭代转换。单元Ue对外部参考系中的信号进行编码，而另一个单元Ui表示内部信号。似然(i)函数g e基于内在信息对外在信号进行变换，并返回新的外在信号状态：

其中

是线性变换矩阵。这个新状态然后可以充当多输出系统中下级级别的先验；用上标

表示第 i 个层次结构级别和同一级别内的第 j 个单元，我们按以下方式链接 IE 模块：

如图 3 所示。通常有多种解决方案的不适定问题（例如逆运动学或深度估计）可以通过反转智能体的生成模型并反向传播感官预测误差来解决，与传统方法相比，具有两个附加功能：（ i）通过施加适当的先验来引导推理过程的可能性，例如，避免逆向运动学期间的奇点；(ii) 对环境采取行动以最小化不确定性的可能性，例如，在深度估计期间使用运动视差。

在内在和外在参考系中编码信号也会引起动力学函数的分解，从而导致更简单（但更丰富）的吸引子状态。这对于在两个领域都需要多重约束的任务非常有用，例如，手持玻璃杯行走时[37]。此外，前面描述的阶乘factorial深度使我们不仅可以分层表示自我，还可以表示与自我相关的对象以及其他代理的运动链。通过这种方式，每当代理观察到相关实体时，它就可以维护自己的潜在表示[56]；然后可以在必要时立即有效地实现这种表示。完整的分层混合模型呈现两种不同的时间尺度：（i）离散尺度，将任务的缓慢变化表示与连续信号的快速更新分开；(ii) 连续尺度，其中来自层次结构最后一层（例如四肢）的预测误差在流回第一层（例如以身体为中心的参考系）时影响较小。

III. FLEXIBLE TOOL USE FOR REACHING

在本节中，我们将展示如何在需要在动态环境中进行规划并协调代理运动链多个元素的任务中有效地使用分层混合模型。所有实现细节都可以在附录 A 中找到，而附录 C 则说明了离散模型和混合单元的推理算法。

使用工具到达物体是一项复杂的任务，需要上一节中描述的所有功能。首先，任务必须分解为两个子目标——达到工具并到达目标——因此它需要一个可以执行高级规划的离散模型。其次，智能体必须对其手臂、工具和物体保持不同的信念，如果环境是动态的，所有这些都必须从感官观察中推断出来。第三，如果必须在原点抓住工具，而必须用其末端到达物体，则代理的生成模型应该对每个实体的分层表示进行编码，并且应该在不同的级别上施加吸引子。

如图 4a 的虚拟环境中所示，代理控制着 4 个自由度 (DoF) 的手臂。它可以获取有关其关节角度的本体感觉信息，以及有关其四肢、工具和球的位置的视觉观察。为了简单起见，我们假设工具一接触到代理的末端执行器就粘在它上“7”注释：7For a more realistic grasping simulation, see [48], [51].生成模型由与代理的 DoF 一样多的 IE 模块组成，并且它被分解为代表手臂和两个的独立组件。对象，用下标a、t、b表示。

如何推断正确的内在和外在隐藏状态？对于手臂组件，这很简单：我们定义本体感受和外感受（例如视觉）似然函数，为每个级别生成预测。然后，内在隐藏状态受到本体感觉力的驱动，驱动它们朝向真实的关节角度，而外在力（以较低水平的梯度表示）引导它们朝向外在隐藏状态的信念。这个梯度传达了一个外在预测误差，它是一个级别的外在隐藏状态与上一个级别施加的预测之间的差异。相应地，外在隐藏状态受到编码真实笛卡尔位置的视觉观察和更高级别先验形式的内在力量的影响。

至于其他两个组成部分，没有本体感受的贡献，因为它们指的是自我的潜在配置。在这种情况下，智能体只能访问外感受信息。这里需要注意两个方面：首先，根据所考虑对象的视觉观察的层次位置，可以推断出不同的配置（因此，不同的运动）。例如，代理可以通过分别在第 2 级或第 4 级链接其观察结果，用肘部或末端执行器到达球。其次，环境实体可以有自己的等级结构。这方面在我们的例子中至关重要，因为该工具由两个笛卡尔位置和一个特定角度组成，如果代理想要使用该工具的末端，则应该以某种方式表示这个附加链接。

出于这些原因，我们考虑将隐藏状态的工具组件附加到最后（末端执行器）级别的虚拟级别，如图 4c 所示。然后将工具的视觉观察链接到最后两个级别，以便它们分别对应于末端执行器/工具的原点和工具的末端。从这些观察结果中，可以推断出正确的工具角度，就好像它是手臂的新关节角度一样。此外，由于我们希望代理触摸球与工具的末端，我们用类似的层次结构对隐藏状态的第三个组成部分进行建模。在这种情况下，与球位置相对应的单个视觉观察将被附加到最后的虚拟水平。从图 4b 可以更好地理解整体架构，它绘制了代理对所有三个实体的信念。一旦智能体感知到该工具，它就会推断出可能的运动学配置，就好像它只能通过视觉访问其最后两个关节一样。同样，在虚拟水平上感知球会导致代理找到运动学配置，就好像工具是手臂的延伸一样。

现在我们已经定义了一种编码与外部实体相关的未来运动状态的方法，为目标导向的行为指定正确的动力学就非常简单了。我们首先定义两组简化的动力学函数，一组用于到达工具，另一组用于用工具的末端到达球。正如附录 B 中所解释的，第二步也需要在虚拟层面构建一个吸引子：通过这种方式，智能体认为工具的末端将被拉向球。这种偏置状态会产生外在预测误差，该误差会传播回编码工具原点和末端执行器的上一级。最后，定义与代理意图相关的离散隐藏状态和离散隐藏原因允许离散模型积累来自不同模态（例如，内在或外在）和层次位置（例如，肘部或末端执行器）的动态轨迹的证据，最终解决任务。

IV. RESULTS

在这里，我们分析任务并根据累积的感官证据和离散隐藏状态的转换来描述动态规划的效果。进一步的分析见附录 B。图 5 显示了所描述任务的一系列时间范围。尽管两个物体都在移动，但离散模型可以推断并施加连续轨迹，从而允许它在动态环境中运行。对隐藏状态的每个信念都在手臂的实际起始配置中初始化。在试验开始时，代理推断出工具和球的两种可能的运动学配置。虽然工具的两个观察结果限制了相应的推论，但球信念仅受球位置的影响，因此让代理最初高估了虚拟关卡的长度。在第一阶段，仅工具达到意图是主动的：因此，工具信念不断地将信念偏向于手臂，而手臂又反过来拉动真正的手臂。 350步后，这两个信念处于相同的配置，而球信念已经推断出相应的位置。此时，掌握了该工具，使离散模型能够预测隐藏原因的不同组合。现在，工具和手臂信念都被拉向球信念。大约 800 步后，代理推断出所有三个信念的相同配置，设法用工具的末端到达球，并跟踪它直到试验结束。请注意，即使在第一次到达运动期间，代理也会不断更新其与球相关的配置；结果，第二次伸手动作会更快。

从图 6 中可以更好地理解转换，显示了层次结构最后两层（即末端执行器和虚拟）的累积证据 le(4) 和 le(5) 的自下而上消息，以及离散隐藏信息状态 sτ 。显然，虚拟关卡对第一意图的推断没有贡献，因为这仅涉及末端执行器。请注意智能体如何能够动态积累其假设的证据：在第一阶段，一旦末端执行器接近工具的目标，证据 le,t(4) 就会增加。原点，而 l(4)e,b 和 l(5)e,b 随着球的远离而减小。在第二阶段，后两者随着末端执行器接近球而迅速增加；最后，随着外在信念收敛到相同的值并且错误最小化，两个层次的每个隐藏原因都会慢慢稳定下来。下图很好地总结了初始状态的缓慢下降和两个步骤之间的快速转变。隐藏状态的轨迹表明，智能体可以高频率地规划新的意图（在本例中为 10 个连续时间步），从而使其能够对环境刺激做出快速反应。

V. DISCUSSION

在这项研究中，我们开发了一种计算方法，可以在主动推理中提供动态规划。虽然可以有多种方法来组合所提出的架构的单元，但我们展示了一种特定的设计作为概念验证，以解决一项不平凡的任务：抓住移动工具并用工具的末端到达移动物体。智能体必须依赖三种深度，因为它必须动态推断其决策意图，并根据环境实体的结构和可供性形成不同的分层生成模型。

未来有四个方面值得探索。首先，为了简单起见，我们只考虑了两个时间顺序和一个零阶观察，但是更完整和有效的模型将利用广义坐标[57]。事实上，我们引入的每个方面都可以通过考虑来扩展增加时间顺序。例如，离散变量可能取决于物体的位置、速度和加速度，从而推断出动态轨迹的更准确表示。此外，可以在第二时间顺序中指定灵活的意图，从而产生更现实的力控制系统。

其次，虽然我们使用隐藏状态之间的连接（模仿 PCN 的层次连接），但我们保持了从离散隐藏状态到连续隐藏原因的连接。相反，离散模型的一些实现使用策略之间以及离散隐藏状态之间的单独连接[58]，并且分析连续模型和混合模型中的此类链接也可能有所帮助。在这项研究中，单个高级离散模型强加了所有其他混合单元的行为；另一种方法是在隐藏原因之间设计独立的连接，以便通过本地消息传递将高层意图传播到较低层。这种方法还可以深入了解如何通过重复相同的任务，离散策略适应从更简单的连续意图构建复合运动（例如，伸手和抓握动作）。

第三，我们对混合单元的设计做出了特殊选择，以展示分层主动推理中混合计算的能力。混合单元可以在连续证据积累的整个时期强加和推断动态轨迹，但不能单独执行决策。另一种方法是将完整的离散连续模型（即图 2）视为最基本的单元，允许局部决策并在中间级别提供更丰富的行为。或者，可以在混合架构之上设计分层离散模型（而不仅仅是单个级别），并可以在各种离散时间尺度上进行监督结构学习和规划[59]。

关于结构学习，我们在模拟任务时使用了固定的生成模型。尽管如此，我们表明，通过使用简单的似然函数和动态函数，高级行为是可能的。在[60]中，使用分层运动学模型来学习智能体在感知和行动过程中运动链的各个部分。因此，一个令人鼓舞的研究方向是在PCN之后设计一个分层混合模型，让智能体通过自由能最小化来学习针对特定目标的适当结构和内部吸引子。对深度强化学习的一个常见批评是它缺乏可解释性，随着人工智能系统的快速发展，这一点更加令人担忧。一个可行的替代方案是学习环境模型[61]，例如使用贝叶斯非参数[62]；然而，这些方法对计算的要求仍然很高。[63]描述了主动推理如何找到黑盒问题的答案，并且我们进一步展示了主动推理模型的不同元素如何具有实际和可解释的意义。从这个角度来看，混合模型中的参数和精度推理可能是深度强化学习算法或依赖于使用神经网络作为生成模型的主动推理中其他方法的有效替代方法。

APPENDIX

A. Implementation details

通过末端执行器到达工具的原点可以通过一个函数（称为意图[51]、[56]）来实现，该函数将相应的外在隐藏状态的第一个分量设置为等于第二个分量：

然后，我们通过从这个意图中减去当前的隐藏状态来定义一个简化的动态函数：

注意分解成单独的吸引子。第一个组件的非零速度表示代理想要移动手臂，而其他两个组件的零速度意味着代理在任务的第一步中不打算操纵它们。此外，由于工具的潜在运动学配置已经由代理处理，因此为了加速移动，可以在内部和外部参考框架的每个层次级别上施加类似的意图。此时，剩下的就是用工具的末端接触球。但是，如果手臂的信念——唯一产生本体感受预测的信念——没有对虚拟水平进行编码，这怎么可能呢？首先，我们链接工具末端的虚拟外部隐藏状态

然后，我们定义一个意图，将末端执行器的外在隐藏状态的前两个组成部分设置为等于第三个组成部分：

同时保持这两个意图最终将末端执行器驱动到合适的位置，使工具的末端接触到球。图 7 显示了这些意图之间的关系。

现在，我们定义最后两个级别的隐藏原因：

其中下标 s、t 和 b 分别表示智能体维持当前世界状态、到达工具和到达球的意图。请注意，第一个隐藏原因，与以下意图有关：

对于离散模型，其隐藏状态s可以表示:（I）代理是在工具位置还是在球位置，或者两者都不在；㈡代理人是否掌握了工具。这两个因素总共组合成6种过程状态。第一个因子通过似然矩阵生成对混合单元的外部隐藏原因的预测，即o（4）e = A（4）e s和o（5）e = A（5）e s .这允许代理同步工具和末端执行器的行为；类似地，可以定义额外的似然矩阵来对内在隐藏状态或层次结构的不同级别施加意图。第二个因子返回离散触觉预测，即ot= Ats。

最后，我们为每个智能体的意图定义一个离散动作，以及一个转换矩阵 B，使得只有当工具被抓住时才能到达球。通过比较高层期望和低层证据来更新来自混合单元的自下而上的消息：