实现机器人的系统1和系统2 Slow and fast

CreateAMind

发布于 2024-04-11 14:26:50

1070

发布于 2024-04-11 14:26:50

文章被收录于专栏：CreateAMind

ABSTRACT

处理多步骤任务时总是存在权衡。高级认知过程可以在不确定的环境中找到实现目标的最佳行动序列，但它们很慢并且需要大量的计算需求。相反，较低级别的处理允许对环境刺激做出快速反应，但确定最佳行动的能力有限。通过重复相同的任务，生物有机体找到了最佳的权衡：从原始运动开始通过创建特定于任务的神经结构，组合低级结构然后逐渐出现高级复合动作。最近被称为“主动推理”理论框架可以捕获人类行为的高级和低级过程，但任务专业化如何在这些过程中发生仍不清楚。在这里，我们比较了拾放任务的两种分层策略：具有规划功能的离散连续模型和具有固定转换的仅连续模型。我们分析了定义内在和外在领域运动的几个后果。最后，我们提出如何将离散动作编码为连续表示，将它们与不同的运动学习阶段进行比较，并为进一步研究仿生任务适应奠定基础。

1 Introduction

现实世界的任务（例如拾取和放置物体）涉及包含多个原始运动的复杂动作。大脑如何支持这些行动的有效执行？虽然在静态环境中很容易规划运动序列，但在动态环境中进行操作时（例如，必须在飞行中抓住物体时）就会出现困难。众所周知，处理多步骤任务发生在皮质层次结构的深处，通过处理离散的、缓慢变化的实体的区域[1]。但离散表示的优势（对于规划[2]很有用）是有代价的：如果物体移动太快，深度处理可能会太慢，导致抓取动作无法成功。

运动技能巩固是一种众所周知的现象[3]，在运动员身上显而易见[4,5,6 ] ：在重复执行一项任务的过程中，随着运动员变得更加熟练，初始学习阶段将其位置留给自主运动 [7 ]。随着在较低、快速的皮质下区域构建专门的神经结构[8]，包括脊髓反射的精细调节[9]，皮质受累逐渐减少。这些结构无法提取不变的表示来执行高级决策，但它们对感觉中枢做出快速反应。众所周知，基底神经节是任务专业化的核心，因为纹状体对构成习得习惯的行动步骤的分块表示进行编码[10, 11]。但这种变化似乎更为普遍，涉及皮层本身内部的信息处理以及从前部区域到后部区域的一般活动转变[12]，初级运动皮层的可塑性变化证明了这一点[13]。尽管如此，潜在的大脑机制仍不清楚，了解其计算基础是令人信服的。

一个有趣的建议是，大脑维护一个任务动态模型，而技能巩固包括微调该模型，以实现考虑环境不确定性的稳定行为[14, 15]。这一假设符合最近的一种称为主动推理的理论，该理论为神经系统的计算作用带来了越来越多的见解[16,17,18 ] 。主动推理提供了控制、感知和行动这两个基本组成部分的形式化，据称旨在解决所有生物体的关键目标：通过在首选状态下运行（例如，保持恒温）来在不确定的环境中生存。与预测编码[19] 一样，主动推理假设生物体通过内部生成模型感知环境，该模型是通过推断隐藏原因如何产生感觉而构建的[17, 20]。感知和行动执行数量最小化称为自由能：感知逐渐调整内部期望以匹配感官证据，而行动则逐渐对那些使期望成为现实的感觉进行采样[17, 20]。

该理论的两个框架被用来在统一的视角下分析人类行为的高层和低层过程。连续时间内的主动推理通过定义关于外部目标的内部动态模型来解决由简单轨迹组成的运动任务[20, 21]。然后通过局部抑制本体感觉预测误差来解决基本运动[22]，迫使执行器发生物理变化。然而，当涉及多步运动时，连续框架就显得不足了，因为最小化仅处理当前的感觉信号。

在另一个极端，决策是通过离散公式来解决的[23,24,25 ] ，它将规划视为一种推理机制[ 26,27] ，利用部分可观测马尔可夫决策过程（POMDP）来预测未来状态。这是可能的，因为离散模型最大限度地减少了预期观察的自由能[28,29,30,31 ] ，并且与强化学习相比，皮质操作似乎可以通过此类模型 [1] 进行模拟，具有更高的生物学合理性[ 32 , 33 ] ]。离散表示的缺点是缺乏与环境的实时交互。

在两者之间存在第三种架构：混合框架，它是离散模型与其连续对应模型的结合[34, 35]。这涉及通过所谓的贝叶斯模型简化（BMR）将连续信号转换为离散消息[36, 37]。使用混合模型解决多步骤任务意味着将基本连续轨迹与离散状态相关联以进行规划。这种方法尚未得到足够的关注，因为在文献[2,18,34,38,35,39,40 ]中找不到很多实现，也没有在动态上下文中模拟应用程序。

最重要的是，目前尚不清楚主动推理如何代表运动技能习得的良性循环，该循环始于皮层下结构的严格信息处理，并随着特定任务结构的出现而达到顶峰。从这个角度来看，混合框架可能是一个有用的起点：离散计算可以模拟事先不知道要采取什么操作的代理的行为。然而，一旦智能体学会了与一系列先验定义的动作相对应的策略，它就可以通过将离散状态之间的转换编码为连续动态来适应，然后连续动态代表学习到的运动技能。

2 Results

为了阐明主动推理下的任务专业化，我们提出了一种定义和处理动态多步骤任务的方法，并比较离散和连续框架的行为差异，表明离散动作和连续轨迹在相似的机制下工作。为此，我们考虑了拾放操作。代理的身体是一个带有两个手指的 8 自由度模拟手臂。在每次试验中，都会产生一个随机且未知位置的目标物体，代理必须到达该物体，抓住它，到达随机目标位置，然后张开手指放置该物体。为了评估模型在动态环境中的能力，在每次试验中，都会为物体分配随机方向的速度，这样，如果物体移动太快，抓取动作可能会失败。

2.1 Flexible intentions for dynamic multi-step tasks

无论代理维护简单的连续生成模型还是使用更高级别的离散模型进行规划，为了在现实场景中运行，它都需要环境信念的概念。保持对环境的额外信念已被用于主动推断以对象为中心的表示[41]，我们在这里转向处理包含多个步骤或复合运动的动态任务的问题。如果智能体的目标是到达移动物体，它不仅必须保持对其手部位置的最佳猜测，而且还必须保持对物体位置的最佳猜测[42]。设计一个带有指向静态对象位置的吸引子的动态函数在动态环境中没有帮助，并且假设分层生成模型通过交换本地消息进行推断，直接提供对象的外感受观察在生物学上是不合理的。

形式上，我们考虑在同一域中运行的不同环境实体的隐藏状态或信念µ ，即µ = [µ1, . 。。, µN ]，其中N是实体的数量。我们假设这些信念通过维持相同因式分解的似然函数 g(μ) 并行生成观测值y ：

其中字母w表示（高斯）噪声项。然后可以通过反转此函数来动态推断每个信念：

此时，任务的动态性质可以通过意图的定义来解决[42]，定义为根据当前信念生成可能的未来状态（例如，关于代理的手）的函数：

请注意，与似然函数g(μ) 不同，函数i(μ)操纵并组合所有环境实体。特别是，矩阵H执行信念的线性变换，提供动态行为，因为每个实体都会通过观察不断更新。另一方面，矢量h施加静态配置，例如要到达的固定位置。为了阐明这种灵活的意图是如何工作的，对引言中考虑的拾取和放置操作进行建模是很有用的。为了关注控制方面，我们假设一个模拟代理具有以下简化的感觉模式：（i）对手臂关节角度的本体感觉观察（维度

8）； (ii) 编码手、物体和球门位置的视觉观察（维度

= 3）； (iii) 触觉观察：

视觉特征可以从丰富的视觉输入中推断出来[42]，但为了简单起见，我们直接提供手、物体和目标的2D 笛卡尔坐标，即

触觉观察通过布尔函数告知智能体所有手指（最后四个关节）是否触摸外部物体。在这里，我们只考虑最后一级（即手）的笛卡尔位置，尽管更现实的场景应该包含有关所有中间肢体位置的信息，这些信息可用于仅从外感受推断正确的姿势[43]。

尽管肢体轨迹是由编码内在运动学信息（例如，关节角度）的连续模型生成的，但智能体想要实现的运动通常在外在域（例如，3D 视觉空间）中表达。在拾取和放置操作中需要这两种连续模式，因为到达运动是在外在参考系中描述的，而张开和合拢手是从内在角度更好理解的操作。因此，我们考虑内在（μi）和外在（μe）域中的信念。请注意，在这两个域中表达与代理交互的对象也很方便。通过这种方式，对于每个对象，代理可以自动推断出可能的关节配置，该配置可以进一步受到一些先验的限制（例如，取决于特定抓握的可供性）。从补充材料中的示例可以清楚地了解其原因。我们进一步假设智能体保持对肢体长度µl 的信念，以便计算手和每个物体的外在笛卡尔坐标。在这里，这种信念没有更新，尽管可以通过推理来学习它[43, 44]。最后，我们还对触觉观察保持信念μt。加起来：

其中前两个信念包含代表手臂、物体和目标的组件，反映了视觉感官信号的分解：

由于关节角度生成具有一对一映射的笛卡尔坐标，因此很自然地将内在信念置于该层次结构的顶部，并定义以下似然函数

：

其中T(θ,l)是正向运动学。这样，可以通过推断可能产生外在信念的最可能的运动学配置来找到内在信念[43]；因此，动态函数内的逆模型不是必需的。这里，

是第n段的长度，我们使用紧凑的符号来表示角度和的正弦和余弦。由于我们对伸手任务期间手指的位置不感兴趣，因此运动学似然函数仅计算手的笛卡尔位置，这是通过将最后一个肢体的长度延伸抓取距离

来找到的。本体感觉预测是通过映射

生成的，该映射

从内在信念中提取手臂的关节角度，而外感觉（这里是位置和触摸）是由身份函数生成的：

信念动态可以考虑许多因素，包括摩擦力、重力等但在下文中我们假设它取决于上面定义的意图的组合。对于此处考虑的拾取和放置任务，定义每个步骤的意图很有用：(i) 到达物体； (ii) 到达目标位置； (iii) 合拢手指抓住物体； (iv) 张开手指释放物体。前两个意图可以在内部参考系中实现，该参考系将手臂的关节角度设置为等于推断的物体/目标配置

借助以下线性变换矩阵：

具有类似形式的意图可以在外在层面上互换定义：然而，在这种情况下，外在信念的预测误差必须反向传播到内在层面，从而导致与直接作用于手臂运动学的内在意图相比。相反，抓取/放置意图是通过用手指在固定的闭合/打开配置中生成未来的内在信念来实现的：

这里，

确保手臂的前 4 个组件（因此不包括手指）保持当前配置：

总之，我们举例说明了具有两组相互竞争的意图的背景。为了使图片更清晰，图 1提供了连接环境信念和灵活意图的模型的图形表示。下面，我们转向这两种控制方法的定义，解释这些意图在实践中如何使用。混合模型和纯连续模型之间的区别在于它们的嵌入位置以及它们如何影响系统动态。

2.2 Hybrid models and discrete goals

设计离散模型涉及指定离散状态s、似然矩阵A、转移矩阵B和动作u。在所考虑的任务中，离散隐藏状态编码：（i）手和物体是否处于相同位置、不同位置或两者都处于目标位置； (ii) 手是否张开、闭合或已抓住物体。总的来说，这些因素组合成9 种可能的过程状态。有两个似然矩阵：(i) 矩阵A执行简单的恒等映射，用于获取连续模型的离散结果； (ii) 矩阵At返回离散的触觉观察ot – 由伯努利分布编码 – 表示物体是否被抓住（这里不使用连续观察yt ）。定义转移矩阵B使得只有当手和物体处于相同位置时才能抓住物体。请注意，每个状态都有一定的概率（取决于连续采样时间）转换可能会失败。最后，离散动作u对应于上面定义的意图，并添加了停留动作。仅当智能体将物体放置在目标位置并且手打开时，试验才被认为是成功的。

为了使离散模型和连续模型进行通信，每个离散结果都必须与减少reduced的连续先验相关联。后者通常是静态的，因此为了处理动态环境，我们让它依赖于之前定义的意图的组合。这样做的优点是，如果在每个离散时间步生成减少reduced的先验，即使对象正在移动，也可以对隐藏状态施加正确的配置 ，连续模型将动态推断其位置 advantage that if the reduced priors are generated at each discrete time step, a correct configuration over the hidden states can be imposed even if an object is moving – whose position will be dynamically inferred by the continuous model 。然而，请注意，更现实的设计是将减少的reduced先验与隐藏的原因联系起来，并让后者对意图进行编码[45]。由于智能体同时保持内在和外在信念，因此单个离散结果oτ,m会生成两组不同的简化先验集ηi,m和ηe,m。例如，如果手张开并且位于物体位置，则减少的先验为：

请注意，某些结果会生成相同的简化先验（例如，张开的手条件不会影响外在先验），或者不会对隐藏状态施加任何偏差（例如，如果手和物体位于不同的位置，则映射外在水平的减少到一个恒等式，相应的减少的先验将等于后验）。

通过贝叶斯模型平均值 (BMA)，计算完整先验ηi和eta ηie ，它们通过先验误差εη,i和εη,e 作用于连续模型：

其中F是连续模型的变分自由能，而εp、 εe、 εv分别是本体感受误差、外在误差和视觉预测误差，我们用字母π表示它们似然的精度。请注意，这两种更新具有相似的形式，唯一的区别在于感官观察的类型以及外在预测误差的方向。

另一方面，通过在时间段T 内通过减少的自由能 F~m 比较内在和外在后验的模型来计算上升消息（有关详细说明，请参阅方法部分）：

其中

是内在和外在信念的对数证据，分别由增益δi和δe 加权。后者可以被视为调节涉及特定域的所有精度大小的量。在这里，它们在整个任务中保持固定，但假设较高的值会导致感知决策过程中更快的反应时间和证据积累[46]。请注意，需要足够长的时间窗口T来积累来自较低模态的证据并计划下一个原始运动，稍后将清楚。此时，通过结合上升消息和触觉观察的可能性来推断当前状态：

总之，离散模型首先根据先验偏好计算政策概率，然后对它们进行平均以获得离散结果。后者用于通过灵活的意图来计算减少的先验，进一步加权以获得连续模型必须实现的最终配置。这种配置充当 0 阶（即位置）隐藏状态的先验，并且置信更新分解为感知梯度和预测误差的计算。请注意，外在信念µe可以通过两种不同的途径产生偏差：直接来自离散模型的简化先验，或间接通过内在信念µi的正向运动学。相应地，后者可以通过离散模型在内在域中施加特定的配置来改变，或者通过计算梯度∂ge[43]来改变外在信念的后向路径。

从生物学角度来看有何影响？人们假设运动技能学习大致由三个不同的阶段组成[47]：第一个认知阶段，运动效率低下，必须有意识地探索不同的策略来实现目标；联想阶段，学习者变得更加熟练，动作之间的转换更加流畅；最后的自主阶段，学习者从有意识的特定任务思维中几乎完全自主，并且可以在没有认知努力的情况下移动。尽管现实可能比这种简单的分解复杂得多，并且不同的熟练程度对应于特定的神经处理，但它可能有助于掌握和分析任务专业化神经活动变化的关键原理。从这个角度来看，主动推理提供了关于这个过程的有趣见解，因为：（i）它建立在任务动态的内部生成模型之上，可以通过经验不断完善； (ii)它假设整个信息处理通过相同的预测误差最小化原则开始和展开，无论是连续的还是离散的表示。从这个角度来看，所描述的混合模型可以与第一个认知阶段进行比较，如图2所示。

2.3 Continuous models and flexible intentions

是否需要离散模型取决于任务的性质，即使考虑由不同步骤组成的运动也是如此。在某些情况下，先验定义的动作序列（即习惯行为）就是全部需要解决特定任务，例如有节奏的运动，或者在本例中，简单的拾取和放置操作。这种场景可能对基本动作的顺序几乎没有不确定性，而这些基本动作不一定涉及重复的在线决策。

但在实践中如何编码连续轨迹之间的转换呢？为了阐明这一点，我们揭示了高层和低层流程之间有趣的并行性，如图 3a 所示。在离散模型中，状态以代理在特定时刻通过相应的概率分布可以采取的每个策略为条件，并且通过对所有转换的预期状态进行平均来找到总体状态。同样的技术也适用于混合模型，其中每个可能的离散结果的概率与连续状态相结合，以计算将偏置较低水平的平均信号。同样，我们提出可以通过对独立贡献的结果进行平均来生成复合连续动态，每个贡献都编码一个原始轨迹。

其中μ∑I，j和μ∑e，k是通过上述意图计算的未来状态。请注意，隐藏的原因可以作为吸引子增益，或指定一个状态相对于另一个状态的相对强度【42，48】；结果，隐藏原因的调节实现了固定的多步行为。事实上，由于信念动态已经存储并嵌入了每个未来目标，信念将遵循所有活动状态的贡献。具体来说，我们希望以下行为:（I）。。（ii）手一接触到物体。。（即握紧手）；（iii）当代理人已经抓住物体时，触及物体的意图应由，1代替（即，将手随着物体向目标位置移动）；（iv）当代理到达目标位置时，执行，。。以释放对象。请注意，在代理正确抓取对象之前，触及对象的意图应该是活动的，因为对象可能正在移动，而抓取意图会失败。通过计算和组合信念的布尔函数（或sigmoid函数以实现平滑过渡），可以轻松实现所需的行为。定义了每个意图的动态预测误差后:

图 3b 显示了该模型与运动学习第三阶段相比的图形表示。连续模型现在以最有效的方式对整个任务的动态进行编码，因为该机制是完全自主的，并且不需要重复激活更高级别来规划下一步行动。与之前的模型（图 2）不同，之前的模型必须对每一种可能的基本运动（无论是内在的还是外在的）进行编码，效率的提高也是每种模态独立于其他模态对其动态进行编码的结果，转化为抓取（或到达）运动主要被映射到内在（或外在）模态。事实上，隐藏原因J和K的维度通常不同。图 4 显示了使用这种仅连续控制的样本抓取试验的时间范围序列。请注意，内在信念和外在信念都包括对手臂、要抓取的物体和目标位置的估计。

2.4 Discrete and continuous processes compared

总之，目标导向的行为可以通过在不同层次位置运行的镜面机制来实现，如图 3a 所示。将连续置信更新与离散状态推断进行比较，我们注意到通过转移矩阵计算的策略相关 sπ,τ 状态与通过连续意图计算的轨迹

之间的关系。虽然通过使用每个策略概率

计算 BMA 可以找到与策略无关的离散状态 sτ，但在连续情况下，隐藏状态 µi 和 µe 是通过对每个轨迹与相应隐藏原因

进行平均来计算的任务的步骤。

如果我们考虑混合模型，我们还会注意到方程 50 的简化先验的概率分布与构成动态函数的方程 19 的概率之间的相似性。在前一种情况下，每个减少的先验通过每个结果模型概率

进行平均。然而，在这种情况下，完整先验通过整体预测误差

来偏置隐藏状态，该误差已经包含连续模型在下一个离散步骤之前必须实现的最终配置。在仅连续模型中，意图被用来计算不同的更新方向，这些更新方向独立地拉动隐藏状态的信念。此外，方程 15 的先验精度

和方程 22 的动力学精度

在编码意图动态强度方面发挥着相同的作用——将信念引导至期望的状态 – 就感觉可能性而言 – 让智能体接近其当前的感知。至关重要的是，混合模型的加权预测误差为：

如果动力学精度具有相同的值

则仅连续模型的加权动力学预测误差的组合采用以下形式：

然而，请注意，为每个意图编码不同的精度允许额外的调制。事实上，在仅连续模型中，未来轨迹由两个不同的过程加权[45]。一个基于隐藏原因νi和νe强加（并推断）未来状态的快速过程；而且也是一个学习每个轨迹的精度

的缓慢过程。这个结果适合于直观的解释：在主动推理中，特定感官模态的低精度意味着它不可信，代理应该依赖其他信号来更新其内部状态。相应地，高精度的轨迹将是最小化当前上下文中的预测误差的良好选择，即代理将有信心将其用于所考虑的任务。

图 5a 显示了连续模型和混合模型在动态条件下解决任务的能力，其中混合模型使用固定采样时间窗口（公式 16 中的周期T ）。虽然这两个模型在静态抓取（即零物体速度）方面实现了一些相似的性能，但当抓取移动物体时，差异会增加。混合模型的性能下降是由离散部分执行的连续证据采样量引起的，如图 5b 所示，它揭示了反应时间和模型复杂性之间的权衡。一方面，更长的采样时间允许代理积累更多信息，从而更准确地估计离散状态。然而，较长的采样时间也意味着将动作分成较少数量的较长原始动作，这最终使抓取动作失败，因为移动物体在采样期间不断改变其位置。相反，减少采样时间的优点是加快智能体的规划过程（即缩短反应时间），使其能够更准确地掌握物体，但仅限于一定程度。在这种情况下，由于到达运动需要更多的连续轨迹，因此保持相同的性能将需要更长的策略。同时，由于离散模型以更高的速率激活以进行动作重新规划，因此模拟时间也稳步增加，这可能与更高的能量需求相关。

图 6a 和 6b 显示了混合模型和恒定采样时间下的伸手动作和喘气动作之间的相互作用。在这里，可以区分五个不同的阶段：纯粹的到达运动、智能体缓慢接近物体并准备抓取动作的中间阶段、抓取阶段、另一个到达运动，最后是物体释放。因此，离散模型对动作概率的计算实现了伸手动作和抓握动作之间的平滑过渡，尽管在这个阶段仍然被编码为单独的表示。

这一发现可能提供线索，说明离散动作如何导致连续域中出现更平滑的复合轨迹，这是运动技能学习的中间阶段的典型。在第二（联想）阶段，皮质活动开始向后部区域转移。该过程可以如图 6c 所示进行建模，在离散模型和连续模型之间进行平衡工作，其中后者开始构建自己的任务动态，最终形成图 3b 的模型。请注意与图 2 的差异，其中连续模型仅接收由所有离散状态组合产生的静态先验。总之，在认知阶段，任务将包括到达运动、寻找下一个最佳动作的认知努力，然后是纯粹的抓取动作，而在联想阶段，连续模型将处理产生流畅运动的过渡这使得手一接近物体就靠近。因此，离散模型可以用伸手抓取动作和伸手释放动作来表示任务，同时减少计算需求。

3 Discussion

了解支持任务专业化和运动技能学习的机制对于当前机器人和智能系统的进步至关重要。然而，一个常见的问题是，高层和低层过程经常用不同的视角和技术进行分析和开发，例如最优控制算法[49]或深度神经网络[50]。相反，人类和动物运动系统背后的灵活性和鲁棒性在于这样一个事实：新技能的学习是一个统一的过程，最初涉及前额叶大脑区域的普遍激活，并逐渐转向后部和皮层下区域[12]。事实上，持续依赖整个层次结构对计算的要求很高，而且高层区域无法快速跟踪环境变化。因此，通过将学习到的动作转换和策略卸载到在连续域中运行的更低、更快的层次层，可以更有效地解决高度动态的任务[51, 12]。众所周知，后顶叶皮层在一系列动作中并行编码多个目标，如多步到达，即使存在相当大的延迟目标状态之间的差异[52]，并且有证据表明有节奏和重复的运动不涉及前额叶区域的持续激活，而仅依赖于感觉运动回路[53]

我们建议，主动推理的混合和连续模型的计算可以与运动技能学习的不同阶段进行比较。当智能体需要与新情况进行交互时，高层规划至关重要，因为仅靠低层无法最大限度地减少生成的预测误差，这些误差随后会沿着皮质层次结构向上爬。当智能体练习任务并学习已经考虑到环境不确定性和可能的动态元素的复合状态转换时，任务展开过程中出现的预测误差可以通过较低级别的专门神经元和重复调用来更有效地解释。高水平停止。即使在使用基本的离散动作时， BMR 也会自然地产生与伸手和抓握之间的接近阶段相对应的复合运动，因为连续的证据积累提供了离散隐藏状态的概率之间的平滑过渡，如图 6a 和 6b 所示。因此，我们提出，连续模型的动力学可能与其离散模型具有镜面结构，即最终轨迹是通过对独立分布进行加权生成的。因此，复合运动可能会通过两个并行过程嵌入到连续动力学中：虽然离散模型可以快速施加和推断特定轨迹，但它们的精度还通过相同的自由能最小化机制进行调整，以便系统对一项行动的执行情况进行评分。换句话说，我们建议这些精度不仅充当调制信号，而且以感官精度的镜面方式代表代理对当前任务状态的信心[42] 。特定轨迹的精度越高，对于解释智能体的最终目标就越有用；另一方面，低轨迹精度意味着智能体对其针对特定上下文的选择没有信心。

此外，图 5b 中的结果显示了反应时间、规划能力和计算需求之间的有趣权衡。如果环境发生高频变化，偶尔调用离散模型将无法及时响应新的感官观察。另一方面，重复的动作重新规划超过一定限度会适得其反，因为虽然允许智能体对环境变化做出更快的反应，但它增加了离散模型寻找正确策略的工作量，因为更多的离散步骤是需要。相反，仅连续模型可以在更短的时间内和少量的资源消耗中实现最佳性能，但如果任务进入意外轨道，则无法执行重新计划。如方法部分所示，所提出的工作还包含关于最先进的混合模型的两个新颖之处：首先，通过灵活意图的规范，在每个离散步骤开始时动态生成减少的先验 ‑这大致对应于离散动作让代理能够在动态环境中运行。其次，离散模型可以强加先验并积累多种连续模式（例如内在和外在）的证据。这样做的优点是，人们可以实现更复杂的目标（例如，达到特定的可供性，如补充材料中所示），并且可以访问更多信息来推断组合的离散状态（例如，位置的外在状态，以及位置的内在状态）。手状态）。

最后，我们在离散、混合和连续模型之间提出的类比可能有助于揭示皮质区域内的信息处理。据推测，皮层在一个层次深度不断增加的离散模型系统中工作（例如，运动、联想、边缘） [11]，而与接收感官观察的连续模型的接口应该是通过皮层下结构实现的，例如上丘[35]或丘脑[34]。由于发现更深的皮质层编码越来越离散的表示[18]，后者也可能是当层次结构在空间上很深时推理过程中产生的神经活动不变性的结果。从这个角度来看，将特定层视为编码离散表示还是连续表示更有意义皮层计算也已通过连续模型进行了模拟[54, 55]，但正如[18] 中所指出的那样，即使是第一个计算神经处理的过程可以被视为处理许多小类别从高层次的角度来看，两种模式之间可能会发生逐渐过渡。因此，由于所有区域最终都必须处理连续信号，因此寻找两个过程之间的类比可能会有所帮助（例如，离散模型的策略优化通常与皮质纹状体通路进行比较[34]，但与奖励相关的活动已被记录也在初级视觉皮层 V1 中 [56]）。

总的来说，这些结果可能为解释任务专业化如何以生物学上合理的方式发生铺平道路。然而，在这项初步研究中，不同阶段分别进行了分析，以显示政策与动态轨迹之间的关系。需要进一步的研究来了解整个层次结构中预测误差的产生如何导致从离散过程到连续过程的适应。两个有希望的方向是实现深层分层模型[43]，并让连续动态的先验和精度（在整个任务的模拟中保持固定）适应预测误差，从而允许基于当前的任务和环境状态。最后，未来的工作将评估混合主动推理模型模拟人体运动的能力；例如，将对象动力学与代理的愿望一起编码可能会考虑预期效果，从而模拟需要捕捉移动对象的更接近的运动学实验。

4 Methods

4.1 Perception, control, and the variational free energy

主动推理假设生物体依靠内部生成模型来感知环境，该模型是通过推断外部原因如何在真实生成过程中产生感觉而构建的[17, 20]。在连续域中，这个过程通常被分解为隐藏原因

、隐藏状态

和可观察结果

的概率分布：

这些分布由高斯函数近似：

对应于以下表示环境如何演变的非线性随机方程：

这里，D是微分移位算子，符号~表示以广义坐标编码的变量，代表它们的瞬时轨迹，并且我们用符号

表示分布的广义精度。

直接评估后验

是很棘手的，因为它涉及到不可访问边际的计算

。变分解决方案是用易于处理的分布来近似后验分布，例如高斯分布：

考虑到分母

仍然取决于边际

），我们用对数证据和变分自由能 (VFE) 来表达 KL 散度，并最小化后者的量。鉴于 KL散度是非负的（由于 Jensen 不等式），VFE 提供了对数证据的上限 ‑ 因此， VFE 最小化改善了证据和模型拟合：

在前面的近似下，自由能最小化通过以下表达式变成迭代参数更新：

在主动推理中，目标通常被编码为先验信念：由于生成模型指定了世界如何演变，如果一个人错误地相信处于某种特定状态，他或她的行为最终将导致寻找这些状态这使他或她的信念成为现实。此过程允许通过VFE实施目标导向的行为，使代理保持在可预测且更安全的空间中[17]。请注意，此过程可以扩展以构建分层模型，其中每个级别不断参与计算预测，将其与下面的状态进行比较，并使用生成的预测误差更新其状态。这些简单的步骤在整个层次结构中重复，以便从编码目标的先前信念中生成一系列原始本体感受轨迹，最终由运动系统的最低级别实现。

4.2 Planning with the expected free energy

尽管连续时间内的主动推理可以通过跟踪连续环境产生的瞬时轨迹来处理现实世界的问题，但它有一些局限性和狭窄的用途，因为它不能轻松处理更一般类型的行动，包括决策。 VFE 的最小化只能根据当前或过去的观察来调整近似后验，并且不会评估未来的状态和结果。为了赋予代理这种能力，需要考虑一个称为预期自由能 (EFE) 的量[23, 24]。我们首先用策略 π 来增强生成模型：

其中 s 和 o 是离散状态和结果。请注意，这些政策不是简单的刺激-反应映射（如强化学习方案中那样），而是一系列行动。由于行动计划涉及选择那些导致所需先验的政策，因此我们还必须考虑尚未观察到的未来结果。因此，EFE 是通过对它们进行调节而专门构建的，因此被视为隐藏状态：

其中概率分布

编码首选结果。最后两个术语分别称为认知（减少不确定性）和实用（目标寻求）。在实践中，这个量是通过首先分解代理的生成模型来使用的，如 POMDP 中所示：

这些元素中的每一个都可以用分类分布来表示：

其中 D 编码关于初始状态的信念，E 编码先验策略，A 是似然矩阵，

是转移矩阵。如果我们假设在平均场近似下，近似后验因式分解为独立分布：

我们可以使用变分消息传递的标准技术来推断每个后验

并将它们组合成全局后验

。为了更新隐藏状态的后验，我们结合了来自过去状态、未来状态和结果的消息，用足够的统计量来表达每一项，最后应用 softmax 函数来获得适当的概率分布：

类似地，为了更新 q(π)，我们结合了来自矩阵 E 给出的先验策略的消息以及来自基于策略的未来观察的消息；我们可以通过特定时间 τ 条件下的 EFE 来近似后者：

4.3 Bayesian model reduction in hybrid models

为了使离散模型能够利用连续输入的丰富信息，需要一种与连续框架进行通信的形式。特别是，由于这里的两个层级在不同的领域中运作，我们需要一种从离散预测获取连续先验的方法，同时，基于连续证据估计离散结果。这两个问题都可以通过贝叶斯模型简化[37, 36]来轻松解决。考虑一个带有参数θ和数据y的生成模型