前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >连续时间主动推理控制综述

连续时间主动推理控制综述

作者头像
用户1908973
发布2024-04-11 14:27:32
710
发布2024-04-11 14:27:32
举报
文章被收录于专栏:CreateAMindCreateAMind

Abstract

大脑选择和控制行为的方式仍然存在广泛争议。基于最优控制的主流方法侧重于优化成本函数的刺激响应映射。观念运动理论和控制论提出了不同的观点:它们认为,通过激活动作效果并不断将内部预测与感觉相匹配来选择和控制动作。主动推理在推理机制和基于预测误差的控制方面提供了这些想法的现代表述,可以与生物体的神经机制联系起来。本文提供了连续时间主动推理模型的技术说明,并简要概述了解决四种控制问题的主动推理模型;即目标导向的到达运动的控制、主动感知、运动过程中多感官冲突的解决以及决策和运动控制的集成。至关重要的是,在主动推理中,电机控制的所有这些不同方面都来自相同的优化过程,即自由能量的最小化,并且不需要设计单独的成本函数。因此,主动推理为运动控制的各个方面提供了统一的视角,可以为生物控制机制的研究以及人工和机器人系统的设计提供信息。

关键词 :主动推理;电机控制;主动感应;预测性大脑;意念运动理论;控制论

1 Introduction 移到文末,总结机自由能主动推理是最优的控制理论

参考:一个框架整合大脑理论 4 认知范式转变后的正宗AGI理论及大量理论的比较

2 Active Inference in continuous time

主动推理已被用于对与生物有机体和机器人相关的运动控制、决策、规划和规则学习等各种问题进行建模[26, 35–38]。本节对连续时间内的主动推理进行了简洁的正式介绍;包含离散时间配方的更详细的治疗可以在[23]中找到。

主动推理建立在自由能原理(FEP)的基础上,该原理假设所有生物体都努力尽量减少“与世界感官交流相关的惊喜”,使它们能够抵抗自然的混乱倾向[23]。变分自由能 (VFE) – 或简称自由能 – F 被引入作为数学上可处理的意外上限;它是一种在统计学中广泛使用的函数,作为变分贝叶斯方法的一部分 [39],它类似于机器学习中使用的证据下界 (ELBO)。主动推理呼吁自由能的最小化来模拟生物体的行动‑感知循环,并假设行动和感知都最小化相同的(自由能)量,这一点稍后将变得清楚。

主动推理代理的任何实现都需要指定两个交互系统,如图 1 所示。第一个是“生成过程”,它描述了代理如何与之交互的物理系统(例如,环境)。和/或代理的身体)随时间演变,以及它如何映射到代理观察到的感官输入。第二个是“生成模型”,它描述了智能体所持有的关于系统如何及时演化并映射到感觉状态的内部模型。如图 1 所示,两个系统双向交互:生成过程确定代理接收和处理的感觉输入(例如,计算预测误差),而生成模型产生影响生成过程动态的动作。

主动推理的动作‑感知循环可以总结如下。考虑一个沉浸在动态环境中的智能体,并接收由隐藏变量 u 生成的观察结果y ,这些变量通常由隐藏状态x和隐藏原因v组成(但它们也可能包括其他变量,例如在不同时间演化的参数)尺度)[40]。变分方法通过定义辅助的近似后验分布Q(u)(有时称为识别密度)来近似难以处理的后验

[39, 41]。该近似值是通过最小化这两个分布之间的 Kullback‑Leibler (KL) 散度来实现的。然而,由于这个量仍然取决于棘手的边际 P(y),因此它被 VFE F 的(形式上等价的)最小化所取代。后者提供了对数证据(或意外)的上限,并且其最小化是容易处理的,因为它取决于智能体知道或推断出的两个量:联合概率P(u, y) 和近似后验Q(u)。

由于针对任意Q(u)的 F 优化通常很复杂,因此通常会做出一些额外的(生物学上合理的)假设。主动推理中做出的标准假设是拉普拉斯近似[42],这意味着近似后验是多元高斯分布,即在u = {x, v} 的简单情况下, Q(u) = N ({ µ, ν}, Π−1 ),其中µ是关于隐藏状态的最佳猜测或置信度, ν是关于隐藏原因的置信度,Π 是它们的精度或逆协方差矩阵。用于简化识别密度的第二个常见假设是平均场近似[40],它使模型的某些变量条件独立(例如,隐藏状态变量和我们此处未考虑的其他模型参数)。鉴于上述假设,可以将函数 F 转换为函数并对其进行评估,直到不影响最小化过程的常数:

因此,在FEP下,一切都简化为自由能最小化的过程;然而,这需要指定一个生成模型 这是我们的下一个主题。

2.1 Generative model

设计生成模型意味着关于代理如何表示系统动力学以及映射到其感官输入的额外假设。生成模型可以用联合概率密度

来描述,它强调了两个组件之间的分离:观察(或类似的)模型和 先了解隐藏变量。后者可以进一步分解为联合密度

。一般来说,隐藏的原因v 是充当用于描述环境的隐藏状态 x 的因果变量(或先验)的量,从而丰富了系统动力学的表示。在某些主动推理实现中,隐藏原因用于编码代理的目标(当我们讨论具体示例时,这一点将会变得清晰)。这是因为,根据思想运动和控制论的表述,任何与隐藏原因的偏差都会被记录为智能体试图最小化的预测误差。

由代理表示的动态环境通常用以下方式建模以下随机方程:

其中函数 g 将潜在变量 x 和 v 转换为观测状态 y,f 编码隐藏状态随时间的演变,η 是隐藏原因的先验分布的平均值,而

是描述系统的噪声项 不确定性,这里假设属于均值为零、精度为

的多元正态分布。

这导致 VFE:

其中 µ 和 µ′ 分别是关于隐藏状态

的第 0 次和第 1 次时间顺序的内部表示(信念)。因此,VFE 采用预测误差的二次形式之和的形式:感知预测误差

、状态或模型预测误差

以及先验预测误差

为了有效地表示生成过程的复杂动态,可以通过使用超出一阶的广义运动坐标[32,43]来改进代理的模型。例如,假设大脑代表对物体位置的信念。在广义坐标模型下,它还将保持对其速度、加速度、加加速度等的信念。然后将所有这些时间导数连接起来形成广义置信度,用向量

表示。相同的符号用于其他变量的时间导数(即

将局部线性化[43]应用于系统动力学,然后消除导数中的交叉项,可以通过以下方程组来表达生成模型:

可以用紧凑的形式表示为

。这里,D 算子将广义坐标的每个元素映射到其时间导数:

。请注意,使用广义坐标不仅可以处理白色噪声,还可以处理有色噪声。一般来说,引入这些坐标是为了处理非马尔可夫过程(40,44,采用具有有限非零自相关函数的连续随机变量的斯特拉托尼维奇解释。这通常是使用充当时间协方差矩阵来完成的噪声项之间的高斯滤波器修改广义精度矩阵,表示为

。这导致自由能具有相同(二次)形式的预测误差 43。

2.2 Free Energy minimization

主动推理假设自由能以两种互补的方式最小化。其中之一与预测编码[30]相同,包括修改代理的内部信念,以产生与当前观察相匹配的预测。特别是,有人提出[40],神经活动的内在动力学以实现(修改的)梯度下降方案的方式演化:

其中 ku 和 k₁ 是可调学习率。

从生物学的角度来看,这意味着智能体不断地参与推理过程,以捕获每时每刻所感知的内容与导致这些感知的原因之间的层次关系。重要的是,广义信念的特定阶的瞬时导数不一定对应于对该导数的信念(即 μ ≠ μ');这两项之间的差异提供了一个额外的误差项来最小化。如方程式所示。如图5所示,只有当自由能最小化时,广义信念才能捕获环境的真实瞬时轨迹。此外,由于自由能由二次形式的总和组成,其偏导数导致简单的更新方程——与各自精度加权的预测误差成正比——这与最初在[30:的预测编码模型中导出的方程类似:

因此,对隐藏状态的广义信念的整体更新受到三种不同的力量的影响:与感觉预测误差成比例的似然分量;来自前一个和下一个时间顺序的状态预测误差的前向和后向分量。

然而,在主动推理中,还有第二种方法可以最小化自由能:

在环境中行动时,代理会产生与其预测相匹配的感官观察结果。这种与行动相关的最小化自由能的方法对于努力实现其目标(或在其生成模型中编码的先验偏好)的模型生物体特别有吸引力。例如,如果一个有机体被赋予了对期望体温的先验并感知到不同的值,它可以通过行动来保持其完整性(例如,通过移动到具有期望温度的地方)——而仅改变其信念可能会 长期下去会导致死亡。简而言之,预测是通过行动来实现的,而不是通过改变想法来纠正。

Figure 2:最优控制(左)和主动推理(右)中电机控制方案的比较。详细讨论请参见正文。

形式上,最小化关于动作 a 的自由能会导致梯度下降方案与之前的情况类似:

其中 ka 是学习率。

请注意,在方程的最后一个梯度中。如图 7 所示,术语 ∂ay 的存在是关键,它指出了智能体对动作的(简单)感官结果的“隐性”知识。这里,“隐性”的含义是动作变量 a 不被认为是 生成模型的一部分,但位于生成模型和过程之间的接口(见图 1)。这种知识并不对应于复杂的“逆”模型,而是对应于简单且短期的行动后果,这可能与反射弧相关。例如,速度控制方案的“逆”模型可以简单地用时间常数 Δt 来近似[45]。正如下面将要解释的,在主动推理框架中,反射弧通过最小化运动区域自上而下的调制信号引起的本体感觉预测误差,成为运动执行的关键[26]。

总之,上述讨论强调了智能体与环境之间的交互具有闭环的特征,在此期间智能体最小化自由能(或者在一些简化的假设下,预测误差)。代理可以通过置信度更新来最小化预测误差,从而使生成模型更接近生成过程,从而创建良好的环境表示。或者,它可以生成使生成过程更接近生成模型的动作。选择前者(信念更新)还是后者(行动)过程仅取决于预测误差及其相对精度之间的相对平衡。例如,一个被赋予极其精确先验的智能体永远不会根据新的证据来更新它,因此总是试图通过行动来最小化自由能。相反,具有不精确先验的智能体更愿意根据新证据更新其信念。这意味着生成模型的设计是确定代理行为的关键选择。处理相同情况但被赋予不同生成模型(例如,具有不同先验)的两个代理可能会产生完全不同的行为模式。

2.3 Neural underpinnings of motor control in Active Inference

简要总结主动推理中运动控制的关键生物学假设并将其与最佳控制等经典理论进行比较是有用的;有关这些差异以及大脑中的正向和逆向模型的广泛处理,请参阅[46]。正如我们在图 2 中强调的那样,主动推理和最优控制 [1, 2] 都使用类似的过程和变量,但排列方式不同。主要区别在于,在主动推理中,前向(生成)模型将本体感觉预测传达到脊髓,以计算反射弧级别的运动命令。相反,在最优控制中,正向模型与更高级别的逆向模型相结合来计算电机控制信号。

因此,在主动推理中,通过对预测错误的低水平抑制来实现行动,这不仅会向上爬,而且还会对肌肉状态施加力量。值得注意的是,虽然主动推理的数学公式允许在动作过程中涉及任何感觉方式,但在生物治疗中,通常假设运动控制是通过最小化本体感受而非外感受预测误差来实现的[26],而 自主控制是通过最小化内感受预测误差来实现的[27, 47]。假设运动控制仅涉及本体感觉预测误差的原因是观察到躯体运动系统的传出神经与其他大脑区域的自上而下的预测具有重要的相似性,因此似乎编码本体感觉预测而不是运动命令[26] 。从这个角度来看,本体感觉预测误差是通过反射弧在脊髓中计算的,并由整个皮质层次结构的传入神经反向传播,而外感受预测误差是在各自的功能区域局部生成的。因此,直接的躯体运动传出神经不太可能将纯粹的外感受信号从相应的感觉区域传递到肌肉,或者在运动域和外感受域之间的脊髓中实现困难的反转。这使得外感受感觉不太可能直接用于动作执行,并且标志着与最佳控制的另一个显着差异。然而,仅由本体感受贡献驱动的运动引起了有关多感官冲突解决的一些担忧,稍后将对此进行解释。

Figure 3:目标导向达成的例子,来自[37]。左图:受刺激的机器人。右图:在四种情况下,从起始位置(底部)到目标位置(绿点),机器人 7 DoF 手臂在三个维度上到达轨迹:(子图 a)无噪声;(子图 b)本体感觉嘈杂;(子图 c)视力嘈杂;(子面板 d)本体感觉和视觉嘈杂。蓝色轨迹是 20 条轨迹的平均值,以灰色显示。

3 Examples of Active Inference models of motor control

在这里,我们回顾一些主动推理模型的例子,这些模型针对四种问题:目标导向的运动控制、主动传感、多感官冲突解决和动态环境中的决策。所选模型和函数的列表并不详尽,但提供了连续时间主动推理范围的概述。

3.1 Goal-directed reaching: four examples

如上所述,行动遵循可能由本体感觉观察与本体感觉预测之间的差异导致的预测误差。这种情况可以以目标导向的到达动作为例,其中智能体手臂的起始位置和目标位置最初不同。 [37] 中提出了一个目标导向的达成任务的主动推理实现示例。此处,模拟 7 自由度 (DoF) 机械臂必须到达静态目标(见图 3,左)控制板)。该代理保持对手臂关节角度的信念,并被赋予在同一领域产生预测的本体感受模型和产生末端执行器位置的视觉模型。目标状态被嵌入到一阶动力学函数中,其中每个关节的轨迹由牛顿动力学建模,参数λ、 κ和m代表弹性、粘度和质量。动力学函数的作用是使智能体感知到与所需力成比例的力(或者更好的是,“认为它会感知”该力,因为该力在生成过程中没有任何对应物)。该力是通过对末端执行器和目标位置之间的误差进行运动学反演并考虑所有可能的奇点来计算的。图 3 的右图显示了智能体在引入一个或多个信息源的噪声的各种条件下执行的不同轨迹。

这些结果凸显了与本体感觉(b)、视觉(c)或两种来源(d)都有噪声的情况相比,依赖精确的多感官信息(a)的优势。[48]中描述了类似的到达任务的另一种实现。在这里,代理必须执行两项任务:连续跟踪移动目标并实现朝向两个不同目标位置的多步移动。在这种情况下,高级信念不仅包括手臂的关节角度,还包括与每个交互对象一样多的组件。这些组件被编码在本体感受域中,它们可以被解释为智能体想要实现的特定可供性。为了解决第一个(目标跟踪)任务,信念动态使用自定义“意图”来操纵当前信念以产生可能的未来配置。例如,如果信念由对应于手臂、目标和先前记住的主页按钮的关节配置的三个组件组成 ‑ 即µ = [µa , µt , µh ] ‑ 达到目标的意图是通过函数

。这个未来将第一个分量设置为等于第二个分量,即,然后从当前信念中减去µ预测并嵌入到 0 阶动态中:

其中 λ 是有吸引力的增益。由于目标配置是通过视觉预测连续推断的(此处由变分自动编码器(VAE)[49]的解码器生成,因此代理能够到达并跟踪移动对象,如图 S1 所示。此外, [48]通过考虑同时操作的多个意图来概括上述方法,从而允许人们实现更复杂的动作或多步骤任务,如图4所示。例如,如果构造了一个达到意图的主页按钮 与第一个相同,称为

,总吸引力为:

其中

是两个意图的状态预测误差,精度为

。然后可以通过动态调节后者来实现多步骤行为,例如通过对触觉的信念[50]。请注意,虽然上述示例表明目标状态或本体感觉预测错误的存在总是会导致立即移动,但情况并非总是如此。一个简单的演示是在延迟到达任务中,其中运动意图在准备阶段就已经存在,但动作执行的开始取决于在特定时间呈现的感官提示.然后,精度调制也可以用于分离动作准备和执行的两个阶段(见图4)如[48]中所做的那样。简而言之,高低精度之间存在微妙的平衡:事实上,主动推理中的运动可以通过感觉衰减来实现,即通过降低感觉生成模型的精度,以便信念可以通过其自身的动态自由改变,最终影响接下来将采样的感觉[51]。

Figure 4:[48]的两步延迟到达任务的视觉表示,由两个不同的阶段组成。真实和估计的武器以蓝色和绿色显示,真实和估计的目标以红色和紫色显示。

在[48]中。简而言之,高低精度之间存在着微妙的平衡:事实上,主动推理中的运动可以通过感官衰减来实现,即通过降低感官生成模型的精度,从而使信念可以自由改变通过其自身的动态,最终影响接下来将采样的感觉[51]。

[52] 中说明了伸手(和其他高级)运动的更现实的实现。这项研究引入了一个称为 IE 模型的块,它由内在(例如,关节角度)和外在(例如,笛卡尔位置)信念组成,通过生成运动学模型链接。虽然前面的例子需要逆模型(无论是在动力学函数中 作为伪逆或雅可比转置 还是在 VAE 的隐式向后传递中),但在 [52] 中,逆演是通过推理自然产生的。与内在状态相比,外在目标的定义水平较低,遵循编码到生成过程中的因果关系。保持外在信念具有重要的好处,因为它允许轻松设计复杂的运动(例如,圆形或线性轨迹),而不必担心内在的转变。此外,可以组合不同的块来分别编码运动链每个自由度的内在和外在信息。该方案提供了更有效的控制,允许在(例如)复杂的到达和避障任务期间模拟全身运动学。一些示例请参见图 S2 和 S3。

除了到达之外,主动推理还被用来模拟眼球运动的控制[53‑55]。例如,[56]的研究使用了分层模型,其中包括对绝对坐标中的目标的信念和对聚散调节角的信念。该模型由两条平行路径组成(每只眼睛各一条),将目标透视投影到眼平面中。这种方法允许:(i)通过平均双眼的贡献来推断目标的深度; (ii) 通过在眼睛的投影空间中施加吸引子来固定目标; (iii) 通过动作感知循环同时执行深度估计和目标固定(或主动视觉),这对于抵消眼睛中央凹分辨率不均匀特别有用(见图 S4)。

综上所述,上述示例表明,在主动推理中,可以将运动目标定义为系统动力学内部表示的先验。然后,这些先验通过自由能最小化实现目标导向的控制,而不是像最优控制 [1, 2] 和强化学习 [3] 中那样诉诸刺激响应映射和成本函数(详细讨论请参阅 [46]成本函数在最优控制和主动推理中的作用之间的差异)。如前所述,先验在控制论中与运动控制设定点起着类似的作用。上面的例子也有助于说明编码真实环境动态的生成过程之间的差异,以及代理的生成模型 以及它们在动作感知循环中相互连接的事实。最后,他们说明了可以通过多种方式生成运动,例如,可以强加不同类型的先验来确定不同的行为;我们将在讨论中回到这一点。

3.2 Active sensing

主动传感是指代理使用自身产生的能量来调整其感知以对环境进行采样的能力[57‑59]。一些主动推理模型实施主动传感例程来支持视觉处理 [23, 60] 和胡须运动 [61] 等。

[35]的模型结合了运动预测(重复使用运动系统来预测感知运动)和主动感知(或假设检验)策略:使用眼跳运动来消除替代假设之间的歧义。该架构嵌入了如何执行(手臂和手)动作以生成特定于假设的视觉预测的生成模型,并将扫视引导到信息最丰富(或诊断性)的视觉位置来测试它们。该模型遵循广义预测编码的分层形式,如图 5A 所示。内部状态编码动眼固定中心的表示以及每个假设是视觉输入原因的概率。隐藏的控件决定了吸引目光的位置。该模型通过评估两种竞争假设(强力抓握与精确抓握)下动态视觉位置采样的显着性进行测试,两种条件为:有预成型和没有预成型。

该模型再现了在有或没有信息提示的情况下,对目标导向的抓取动作的观察之间的经验观察到的差异(即,当演员的手被“预先塑造”以抓住两个可能的物体(无论大小)之一时,与当没有预成型)。 [62]的研究报告称,在观察没有信息提示(例如,没有预成形)的目标导向抓取动作时,视觉扫视倾向于跟随被观察的手臂。相反,当存在信息性(预成形)线索时,人们会对要抓住的物体做出预期的扫视。

模拟结果显示,在试验开始后不久,在无预成型条件下出现的反应性手部跟随注视策略与在预成型条件下出现的预期注视策略之间存在显着差异 ‑ 类似于实证研究[62]。提供这种主动传感策略的关键模型组件是显着性图,它将显着性分配给视觉场景的元素,这些元素提供有关要推断的抓取运动(手形)或其目的地(物体)的信息增益 ‑这样,只有当抓取运动的不确定性得到解决时,物体才会变得突出。详细信息请参见[35]。

作者假设,一个分层组织的“动作观察”大脑网络计算预期的手部位置(在较低的层级)和两个相互竞争的假设的概率(在较高的层级)。图 5B 显示了所考虑的两个相互竞争的假设,它们不仅与最终状态(手放在大物体上还是小物体上)有关,而且涵盖了及时展开的整个动作。实际上,它们对应于手部轨迹的(叠加的)图像序列(此处为 6 个时间帧)。如图所示,假设行动者正在触及一个小(或大)物体,则需要在动作执行过程中将手配置为精确握持(或强力抓握) 正是这种假设使得代理通过对信息最丰富的位置进行扫视来进行测试。图 5C‑L 显示了两个示例试验的结果,在这两个试验期间,智能体观察演员执行某项操作

Figure 5: [35]的主动传感模型。(A) 该模型描述了在两个感知假设下应该预期哪些视觉刺激(例如,如果动作目标是大/小物体,当扫视到下一个手部位置时,我应该看到力量/精确把握)并生成 眼跳检查期望是否正确并修正两个假设的概率。在该架构的第一层中,生成本体感受和视觉信号

,然后通过预测误差

的消息传递来计算各自的期望

。(B) 两个相互竞争的假设的示意图,对应于图像序列。(C-L)两个代表性试验的模拟结果,在此期间,智能体观察到一个演员在没有手部预成型(左)或手部预成型(右)的情况下抓住小物体;见正文。

精确抓取小物体,不带(左)或带预成型(右)。特别是,面板显示了示例试验期间两个竞争假设的预期概率 (C);六个时间帧的视频帧中眼跳的位置 (D);相应的显着性图,其中白色位置对应于模型分配更大显着性的位置,因此是下一次眼跳的最佳候选者(E);由模型计算的隐藏(动眼神经)状态(F); (过滤后的)映射(G)中扫视采样的内容;关于“真实”假设的后验信念,其中期望(预期对数概率)以蓝色绘制,相关的不确定性(90% 置信区间)以灰色 (H) 绘制;模型的观察结果,即由后验期望加权的可行假设的混合,表示为模拟步骤期间所有帧的加权叠加(I);以及模型在实验期间执行的眼跳序列 (L)。

如果没有预成形(左图),目光会遵循反应性的、手部跟随的策略,并且在试验的后期,动作会被消除歧义。相反,通过预形状信息(右图),手部运动中出现的线索可以更快地消除正确假设的歧义,并预测推断的物体:眼睛在手到达之前落在小物体上。这个例子说明,我们上面在目标导向行动(例如,达到外部目标)的背景下讨论的相同主动推理机制也可以模拟主动和更高级别的动眼神经控制,其目标是对感觉中枢进行采样以进行假设测试。这两种行为形式都源于不同生成模型下的自由能最小化;虽然我们分别说明它们,但它们也可以同时出现在同一模型中[23]。

3.3 Unintentional actions driven by multisensory conflict

到目前为止,我们讨论了目标导向运动(例如,到达或跟随目标)和主动感知的主动推理模型。然而,运动也可能在很少或没有意识到的情况下无意识地发生。虽然迄今为止,关于无意识运动行为的研究在运动控制文献中发现的空间还很小,但系统性诱导无意识行为的最新证据来自于具体化研究,在这些研究中,受试者经历了一种虚幻的体验,其中虚假的身体(例如,虚拟化身) )或身体部位(例如橡胶手)被视为自己身体(的一部分)[63‑66]。

在这些身体所有权幻觉中,受试者将所看到的身体(部分)视为产生体感感觉的同一因果实体[67‑69],并且在某种程度上,有可能在不打破幻觉的情况下引入关于身体配置的多感官冲突[70, 71]。例如,在橡胶手错觉(RHI)中,当橡胶手放置在真实(遮挡)手旁边时,就会出现关于手位置的视觉本体冲突。自 RHI 的第一份报告以来,这种冲突一直与感知的手位置的本体感觉重新校准有关[63],并且包括感知的手位置在视觉手的方向上的移动。有趣的是,后来的作品将一种活跃的成分与幻觉联系起来。也就是说,如果没有限制,就会无意识地向视觉手的方向施加力并随之移动,在某些情况下,即使受试者被明确指示保持静止[72‑74]。这种行为与抑制与手部感知位置相关的预测误差的主动策略相关。另外,由于主体试图最小化模型不确定性,例如为了了解感知的手位置和真实的手位置是否匹配,所以可能会出现移动。后一个过程已成功重现身体所有权幻觉期间动作感知循环的主动推理实现 [36,72,74]。

[72]的研究引入了一种主动推理模型,该模型是在所有权幻想期间出现的主动策略,以抑制多感官(自我感知)冲突。该模型是根据经典 RHI 的虚拟版本(使用虚拟手,而不是橡胶手)量身定制的,其中受试者不允许移动手。与此一致,模型计算动作,但这些动作不进入手部动力学的计算。事实上,这里的动作被计算为参与者在手臂受到限制的情况下体验幻觉时所施加的力量的代表。在这方面,该模型具有与手臂动力学脱钩的内在局限性。另一项研究[36]解决了这一局限性,该研究提出了一个统一的模型,可以解释目标导向的运动行为(即到达动作)和与自我感知相关的多感官冲突引起的无意识运动调整,以及它们的相互作用。

[36]的模型实现了一个代理,该代理不断推断自己的身体配置,并且可以将其设置为达到给定目标的目标。如果没有实例化要达到的目标(这对应于无意移动),则代理将被设置为满足保持其当前配置的要求。图 6A 给出了该模型的示意图。与之前的手臂控制实现相比,一个重要的新颖之处是可以模拟代理没有目标(即无意移动)的情况,通过保留用于完成任务的系统动力学的内部表示来实现(即阻尼振荡器)并将吸引子(即所需状态)设置为当前臂配置。尽管很简单,但这种扩展很关键,因为它允许检查运动的微妙方面,例如无意识的运动调整如何作为自我感知的副产品而出现,以及这些调整如何干扰目标导向的行为。我们在下面讨论的模型的一些结果证明了这一点。与大多数以前的实现的第二个区别是,动作是通过同时最小化本体感受和外感受(视觉)域中的预测误差来计算的。这对于正确模拟在身体状态的多感官冲突下进行的视觉引导动作至关重要。

图6B显示了在所有权错觉期间物理手与视觉对应物的标准伸手、无意识对准以及在身体多感官冲突下伸手的比较结果(分别从左到右的列)。这三个模拟使用相同的代理,并接受不同的任务和感官输入组合。首先,为代理分配一个达到标准的任务;在另外两种情况下,智能体对橡胶/虚拟手产生所有权幻觉,并且关于肢体状态的感觉输入分别由视觉和本体感受域中的假手传输。在一种情况下,静态橡胶手相对于真实的手发生位移,并且除了观察(和推断)其自身状态之外,代理没有分配任何任务。在另一种情况下,代理必须到达目标,但虚拟手的速度设置为真实手的 1.3 倍,以便在任务执行期间两只手逐渐相互位移。该模型假设通过将来自假手的视觉输入视为由推断的手臂配置生成的视觉输入来实现所有权幻觉,该手臂配置由本体感受域(yθ) 中的代理进行编码。因此,感官预测采用以下形式:

,其中

(更多详细信息请参见图 6A)。在静态 RHI 的模拟中,通过调整其两个参数来调整内部模型:(i) 由视觉驱动的动作分量的增益,设置为零以考虑假手是静态的事实,并且(B) 三个模拟的结果:标准伸手(左列)、经典橡胶手错觉(中列)和视觉本体冲突下的伸手(右列)。在每一列中,从上到下的面板显示了真实和推断的关节角度和关节角速度、预测误差的时间演变,以及本体感觉和视觉预测误差最小化对动作的贡献。

Figure 6: 主动推理模型的示意性实现和结果,同时考虑了有意(目标导向)和无意的运动,如[36]中所述。(A) 该模型实现了一个 1-DoF 代理,其配置由其肘关节角度和角速度唯一描述

- 并且通过本体感受接收有关其自身配置和环境的信息 和视觉

。真实手臂的动力学

– 表示一个阻尼系统,可能会受到通过动作产生的内力(此处形式化为关节角加速度)的影响,而手臂动力学的内部模型

由阻尼振荡器设置,其中吸引器要么设置为手臂配置

,其中手位于目标上(用于到达动作),要么设置为当智能体无意移动时的当前状态。( B) 三个模拟的结果:标准伸手(左列)、经典橡胶手错觉(中列)和视觉本体冲突下伸手(右列)。在每一列中,从上到下的面板显示了真实和推断的关节角度和关节角速度、预测误差的时间演变,以及本体感觉和视觉预测误差最小化对动作的贡献。

不受代理的控制,并且(ii)视觉领域中感觉噪声的内部估计增加,以粗略地解释这样一个事实:(正如现实世界中发生的那样)在经历所有权幻觉时,代理仍然是 意识到所看到的手是假的,因此作为有关其自身身体状态的信息来源“不太可靠”;更多细节请参见[36]。

图 6B 所示的三个模拟的结果表明,所提出的实现可以解释有意的运动行为(如达到标准的示例),以及由自我身体处理中的多感官冲突驱动的无意识的运动调整(如观察到的) 在所有权幻想的实验环境中。此外,该模型成功地再现了在存在多感官冲突的情况下观察到的视觉引导动作的运动行为,例如在视觉运动旋转下或具有异常速度映射的情况下。重要的是,这种情况表明该动作是被驱动的 视觉和本体感觉预测错误;事实上,将动作仅与本体感觉预测误差的最小化相关联将导致代理超出视觉目标的令人难以置信的结果(详细信息请参阅[36])。有趣的是,之前类似视觉运动旋转任务的主动推理模型表明,调节(视觉和本体感觉)感觉噪声的内部估计的相对权重可以模仿类似于实验室中观察到的注意力效果[75]。

这些结果共同得出两个主要见解。首先,在有意触及的情况下,预测误差最初由目标吸引子作用下内部动态驱动的模型误差主导;然后,由于感知推理的模型错误而出现感觉预测错误。在 RHI 的情况下,模型错误不存在(因为没有实例化运动意图),并且感觉预测错误(因此动作)是与自我身体感知相关的视觉本体感受冲突的副产品。缺乏模型误差的一个重要后果是,代理不会更新关节角速度的内部估计,该估计保持为空,就好像没有发生运动一样(假设代理无法通过本体感受器直接访问关节速度) 。这被认为是缺乏运动意识的可能解释,运动意识通常表现为微妙的无意识运动调整。

其次,当模拟视觉本体感受冲突下的触及时,通过允许外感受(不仅仅是本体感受)预测误差来驱动动作,可以获得与实验数据更好的拟合。考虑到真手和假手之间的异常速度映射产生的空间错位,推断的姿势 (μθ) 偏向于视觉手。如果动作仅由本体感觉预测误差驱动,则虚拟手和真实手都会超出目标,这与经验观察相悖,即一旦视觉手正确到达目标,任务就完成了。

3.4 Mixed models for sensorimotor decisions

尽管传统文献将决策和行动控制系统视为独立的认知过程,但最近的趋势将它们视为同一集成系统的两个相互作用的层面[76‑78]。完成各种技能任务需要做出一系列决定,以确定要进行的动作顺序,并指导感觉运动行为。同时,行动可以决定现实世界的变化,迫使我们修改已执行任务的目标并修改先前想象的计划。

从建模的角度来看,该感觉运动决策系统中使用的变量具有不同的性质:决策通常涉及离散变量,这些变量选择构成运动行为的动作序列,而运动行为的执行会引起一些动作的动态变化。连续变量(例如,收缩肌肉或降低体温)。为了将离散时间变量和连续时间变量集成到同一个主动推理模型中,可以采用所谓的“混合”模型[79]。混合模型继承了分层生成模型的架构,其中一个级别的预测充当下一个级别的先验,然后计算预测误差,然后将其用作更高级别的似然信号。在典型的两层混合模型中,较高层由离散的部分可观察马尔可夫决策过程(POMDP)组成;在本文中,我们没有关注这种离散时间主动推理,但可以在[23]中找到完整的处理方法。相反,典型混合模型的下层准确地实现了连续时间内的主动推理,这也是本文的重点。较高层生成离散结果序列,这些结果构成隐藏原因的先验(或定点吸引子),指导较低层控制的感觉运动过程。由于这两层由不同性质的变量组成,因此它们通过[79]中描述的特定接口连接,该接口通过降序和升序消息将信念从一层传播到另一层。

在混合模型中,推理通过确定高层控制状态(即策略)序列的概率π来进行。每个策略ππ都会生成隐藏离散状态

之间的转换,其对应于一系列预测结果

。通过对所有策略的结果执行贝叶斯模型平均值,获得后验预测分布

并作为降序消息发送到较低的连续层。每个分量

都可以理解为一个特定的模型,将较低级别的连续动态控制在特定的方向上。结果模型到连续空间的映射表示为ηm,编码固定的经验先验;第二个贝叶斯模型平均值定义了隐藏原因 ν 上的实际先验η ,即

。对连续观测进行采样后,下层通过动态系统在一段时间内 T 积累的模型证据,返回每个离散结果的置信度的升序后验估计:

其中

分别表示关于单个模型 m 和完整模型集的连续观察

的日志证据。换句话说,L(t)m 是在经验简化 (nm) 和完整 (n) 先验 80下用于对结果进行采样的两个(高斯)概率密度之间的事后贝叶斯比较。可以证明如果

;参见[79 的演示。

另一方面,

表示竞争结果模型的自由能,定义为它们的下降先验惊喜 - ln 07,m 和它们随时间积分的上升后验的对数证据

之间的总和。请注意,当 T = 0 时,升序后验会减少为降序先验。因此,

为与预测离散模型相关的采样连续结果分配分数。为了将每个模型的分数转换回离散层,E(t) 通过 softmax函数传递,以给出每个结果模型的后验,以便它可以用作 POMDP 推理过程中的离散观察。

在过去的几年中,各种研究使用混合模型来针对需要离散变量和连续变量的场景。例如,[81]提出了一种混合生成模型来从环境中采样视觉信息,它与上面介绍的[35]的主动感知模型有一些相似之处,但集成了离散变量和连续变量。模型的离散层实现 POMDP 来构建一系列眼跳目标并决定看向哪里。这些决策通过实现如何观看的连续层转化为动眼系统的运动,即通过控制解剖效应器来实现眼跳。接下来,采样的观测值被反馈到离散层以评估眼跳序列的优劣性。

类似的混合生成模型被用来研究药物和动眼行为之间的相互作用,重点关注胆碱能和 GABA 能药物对注视目标选择和眼跳速度的影响 [54]。作者模拟了[82]中引入的动眼神经任务,其中给出了给定扫视位置的提示,在其消失后,执行到目标的扫视。在用于模拟动眼神经任务的混合模型中,离散层生成有关注视位置的预测,这些位置构成了连续状态空间中动眼神经系统动力学的吸引点。通过改变混合模型的各种参数来模拟神经调节剂的作用;即,隐藏状态转换的精度(去甲肾上腺素)、隐藏状态和感觉数据之间的映射(乙酰胆碱)、对最佳眼跳选择的信念(多巴胺)或控制眼跳峰值速度的经验先验(GABA) 。

混合模型的另一个应用是“主动聆听”模型[83],它模拟从听觉感知中解析有意义的单词。借鉴主动视觉的一些见解,生成模型通过根据一些先前的约束放置单词边界来分割连续的声学信号流。例如,在某个合理的时间范围内,一个单词的偏移量应该先于后续单词的开始;在语音中,信号分段更有可能包含单词而不是非单词;选择一种特定的语言,存在对可能产生的单词的先验知识;然后,主动聆听模型通过识别几个看似合理的边界间隔来继续进行,这些边界间隔为先前关于单词的信念提供了最好的证据。

另一个有趣的应用在[84]中进行了说明。这项研究表明,主动推理可以模拟多种神经系统状况,并且在适当的生成模型下可能会自然出现一些反射。此外,该实现表明,将手臂动力学的连续模型与离散决策模型联系起来,可以通过从高级目标进行规划来执行多步到达运动。类似的模型被用来解决动态拾放操作[85]。在这种情况下,引入了两个新颖之处。首先,离散模型同时生成并集成来自[52]中也使用的内在和外在模态的预测。其次,代理的简化先验在每个离散步骤中都会更新,使其能够抓住移动的物体。 [86]中模拟了类似的抓取任务,但使用了非常规的方法。在这种情况下,隐藏原因通过分类分布进行采样,而减少的先验是通过隐藏状态的独立动态函数生成的。这允许强加和推断与连续环境中的动态轨迹相对应的静态和离散意图。

[28] 提供了混合模型的另一个例子 ‑ 这次是在内感受处理和自主(而非动作)控制领域。作者使用三种日益复杂的生成模型描述适应性生理调节机制,这些模型能够模拟身体和内感受参数(例如温度、口渴和饥饿)的稳态、变稳态和目标导向调节。虽然前两个生成模型仅使用连续变量,但后一个生成模型(用于目标导向控制)是一个混合模型,其中较高层实现 POMDP 过程以在离散策略中进行选择(例如,在有或没有的情况下运行)瓶水),而下层是一个连续时间系统,通过自主反射调节内感受数据(例如体温)(这可能被认为很大程度上类似于运动反射,但在内感受流上运行[47,87])。为了估计某种政策的长期后果,该模型将较高层的离散结果映射到较低层特定内感受观察的先验信念。相反,较低层模型提供有关离散结果的证据,用作有关预期预测误差的假设,因此有助于评估较高层的政策。这种模型可用于支持计算引导的内感受处理及其可能与精神病理学状况相关的功能障碍的研究[88‑94]。

4 Discussion

大脑如何控制实现目标的运动?有一种由意念运动理论和控制论开创的运动控制观点,根据这种观点,行为与其效果有着千丝万缕的联系,而不是源于对刺激的反应。在这些理论中,行动始于预期效果的一些内部图像 有时称为偏好、目标或设定点 而运动是填补预期效果和感知到的环境条件之间差距的结果。换句话说,这些理论在运动的选择和控制中赋予了动作效果或动作效果与感觉事件之间的差异一定的作用。主动推理在先验、预测和预测误差方面形式化了这些理论的关键直觉,因此与生物有机体 [22–25, 78] 和机器人学 [38, 95‑99]。

在这里,我们简要说明了连续时间内的主动推理,并讨论了针对电机控制各个方面的特定模型;即,执行目标导向的达成行动、主动感知、解决多感官冲突以及离散(与决策相关)和连续(与感知和行动相关)过程的集成。我们简要回顾的每个示例模型都可以根据其自身的优点进行评估,例如其准确解释经验数据的能力。然而,总的来说,这些模型(和其他模型)表明主动推理可以解决各种各样的电机控制过程。重要的是,我们的例子说明的所有电机控制现象都源于相同的自由能最小化过程,而不需要单独的目标函数。这一功能使得主动推理无论作为生物系统的一般理论还是作为推进人工智能和机器人研究的技术框架都极具吸引力。

尽管我们回顾过的模型很有吸引力,但与最佳控制等其他框架相比,运动控制的主动推理帐户仍然相对较年轻 [1, 2]。需要澄清几个悬而未决的问题,以开发从生物学和机器人角度来看都更加成熟的运动控制主动推理帐户。下面我们简要讨论未来研究中需要解决的一些最重要的开放问题。

一个悬而未决的问题涉及运动控制中涉及的感觉方式。正如第 2.3 节所讨论的,一些生物学方面的考虑表明,运动控制可以通过最小化本体感受预测误差而不是外感受预测误差来实现[26]。

然而,正如[36]中强调的那样,在存在外感受错误的情况下,为了正确地再现视觉引导的到达行为,具有外感受错误的驾驶动作似乎是必要的。视觉运动冲突。从实践的角度来看,通过行动将外感受模式纳入自由能量最小化提供了各种优势[45,100]。例如,[101]的到达模型使用本体感受和视觉感觉方式来进行感知和行动。这种方法的一个优点是,即使在存在高本体感受噪声的情况下,代理也可以执行平滑且准确的运动,因为视觉输入更加稳定。正如[48]中所指出的,稳定性的提高不仅源于动作更新中噪音较少,而且还因为动作和高级信念都使用相同的信息进行更新,并且 随着视觉精度的提高,效果更加突出。因此,需要进一步的研究来理解视觉预测在动作执行中的实际作用,或者更清楚地,从生物学合理的角度来看,在存在噪音或不同动作之间存在冲突的情况下,如何正确地实现视觉引导的动作感觉方式。

这个悬而未决的问题意味着,关注生物学方面的主动推理的标准公式与实现高效机器人实施的研究之间可能存在紧张关系。除了多感官集成之外,主动推理代理还可以通过最小化预测误差的增加时间顺序来起作用,如[102]中所示,其中代理由位置和速度控制,从而提高稳定性和对环境的额外控制,如果在信念动态的高阶中嵌入了适当的吸引子。主要受吸引子影响的时间顺序也存在设计差异:虽然这通常嵌入一阶动力学函数中,但某些模型将其编码为二阶以实现更稳定的控制,特别是当机器人处于力控制[37,103]。

最后,不同的模型使用不同类型的误差作为电机控制的吸引力。正如第 2 节中所讨论的,置信度更新取决于三个组成部分:来自较低层次级别的似然误差、来自下一个时间顺序的后向误差以及来自前一个顺序的前向误差。一般来说,有吸引力的作用是通过后向误差来实现的,但这需要计算动力学函数的梯度[100]。其他研究则使用前向误差(计算起来更简单)作为主要吸引力[48]。最后,另一种策略包括在自由能表达式中包含控制成本,以消除估计偏差并提供最佳行动[104]。不同方法的优缺点及其生物学合理性仍有待系统研究。

在主动推理研究中需要考虑的另一个重要维度是生成模型的设计或学习方式 ‑ 因为生成模型隐式定义了代理的行为。一项关键的设计选择涉及生成模型和生成过程的相似或不同程度。为了简单起见,许多主动推理研究使用的生成模型与各自的生成过程几乎相同,几乎没有定量差异。在这些研究中,生成模型通常通过三种方式与生成过程保持一致。首先,内部状态变量被建模为物理环境或身体特征的显式表示,因此生成模型已经包含了显式的任务相关变量,例如速度、压力、异心空间中的位置等。内部先验动力学被设计为模拟世界动态的副本,即实现状态变量变化的微分方程组是相同的。第三,运动命令被构建为物理世界/身体特征的逆模型,因此动作是速度、压力、异心空间或其他物理实体中的位置的直接变化。例如,[51]显示了力匹配任务中行为的主动推理模型,其中受试者必须通过直接按压自己来匹配参考力。在这种情况下,用两个定义自生力和外力动力学的耦合微分方程来模拟物理。感觉(本体感觉和体感)观察是这些隐藏变量的简单线性映射,唯一的例外是本体感觉是自生力的线性映射,而触摸是自生力和外力的原始总和。然后,生成模型的先验动力学与生成过程严格相关,作为一组与上述方程非常相似的微分方程,唯一的例外是因果变量代替了动作。因此,所有到感官预测的映射也具有与从模拟物理生成所描述的观察结果相同的特征。

动眼神经控制延迟适应模型提供了生成模型和生成过程之间相似性的一个类似例子[53]。模型中,生成过程由一组常微分方程组成,描述了当前动眼神经位移和目标位置的动力学;生成感官观察(位移和目标位置)的映射是隐藏变量的线性组合。与前面的示例一样,生成模型只是生成过程的副本,只不过后者包含来自操作的贡献。

然而,主动推理并不一定要求两个系统相同。重要的是,生成模型通过将内部动态转换为电机执行器的命令来提供自适应电机控制,以可预测的方式改变环境。这符合“良好的调节器定理”,该定理指出,良好的控制器需要包含或成为(体现)系统的模型[105‑107]。一种可能性是使用生成模型,该模型仅在近端(例如本体感觉)特征(这是运动命令的最接近结果)而不是远端特征的水平上生成预测。一个例子是主动控制胡须行为的模型,其中生成模型仅预测胡须运动的(体感和本体感觉)后果。该模型不包含任何直接表示与外部对象的距离或其身份的内部变量,但它能够隐式估计它们[61]。估计策略基于晶须的主动控制。也就是说,胡须幅度不断调整以适应到物体的(预期)距离,并且在收敛时,它可以用作动物‑物体距离的隐式推断,如经验所示 [57, 108]。设计或学习适当的生成模型是准确建模运动控制(或其他)任务的关键先决条件。当前机器学习的进步允许从数据推断模型,但如何更好地将它们纳入主动推理模型仍有待研究[38]。

最后,另一个值得进一步研究的关键问题是理论的生物学动机方面与实际实现中使用的计算模型(例如深度神经网络)之间的联系。从生物学的角度来看,分层主动推理假设了一个基于预测编码的时间深度模型,该模型使用跨大脑区域的预测和预测误差的本地消息传递。原则上,这种架构将允许通过生物激励方案在皮质层次结构的更高级别上形成有效且越来越不变的感觉输入表示[109]。然而,在实际实现中,通常使用(深度)神经网络作为生成模型[100]而不是分层预测编码。虽然使用深度网络是有效的,但它没有利用预测编码的本地消息传递,例如[52]的分层运动学模型。此外,深度网络通常只将其最终梯度传递给在高层次层编码的信念,而不是假设层次结构的每个级别的预测误差最小化。对于精确控制也可以提出类似的论点,它与主动推理中的学习和注意力有关。虽然每个级别的信号精度都应该通过最小化自由能来推断,但在实践中很少这样做。例如,在第 3 章所示的研究中,潜在状态的精度矩阵是固定的。原则上,允许主动推理模型改变每个层次的信号精度应该使它们更具适应性和有效性,但这种可能性仍有待在未来的研究中充分研究。

ASI 8年计划 paper6 图网络大脑: 信念传播和主动推理

用消息传递进行高效主动推理

补充(Supplementary)

图 S1: [48] 的主动推理模型在目标跟踪任务期间的性能图示。左右面板显示了模型在到达运动和目标估计过程中的性能。每一行对应一个试验。 L2 随时间变化的真实手与目标之间的距离(左),以及随时间变化的真实手和估计目标位置之间的误差(右)。在大多数试验中,当手臂成功到达目标时,两者都会减少(虚线表示认为试验成功的距目标的最小距离)。

图S2:控制由23自由度组成的简化人形身体。目标是到达 3 个不同的目标位置,即左膝和两条手臂。

图S3:控制由23‑DoF组成的简化人形身体。任务包括用整个身体避开动态障碍。

图 S4:同时目标固定的深度估计任务的时间帧序列。该代理使用交替的动作感知阶段来避免在最小化过程中陷入困境。眼睛以蓝色表示,真实和估计的目标位置以红色和橙色表示。注视轨迹(当发生聚散时)以青色表示。每帧由三个图像组成:整个任务的视图(顶部),以及目标到眼睛的两个相机平面的投影(左下和右下)。

1 Introduction

计算运动控制的一个核心问题是大脑如何选择和控制动作。最优控制 [1, 2] 和强化学习 [3] 等正式框架中的一个常见假设是,行动控制的构建块是刺激‑响应映射或策略。可以使用廉价但刚性的习惯机制(即基于先前强化的历史)或昂贵但灵活的审议机制(即基于行动结果的价值)来选择政策[4]。然后,当选择一项政策时,其执行遵循刺激‑响应控制规则,并且可能伴随着一个行动效果预测过程(通过所谓的前向模型),帮助管理延迟反馈[5]。

这种刺激‑反应观点的另一种观点是观念运动ideomotor观点,即运动是根据其效果(或结果)而不是刺激来选择和控制的[6‑10]。意念运动ideomotor理论的总体思想是,大脑可能会学习动作与其效果之间的统计(双向)关系,然后使用学习到的动作效果代码来预测动作后果(在向前的方向上,从动作到效果)和选择和计划实现预期效果的行动(从效果到行动的向后方向)。刺激可能是这幅图景的一部分,导致刺激‑行动‑效果代码,但它们不会是行动计划、选择和控制的主要负责者。各种实证研究结果支持意念运动理论的主张,即行动效果影响行动的选择和控制。例如,一项研究要求参与者按下四个水平排列的按钮之一以响应颜色刺激[11]。每次按键后,效果刺激会显示在四个水平排列的位置之一。至关重要的是,当效果刺激的位置与按下的按钮之间存在对应关系时,对颜色刺激的反应会更快。尽管颜色刺激出现在效果刺激之前,但这种情况还是发生了,表明预期的动作效果影响了动作。如果行动选择是刺激响应,则不会出现这种影响,因为效果仅在行动完成后发生。其他后续研究表明,效果对行动的影响涉及各种过程,例如行动计划、选择、准备、启动和控制[12‑15],并且它们可能已经存在于婴儿期[16]。

另一个强调行动效果(或结果)而不是刺激响应代码的中心性的框架是控制论[17]。例如,早期的 TOTE(测试、操作、测试、退出)模型假设大脑不断测试内部定义的事件(大致为目标、结果或设定点)与当前感知的事件之间是否存在不匹配;如果它检测到不匹配,它会触发纠正措施来减少不匹配[18]。这种“闭环”控制机制的一个简单说明是恒温器的功能:所需温度或设定点(例如 37 度)与感测温度(例如 35 度)之间的差异会触发一个动作(例如,打开加热装置)直到不再存在不匹配。虽然 TOTE 方案本身并不包括复杂的规划或控制机制,但它例证了一种机制,通过该机制,它是一种内部匹配操作,而不是触发行动的刺激。类似地,在感知控制理论中,系统的中心目标是持续监控某些内部表示的感知变量是否具有期望值(例如,汽车中的车速表指示的数字是 80 km/h),如果没有,触发纠正措施(加速或减速),消除与期望值的差异 [19, 20]。

上述两种(观念运动和控制论)方案要求大脑在内部表示动作效果和其他预期(或预期)事件,并不断地执行匹配操作来计算预期事件和感测事件之间的差异。最近,这些内部匹配操作和差异已成为大量理论和实证研究的焦点[21‑25],这些研究通常根据预测编码和主动推理理论进行概念化[23]。这些理论假设大脑维护着环境规律的统计模型,并用它来不断生成对当前和未来事件(包括行动效果)的预测。至关重要的是,大脑模型可以包括一些优选状态(例如,生理参数的期望值或运动控制的设定点),这些状态调节外部定向动作的控制,例如明显的运动[26]和内部调节动作[27,28]。这是因为大脑不断预测所需值(例如,身体姿势或温度)并监控与感知刺激的差异。任何差异都会被记录为预测错误,从而触发纠正措施,将错误最小化(或者根据上下文,导致模型修订和学习),最终确保系统保持在其首选状态。

为了与运动行为的观念运动和控制论保持一致,主动推理通过假设智能体以目标导向的方式作用于周围环境以达到期望的状态,从而形式化了运动控制问题。主动推理代理通过感官(即感知)监视系统的状态(可能包括外部环境和自身的身体配置),并持续预测系统的状态将如何随时间演变。这种预测处理是通过系统动力学的内部表示来实现的,假设系统动力学是通过暴露于控制环境和身体的统计规律(物理定律、运动学规律等)来学习的,两者都在整个生命周期和整个进化过程。此外,主动推理代理不断地制定感官预测(例如,关于行动结果)并将其与通过感官收集的感官事件进行比较。由此产生的感官预测误差在状态估计过程中被考虑,该过程力求将误差最小化。为了最大限度地减少预测错误,智能体(的大脑)有两种方法。首先,它可以改变最初生成预测的模型:这相当于预测编码、DEM 和广义过滤理论中的信念修正和学习过程 [29,30]、[31,32]。其次,智能体可以通过作用于系统并改变其状态来最小化预测误差,从而使系统产生的事件(由智能体注册为感知事件)变得与其感知预测更加相似。第二种最小化预测错误的方法 通过行动 是主动推理的关键,并通过将早期的思想运动和控制论思想与生物学上合理的预测编码方案联系起来,允许将它们形式化[23]。

虽然在有关离散状态空间中的主动推理的文献中可以找到一些调查和教程 [33, 34],但连续框架受到的关注相对较少。离散模型对于执行规划和决策至关重要,但处理连续信号是与外部环境交互时的关键。鉴于人们对预测处理的兴趣日益浓厚,我们在这里概述了电机控制的建模方式。在本文的其余部分,我们对主动推理进行简短的正式介绍;我们讨论电机控制主动推理模型的各种示例;最后,我们讨论这个框架的独特之处。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-04-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CreateAMind 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档