前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >更新中:灵活意图驱动的目标导向行为

更新中:灵活意图驱动的目标导向行为

作者头像
用户1908973
发布2024-04-11 14:21:31
610
发布2024-04-11 14:21:31
举报
文章被收录于专栏:CreateAMindCreateAMind

Flexible intentions: An Active Inference theory

由动态和灵活的意图驱动的主动推理可以在不断变化的环境中支持目标导向的行为

关键的贡献涉及目标导向行为的形式化以及通过灵活意图的定义将动态目标(例如,移动视觉目标)与运动计划联系起来的过程

动态变化的环境中通过灵活的意图控制⽬标导向行为电路的计算理论

运动控制甚至在获得感官证据之前就开始于目标预期和运动规划

https://www.frontiersin.org/articles/10.3389/fncom.2023.1128694/full

灵活的意图:主动推理理论

马泰奥·普里奥雷利 伊维林·佩夫·斯托亚诺夫*

认知科学与技术研究所 (ISTC)、意大利国家研究委员会 (CNR),意大利帕多瓦

我们提出了一种规范的计算理论,说明大脑如何在动态变化的环境中支持视觉引导的目标导向行动。它扩展了皮质处理的主动推理理论,根据该理论,大脑维持对环境状态的信念,并且运动控制信号试图实现相应的感官预测。我们提出,后顶叶皮层(PPC)中的神经回路可以计算灵活的意图(或基于对目标的信念的运动计划),以动态地生成目标导向的行动,并且我们开发了该过程的计算形式化。包含视觉和本体感觉传感器以及驱动上肢的概念验证代理在目标达成任务中进行了测试。智能体在各种条件下都表现正确,包括静态和动态目标、不同的感官反馈、感官精度、意图增益和运动策略;限制条件也个性化。因此,由动态和灵活的意图驱动的主动推理可以在不断变化的环境中支持目标导向的行为,并且 PPC 可能承载其核心意图机制。更广泛地说,该研究为端到端环境中目标导向行为的研究提供了规范的计算基础,并进一步推进了主动生物系统的机械理论。

1. Introduction

传统上,目标导向动作(例如触及物体)中的感觉运动控制被视为涉及多个步骤的感觉反应映射,从感知开始,在身体姿势域中进行运动规划,将该计划翻译成肌肉命令,最后是运动执行。埃尔哈根和舍纳,2002)。然而,每个步骤都受到噪声和延迟的阻碍,这使得该方法无法在不断变化的环境中运行(Franklin 和 Wolpert,2011)。相反,预测编码或“贝叶斯大脑”理论提出,对环境和身体背景的先验知识和期望提供了重要的预期信息(Rao 和 Ballard,1999)。从这个角度来看,运动控制甚至在获得感官证据之前就开始于目标预期和运动规划。在这里,我们采用这种观点,并通过灵活的目标相关运动计划的形式化,扩展了一种日益流行的基于预测编码的行动理论,即主动推理( Friston 等人,2010 )。此外,基于 PPC 在目标编码和运动规划中的作用的广泛神经证据(Snyder 等人,2000;Galletti 等人,2022),我们提出这种皮质结构最有可能是核心的神经关联意图操纵过程。

在灵长类动物中,背内侧视觉流为持续监测身体姿势和物体的空间位置以指定和指导动作,以及在进化运动过程中执行视觉运动转换提供了关键支持(Cisek 和 Kalaska,2010;Fattori 等人) .,2017 年;加莱蒂和法托里,2018 年)。PPC 位于背侧流的顶点,也与额叶区域、运动和体感皮层双向连接,使其处于有利位置,可以设定目标导向的行动,并通过跟踪移动目标和姿势不断调整运动计划(Andersen ,1995;Gamberini 等人,2021)在共同参考框架中(Cohen 和 Andersen,2002)。毫无疑问,PPC 在视觉引导的运动控制中发挥着至关重要的作用(Desmurget et al., 1999;Filippini et al., 2018;Gamberini et al., 2021)——特定的子区域 V6A 参与控制到达-抓握动作(Galletti et al., 2022)——但其特殊作用仍然存在争议。最一致的观点是,PPC 估计身体和环境的状态并优化它们的相互作用(Medendorp 和 Heed,2019)。其他人将 PPC 视为任务估计器(Haar 和 Donchin,2020)或参与内生注意力和任务设置(Corbetta 和 Shulman,2002)。其底层计算机制尚未完全理解,特别是关于运动规划目标的定义及其在控制过程中的集成(Shadmehr 和 Krakauer,2008)。例如,流行的最佳反馈控制理论通过特定任务的成本函数定义运动目标(Todorov,2004)。鉴于对神经接口的需求不断增长,神经接口提供有关运动意图的信息(Gallego 等人,2022)以支持智能辅助设备(Velliste 等人,2008;Srinivasan) ,运动目标编码的神经级细节变得越来越重要

意图对运动目标或计划进行编码,在运动行为本身开始之前设定,因此可以被视为自愿行为的记忆持有者(Andersen,1995;Snyder 等,1997;Lau 等,2004;Fogassi 等,2004)。,2005)。几个皮质区域负责处理此过程的不同方面:前运动皮质 (PM) 编码结构,而辅助运动区域 (SMA) 控制相位(Gallego 等人,2022)。反过来,PPC 在建立运动计划及其动态调整方面发挥着作用,因为不同的 PPC 神经元对不同的意图敏感(Snyder et al., 2000)。值得注意的是,意图神经元不仅在执行给定动作时做出反应,而且在观察过程中也做出反应,使观察者能够预测所观察到的动作的目标,从而“解读”行动个体的意图(Fogassi et al., 2005) 。运动目标也可以在运动层次结构中观察到,这是运动领域层次预测编码的表达(Friston 等,2011)。

为了从计算的角度研究 PPC 中的神经回路如何通过运动意图支持感觉引导的动作,我们采用了认知和运动控制的主动推理理论,该理论提供了关于计算角色和原理日益增长的吸引力的基本见解。神经系统,特别是关于感知-行动循环(Friston 和 Kiebel,2009;Friston 等人,2010;Bogacz,2017;Parr 等人,2022)。事实上,主动推理提供了这两个皮质任务的形式化,这两个任务都被视为旨在解决所有生物体的关键目标:通过在首选状态下运行(例如,保持恒温)来在不确定的环境中生存。因此,这两项任务都是通过动态最小化称为自由能的量来实现的,其过程通常对应于高水平和低水平预测误差的最小化,即先验和感官期望的满足。主动推理有两个分支适合处理两个不同级别的控制。离散框架可以解释规划和决策等高级认知控制过程,即评估预期结果以选择离散实体中的操作(Pezzulo et al., 2018)。反过来,PPC 中行动计划的动态调整与连续状态空间中的主动推理框架的功能相匹配(Friston等, 2011,2012 )。简而言之,该理论背离了感知、运动规划(Erlhagen 和 Schöner,2002)和运动控制(Todorov,2004)的经典观点,将它们统一并视为动态概率推理问题(Toussaint 和 Storkey,2006;Kaplan 和Friston,2018;Levine,2018;Millidge 等人,2020)。最优控制理论中典型的生物学上难以置信的成本函数被外部状态空间中定义的高级先验所取代,允许复杂的运动,例如行走或手写(Friston,2011;Adams 等,2013)。

下面,我们首先概述背景计算框架,然后详细阐述连续主动推理中的运动规划和意向性。我们最关键的贡献涉及目标导向行为的形式化以及通过灵活意图的定义将动态目标(例如,移动视觉目标)与运动计划联系起来的过程。我们还研究了一种更简洁的仅基于本体感觉预测的运动控制方法。然后,我们提供了实现细节以及模拟主动推理代理的理论贡献的实际演示,我们证明该代理能够检测和达到静态视觉目标并跟踪移动目标。我们还提供详细的性能统计数据并研究系统参数的影响,这些参数的平衡对于运动稳定性至关重要。此外,梯度分析提供了对所执行运动的原因的重要见解。最后,我们讨论如何选择意图来执行一系列目标导向的步骤,例如多阶段行动,并说明神经系统疾病的条件。

2 Computational background 背景移到文末

3. A framework for flexible intentions

接下来,我们开发了一种在动态变化的环境中通过灵活的意图控制⽬标导向行为的电路的计算理论,并讨论了其在 PPC 和相关领域中假定的神经基础。我们首先详细阐述主动推理中的意向性,然后提供具有视觉输入的概念验证代理。以下部分通过模拟视觉引导行为来举例说明和评估该理论。该理论工作受到基础研究的推动,该研究表明 PPC 在通过意图编码进行⽬标导向的感觉运动控制中发挥着关键作用(Andersen,1995;Desmurget 等,1999; Galletti 和 Fattori,2018) ,并扩展了之前的理论和主动推理应用研究(Friston 等人,2009; Pio‑Lopez 等人,2016; Lanillos 和 Cheng,2018; Limanowski 和 Friston,2020)和基于 VAE 的视觉支持(Rood 等人,2020; Sancaktar 等人, 2020)。该模拟的灵感来自于经典的猴子伸手任务(Breveglieri 等人,2014)。

3.1. Flexible intentions

事实证明,最先进的连续主动推理实现可以成功解决各种任务,从动眼动力学(Adams 等人,2015 年)到众所周知的山地汽车问题(Friston 等人,2009 年) 。大多数模拟涉及机器人实验中的到达动作,其中尝试了几种策略来设计⽬标状态,它们以嵌入系统动力学中的吸引子的形式表达。然而,关于生物学合理性似乎存在一些问题首先⽬标状态通常是静态的,智能体无法应对不断变化的环境,期望世界始终以相同的方式演化(Baioumy et al., 2020)。对于动态⽬标,必须将感觉信号的低级信息(例如,有关移动⽬标的视觉输入)直接用于高级动态函数(Friston,2011)。其次,当在外感受域中指定⽬标时,人们使用感官预测通过相应误差的反向传播来获得信念更新方向(Oliver 等人,2019; Sancaktar 等人,2020)。在这种情况下,必须将产生预测并将其与实际观察结果进行比较的相同生成模型复制到系统动力学中,以进一步将信念与所需的线索进行比较 In this case, the same generative model that produces predictions and compares them with the actual observations, has to be duplicated into the system dynamics to further compare the belief with the desired cue。换句话说,同一个模型使用了两种镜面反射机制,当后者可以通过学习来改变时,需要额外关注。

这两个相似问题背后似乎存在一个常见问题动态感官信息如何用于生成高级动态⽬标?相同的推理过程环境原因的影响应该对相同的信号流起作用,并且应该在本地计算⽬标状态,而不会不一致地传递信息。那么如何设计一个灵活的外感受吸引子来避免难以置信的场景呢

尽管高级潜在状态可以像仅编码身体配置一样简单,但代理也可以维持对场景中移动对象的动态估计置信度。然后,可以通过利用这些新信息来计算身体姿势方面的未来行动⽬标,从而计算出意图,以便吸引子(无论是在信念域中定义还是在感觉层次)感官水平 不是固定的,而是取决于当前对世界的感知和内部表征(也取决于过去记忆的经验)。这种意图也可能取决于更高级别区域生成的先验(Friston et al., 2011),因此所考虑的信念位于产生感官预测的生成模型和定义其演化的生成模型之间的中间水平。在一项不平凡的任务中,它的动态通常可能由多个贡献组成,并且不限于单一意图:因此,我们建议将其分解为一组函数,每个函数都提供一个独立的期望,即代理将发现自己处于一个特定状态。那么信念就是不断受到两种性质的多种力量的影响:一种来自较低层次级别(与感官预测误差成比例),将其拉向智能体当前感知的方向,另一种来自横向或更高级别的连接(我们称之为意图预测误差),将其拉向智能体当前感知的方向朝向智能体期望未来感知的内容

如图1所示,从神经角度来看,PPC 是皮质结构计算对身体状态和灵活意图的信念的理想候选者:一方面,处于背侧视觉流 (DVS) 和其他感觉生成模型的顶点,另一方面与运动区域和额叶区域相关,产生连续的轨迹和离散动作块的计划。 PPC 被认为是一个关联区域,它整合来自多种感觉模式的信息并编码视觉运动转换,例如,V6A 区域被认为在到达和抓取任务期间编码物体可供性(Fattori 等人,2017 年; Filippini 等人,2017 年) )。此外,有证据表明,PPC 在一系列动作中并行编码多个⽬标,即使不同⽬标之间存在相当大的延迟(Baldauf 等,2008)。

简而言之,主体不断地对其感知的原因保持合理的假设,无论是身体状态还是外感受域中的物体;通过操纵它们,智能体动态地构建未来状态的表示,即意图,而意图又充当当前信念的先验。因此,如果感觉通路的工作是计算感觉层面的预测,我们假设感觉运动控制层次的更高级别以灵活的意图整合到 PPC 先前的信念状态中,每个状态都预测下一个合理的信念状态。

3.2. Dynamic goal-directed behavior in Active Inference

为了更正式地定义,我们假设神经系统通过包括多个领域(最关键的是本体感知和视觉)的 J 个噪声传感器 S 感知环境并接收运动反馈。在 VB 和高斯近似的识别密度下,我们还假设神经系统基于定义世界的抽象内部表示的信念

运作。此外,我们假设代理在广义信念空间中通过自由能最小化维持了直到第一阶的广义坐标结果

然后,我们将意图 hk 定义为通过 K 个函数

辅助计算当前信念 µ 的目标目标状态的预测。虽然信念和意图都可以是世界的抽象表示,包括外在和内在坐标中的状态,但我们假设一个更简单的情景,即意图在共同的内在运动相关领域对信念进行操作,例如关节角度空间。如前所述,我们假设信念 µ 和意图函数 ik 的输出都有两个概念上不同的组成部分。第一个组成部分可以表示身体状态并用于驱动行动,而第二个组成部分可以表示其他对象的状态——主要是与之交互的目标——这些目标也可以在关节角度空间中被内部编码(这种特定编码的原因稍后将会清楚)。这些目标可以被观察到,但它们也可以被想象或由高级认知控制前额区域(如前额皮层或运动皮层)设定(Genovesio 等人,2012;Stoianov 等人,2016)。

在意图和感觉之间独立的假设下,我们可以将生成模型的联合概率分解为每种感觉模态和意图的分布乘积,其扩展如下:

其中 λ 是意图预测误差

的增益。请注意,目标状态嵌入到这些函数中,即每个意图的信念水平吸引子,以便代理期望以与误差成比例的速度被拉向目标状态。尽管广义信念允许对有关真实生成过程的动态的信息进行编码,但在描述的简单情况下,代理不具有任何此类先验。例如,智能体事先并不知道移动目标的轨迹(在更现实的场景中,其先前的轨迹将通过学习过去的经验而存在并获得),并且将仅依赖于传入的感官信息来更新信念。尽管如此,智能体仍然对目标动态保持(错误)期望,并且确实是(真实)生成过程的演化与(内部和有偏见的)生成模型的演化之间的差异使其能够实现目标导向 行为

动力学函数的预测误差可以分组为单个矩阵:

根据方程(14),我们现在可以计算关于信念的自由能导数:

这里, ⊙ 是逐元素乘积,G 和 F 包含所有感觉生成模型和动力学函数的梯度,而

包含所有感觉和意图精度:

下面,我们将忽略式(28)第0阶的后向误差,因为它对整体动力学的影响要小得多,并将第1阶的前向误差视为实际吸引子力:

其中

分别代表精确加权的感觉和意图预测误差的贡献(在信念域中)。将一阶前向误差视为吸引力而不是零阶后向误差会导致计算更简单,因为无需考虑动力学函数的梯度。然而,需要进一步的研究来了解这两种力量在目标导向行为中的关系。我们可以将

解释为决定意图k的相对吸引子增益的量,使得强度越大的意图对整体更新方向的影响越显着;这些成果也可以通过应用认知控制的更高级别领域的预测来调节。反过来,

对应于每种感觉模态 j 的置信度,因此智能体更依赖于强度更高的传感器。

类似地,我们可以通过最小化动作的自由能来计算控制信号,通过以下方式表达从感觉到动作的映射:

其中

是从信念到行动的逆模型。如果运动信号根据关节速度定义,我们可以分解并近似逆模型如下:

其中θ是关节角度,下标 p 表示本体感受贡献,我们用时间常数t来近似

(Oliver et al., 2019)。如果我们假设隐藏状态的置信度以关节角度编码,则逆模型的计算可能就像找到矩阵的伪逆一样简单。然而,如果信念是在更通用的参考系中指定的,并且本体感受生成模型是非线性函数,则计算相应的梯度可能会更困难,从而导致额外的控制问题,例如感觉信号的时间延迟( Friston,2011) 。或者,我们可以考虑仅由本体感觉预测驱动的运动控制,以便控制信号已经在正确的域中,并且可以通过简单的反射弧路径来实现(Adams 等人,2013 年; Versteeg 等人,2021 年)。在这种情况下,所需要的只是从本体感觉预测到行动的映射

在方程 (31) 中,通过逆模型∂aµ和生成模型梯度的乘积来表达从感觉到动作的映射,允许根据加权感觉贡献ε s来定义控制信号,该贡献已在推理过程中计算出来。这种方法可能具有一些计算优势(稍后将解释),但它不太可能在神经系统中实现,因为控制信号应该传达预测而不是预测误差(Adams 等人,2013)。

算法 1概述了动态计算流程的示意图。为简单起见,我们在描述动力学函数及其精度时也使用了术语“意图”,但必须记住意图预测误差Ei和动态预测误差之间的差异,意图预测误差直接编码朝向⽬标状态的方向Eμ,由相应概率分布的推导得出。

3.3. Neural implementation

图 2显示了所提出的代理的示意性神经元表示,它进一步将早期的感知推理方案(Bogacz, 2017)扩展到成熟的主动推理。在这个简单的模型中,意图由具有两个神经元的单层组成,并且⽬标状态在动态函数中隐式定义;然而,在现实环境中,后者将是由神经元网络组成,其中这些状态被明确编码,并且非线性函数也可以用于实现更高级的行为。还要注意,意图hk和感觉生成模型gj都是同一架构的一部分,唯一的区别是在皮质层次结构中的位置。

每种感觉形态的低级预测误差由神经元表示,其动态取决于感觉生成模型的观察和预测:

当神经活动收敛时,即ε˙sj = 0,我们获得了上面导出的预测误差计算。反过来,通过从一阶置信度中减去生成的动力学函数,可以获得与高级预测误差相对应的神经元的内部活动:

收到来自层次结构顶部和底部的信息后,信念会通过整合每个信号来更新:

这与上面推导的更新公式(方程 28)类似。相应地,信念的一阶分量更新如下:

因此,信念不断地朝着一侧与感知相匹配、另一侧与意图相匹配的方向推进。我们采纳了将缓慢变化的精度编码为突触强度的观点(Bogacz, 2017),但也有其他观点将其视为表层金字塔神经元的增益(Bastos et al., 2012)。无论如何,在推理过程中它们可以动态优化,以最小化自由能的方向——例如,如果一种感知模式不能帮助预测感知,则其权重将减小。这对于意图权重也是如此:通过在运动过程中动态变化,它们可以作为调节信号发挥作用,选择在每个时刻实现的最佳意图,这对于解决同时或顺序任务可能是有用的。然而,这种区别在纯粹的概念上,因为代理人不区分调节未来意图还是增加感知信号的置信度。在信念水平上,每个元素只是遵循自由能最小化的规则。

4. Method

为了证明该方法的可行性及其在动态环境中成功实施⽬标导向行为的能力,我们模拟了一个由驱动上肢组成的代理,该上肢带有视觉和本体感觉传感器,使其能够感知并到达其范围内的静态和移动⽬标。图 3A显示了⽬标的大小和位置,以及肢体大小和示例姿势。由于这里的重点是理论方面,因此我们仅模拟了在 2D 平面上移动的粗略 3‑DoF 肢体模型。然而,该方法很容易推广到更精细的肢体模型和 3D 运动。下面我们描述代理、具体实现以及模拟任务。然后,在结果部分,我们评估智能体在静态和动态条件下的感知和运动控制能力。静态条件模拟了典型的猴子到达周围⽬标的任务,如图3所示(Breveglieri 等,2014)。反过来,动态条件涉及代理必须连续跟踪的移动⽬标。

4.1. Delayed reaching task

主要测试台任务是延迟到达猴子任务的简化版本,其中必须通过只能在延迟期后开始的运动来达到静态⽬标(Breveglieri 等人,2014)。延迟动作用于单独研究与⽬标导向行为中的行动准备(例如感知和计划)和执行相关的神经过程,因此有助于分析自由能最小化的两个主要计算组件,即感知和主动推理,否则它们是并行工作的延迟到达可以使用各种方法来实现:可以通过在推理过程中将意图增益λ设置为零(此处实现)来阻止信念动态的姿势分量的更新:这样,就没有主动意图,只有信念遵循感官信息。或者,可以通过将本体感受精度设置为零来暂时暂停动作执行,以便代理仍然产生本体感受预测,但不相信他们的预测错误:在这种情况下,信念动态包括一个针对意图的小分量,但产生的差异并不能通过移动来最小化。

伸展试验从将手放在位于身体中心(即“颈部”)前面的主页按钮(HB)上开始,并以此配置初始化信念。然后参考实验的 9 个可能⽬标之一(图3)呈红色亮起。遵循 100 个时间步长的延迟期,在此期间,智能体只允许感知可见⽬标和肢体,并且推理过程只能改变信念。之后,允许肢体移动并根据方程(38)更新关节角度。与参考任务一样,在达到⽬标后,代理会停止足够长的时间,即每次试验总共 300 个时间步长。之后,代理返回 HB(这里不分析)。模拟包括每个⽬标 100 次重复,即总共 900 次试验。

4.2. Body

身体由模拟猴子上肢组成,该上肢由连接到固定颈部的移动躯干、上臂和下臂组成,如图 3 所示。三个移动部分被示意为矩形,每个部分都有单位质量,而关节(肩、肘)和尖端(颈、手)为圆圈。肢体节段的比例和关节角度的操作范围来自猴子数据Macaca mulatta (Kikuchi和Hamada,2009)。肢体的状态及其动力学由关节角度θ及其一阶矩˙θ 描述。

我们假设噪声速度电机控制,其中电机传出 动作 a 噪声以零中心高斯噪声控制关节角度的一阶矩:

4.3. Sensors

代理接收有关其本体感受状态和视觉上下文的信息。简化的个人视觉输入sv由虚拟相机提供,该虚拟相机包括三个 2D 色彩平面,每个色彩平面的大小为 128 x 96 像素。相机的位置和方向是固定的,以便输入提供周围⽬标的完整视野以及在其操作范围内任何可能的肢体状态下的整个肢体。在某些配置中,肢体可能会遮挡⽬标。

与模拟肢体一样,运动控制系统也通过传感器sp 接收本体感觉反馈,提供有关肢体真实状态的噪声信息(Tuthill 和 Azim,2018; Versteeg 等,2021)。我们进一步假设sp仅根据关节角度提供所有关节状态的噪声读数,忽略其他本体感受信号,例如力和拉伸(Srinivasan 等人,2021),主动推理框架可以原生合并这些信号

4.4. Belief

我们假设广义信念

的两个阶段包括三个组成部分:(i) 对于手臂关节角度或姿势的信念

(ii) 对于目标位置的信念

,再次表示为关节角度空间中的姿势——即,与目标接触的手臂姿势;以及(iii) 对于记忆的 HB(Hand-Brain)配置的信念

。因此,

。请注意,最后两个组成部分可以解释为功能性特性,允许代理人以身体配置的形式实现交互(Pezzulo 和 Cisek, 2016)。

4.5. Sensory model

感觉生成分布有两个组成部分,每个组成部分对应一种感觉模态:简化的本体感受模型

和成熟的视觉模型gv (μ):

由于信念已经在关节角度域中,我们实现了一个简单的本体感受生成模型

,其中

是仅提取信念的第一个分量的映射:

其中 0 和

分别是 3 x 3 的零矩阵和单位矩阵。请注意,如果身体和/或关节传感器具有更复杂的结构,并且信念具有更丰富和抽象的表示,则

可以很容易地扩展为更复杂的本体感知映射。

反过来,视觉生成模型 gv 是VAE的解码器组件(见图3C)。它由一个前馈层、两个转置卷积层和两个用于平滑输出的标准卷积层组成。其潜在空间由两个元素组成,表示手臂和目标的关节角度(见图13中的示例)。第一个组件用于在视觉输出中生成具有特定关节配置的手臂,而第二个组件则仅通过每个关节角度的直接运动学产生目标的图像。VAE在一个数据集上进行了100个周期的监督式训练,该数据集包含20,000个随机绘制的身体-目标配置,均匀跨越整个操作空间,并包含相应的视觉图像。目标的大小变化范围从5到12个像素。

本体感知梯度

简化为映射 Gp 本身,而视觉组件

则是通过反向传播计算的解码器的梯度。由于目标的笛卡尔位置编码在关节角度中,因此该梯度隐含地执行运动学反演。因此,预测 P 和预测误差

取如下形式:

请注意,在本体感觉和视觉感觉域上定义感觉预测允许代理在视觉不确定的条件下(例如,由于能见度低)执行有效的⽬标导向行为。事实上,由于信念随着时间的推移而保持,智能体会记住最后一个已知的⽬标位置,因此在⽬标暂时被遮挡的情况下也可以完成到达任务。

4.6. Intentions

根据所提出的形式化(公式 20),我们定义了两个具体意图(图4),如下所示:

这里

定义了代理人期望手臂信念等于对应于要达到的目标的关节配置,它被实现为一个简单的映射

,将第一个信念组件设置为与第二个相等。另外,意图

编码了代理人未来的信念,即手臂将处于 HB 位置。这两个意图映射由以下方式定义:

相应的意图预测误差为:

这些误差提供了分别朝向⽬标和 HB 关节角度的更新方向。由于无意移动⽬标或 HB,因此预测误差的第二和第三分量将为零。

4.7. Precisions

自由能最小化和预测编码通常严重依赖于精度调制。为了研究它们的作用,我们用参数α和β参数化每个意图和感觉域的相对精度,如下所示:

参数α控制由于本体感觉和视觉引起的误差更新的相对强度,而参数β控制每个意图的相对吸引力。通过这些参数,感觉和意图加权贡献被解压缩如下:

方程(46)显示了视觉和本体感觉信息之间的平衡。例如,如果α = 0,代理将仅使用本体感受反馈,而对于α = 1,信念将仅依赖于视觉反馈进行更新。请注意,这些都是极端条件 例如,前者可能对应于零可见度 并且典型的感觉系统提供平衡的反馈。

反过来,方程(47)阐明了信念吸引力的控制。当β = 0 时,智能体将遵循第一个意图;当β = 1时,智能体将遵循第二个意图(图4)。请注意,引入可能的竞争性触及运动会在旨在实现相反⽬标(例如,β 的中间值)的意图之间产生冲突,而代理一次只能在物理上实现其中一个⽬标(图4)。因此,我们假设意图选择的控制是通过相互抑制和更高层次的偏见来实现的。最后,参数λ控制总体吸引子幅度(另请参见公式 26)。

我们还可以使用精度参数α来操纵自由能导数相对于动作的强度,如下所示:

请注意,通过增加α(即视觉上的可靠性更高),信念更新的幅度保持不变,而动作更新会减少,因为智能体对其本体感受信息的信心降低。此外,人们可以通过直接操纵精度来差异化地研究精度强度对信念和行动的影响,例如,视觉精度πv可能包括遵循信念结构的不同组成部分:

我们仅将参数α用于手臂信念。例如,当α = 0 且πvt > 0 时,⽬标置信度会使用视觉输入进行更新,而手臂仅使用本体感觉来移动,这是一种模拟黑暗中明亮⽬标运动的场景。

5. Results

2. Computational background

我们首先概述基础概率和预测编码方法的计算原理,并提供理解以下主要贡献所需的变分推理、自由能最小化、主动推理和变分自动编码器的背景。

2.1. The Bayesian brain hypothesis

当每只眼睛同时呈现两个不同的图像时,就会发生一种有趣的视觉现象,称为双眼竞争:感知不符合视觉输入,而是在两个图像之间交替。这是如何以及为何发生的?众所周知,先验在驱动知觉体验的动态方面发挥着重要作用,但大脑作为被动接收感觉信号并计算运动命令的特征检测器的主流观点迄今为止未能解释这种错觉是如何产生的。

近年来,人们越来越关注一种称为贝叶斯大脑的全新思维理论,根据该理论,我们的大脑是一台复杂的机器,不断利用贝叶斯推理来捕捉世界上的因果关系,并在环境中提供最佳行为在不确定的环境(Doya,2007; Hohwy,2013; Pezzulo 等人,2017)。该理论的核心是贝叶斯定理,其在这里的应用意味着关于世界的后验信念根据先验信念和观察感官输入的可能性的乘积进行更新。按照这种观点,感知不仅仅是一种简单的自下而上的前馈机制,可以从当前的感觉中枢检测特征和物体;相反,它包含一个自上而下的预测生成模型,该模型不断预测感官输入以测试假设并解释歧义。

根据贝叶斯大脑假说,这一复杂的任务是通过预测编码来完成的,通过相邻皮质层之间自上而下的预测和自下而上的预测误差的消息传递来实现(Rao 和 Ballard,1999)。前者是由保持在最高水平的潜在状态生成的,代表对环境原因的信念,而后者是通过将感官水平预测与实际观察结果进行比较来计算的。每个预测都将成为下层的原因,而预测误差将向上层传达信息。正是由于这种分层组织以及通过每一层的错误最小化,皮层才应该能够模仿和捕获模拟世界的固有分层关系。在这种观点中,感知是唯一需要的,因为它们通过预测误差的计算提供了模型好坏的衡量标准以及纠正未来预测的提示。因此,考虑到惊喜与模型不确定性之间的严格相关性,上升的预测并不编码刺激的特征,而是编码大脑对此感到惊讶的程度。

2.2. Variational bayes

生物体应该通过某种形式的变分推理来实现模型拟合或误差最小化,这是一种基于变分计算的广泛技术,用于近似棘手的后验,否则这些后验将无法进行分析计算,甚至无法使用蒙特卡罗等经典采样方法进行计算(Bishop, 2006)。根据贝叶斯大脑假说,我们可以假设神经系统维护着关于外部世界的未知状态和生物体内部状态的潜在变量 z。通过利用传感器提供的先验知识 p(z) 和环境的部分证据 p(s),它可以应用贝叶斯推理来改进其知识(Ma et al., 2006)。为此,给定观察值 s,神经系统需要评估后验

然而,由于边际

的难以处理,直接计算这样的量是不可行的,这涉及对联合密度

的积分。 变分方法的作用是通过最小化它们之间的 Kullback-Leibler (KL) 散度,用更容易计算的识别分布

来近似后验:

KL 散度可以重写为对数证据 ln p(s) 与称为证据下界或 ELBO 的量 L(q)之间的差异(Bishop,2006):

由于 KL 散度始终为非负,因此 ELBO 提供了对数证据的下界,即

。因此,最小化相对于

的 KL 散度相当于最大化

,其最大值对应于最接近真实后验的近似密度,具体取决于

形式的特定选择。一般来说,对此分布的形式做出很少的假设 - 多元高斯是一种典型的选择,需要在易于处理的优化过程和仍然产生良好的近似后验之间进行权衡。

2.3. Free energy and prediction errors

如何通过预测错误的简单消息传递来实现贝叶斯推理? Friston (2002, 2005)提出了一种基于所谓自由能的优雅解决方案,该概念借用自热力学并定义为负 ELBO。相应地,式(3)可以改写为:

最小化关于潜在状态 z 的自由能(称为感知推理的过程)相当于 ELBO 最大化,并提供意外的上限:

通过这种方式,生物体间接地最小化了模型的不确定性,并且能够学习未知状态和感官输入之间的因果关系,并根据其当前的环境表示生成预测。自由能最小化比处理近似后验和真实后验之间的 KL 散度更简单,因为前者取决于生物体可以访问的数量,即近似后验和生成模型。

对于这个问题,有必要区分后者和产生感官数据的真实分布,称为生成过程,可以用以下非线性随机方程进行建模:

其中函数 g 映射潜在状态或导致 z 到观察到的状态或感觉 s,函数 f 编码系统,即z随时间的演变,而ws和wz是描述系统不确定性的噪声项。

神经系统应该通过做出一些假设来近似生成过程:(i)在平均场近似下,识别密度可以划分为独立的分布:

),并且(ii)在拉普拉斯近似下,每个分区都是高斯分布:

,其中µi代表最合理的假设,也称为隐藏状态zi 的置信度, πi是其精度矩阵(Friston 等人,2017)。 ,2007)。这样,自由能就不再依赖于z,简化如下:

其中C是常数项。 通过不仅考虑方程 6 的一阶,而且还考虑相应近似值的更高时间阶,可以实现对未知环境动态的更精确描述:

— 称为广义坐标(Friston,2008;Friston 等人,2008)。 这使我们能够使用以下通用模型更好地表示环境:

其中 D 是微分(移位)算子矩阵,使得

,〜s 表示广义传感器,而

表示所有时间顺序的广义模型函数 请注意,在该系统中,特定动态阶数

处的传感数据(其中 [d] 是阶数)仅与相同的信念阶数

相关,而广义运动方程或系统 动力学,指定相邻阶之间的耦合。此类方程是根据广义似然和先验分布生成的,可以扩展如下:

如上所述,假设这些变分概率分布是高斯分布:

其中 L 和 M 是感觉和内部信念的维度,精度分别为

。 请注意,概率分布以感觉和动态预测误差的形式表示:

动态模型的分解概率近似允许通过广义坐标上的迭代梯度下降来轻松执行状态估计,即通过改变对每个时间顺序的隐藏状态的置信度

梯度下降是易于处理的,因为高斯变分函数是平滑且可微的,并且导数很容易根据广义预测误差计算,因为等式(7)的对数消除了高斯的指数。 因此信念更新变成:

记住组成这个更新方程的三个组成部分的性质是至关重要的:在感觉层面计算的似然误差下一个时间顺序产生的后向误差以及来自前一个顺序的前向误差。 这些项表示相对于方程(11)的似然置信度

简而言之,通过做出一些合理的简化假设,自由能最小化的复杂性降低到预测的生成,这些预测不断与感官观察进行比较以确定预测误差信号。 然后,该误差通过皮质层次结构回流,以相应地调整分布参数,并从长远来看最大限度地减少感官惊喜或最大化证据。

2.4. Active Inference

描述预测编码和贝叶斯推理之间的关系仍然无法解释为什么皮层以如此奇特的方式进化。 答案来自所谓的自由能原理(FEP),贝叶斯大脑假说应该是该原理的推论。 事实上,了解一些观察数据的因果关系(例如,导致体温升高的原因)不足以保持生物体的存活(例如,将温度维持在重要范围内)。

FEP 指出,对于一个有机体来说,要维持稳态并生存,它必须不断地、积极地将其所生活的潜在状态集限制在与生命相容的可能性的狭窄范围内,从而抵消紊乱的自然趋势(弗里斯顿) ,2012)——这就是与热力学的关系。 如果这些状态是由生物体的表型定义的,那么从其内部模型的角度来看,它们正是它所期望的不那么令人惊讶的状态。 因此,虽然感知推理试图优化关于隐藏原因的信念以解释感觉,但另一方面,如果表型定义的假设被认为是世界的真正原因,那么与外部环境的交互意味着智能体将 尝试采样那些使假设成立的感觉,满足其需求和信念。 主动推理成为一种自我实现的预言。 在这种观点中,欲望和信念之间没有区别:我们只是寻找我们期望发现自己的状态(Friston et al., 2010; Buckley et al., 2017)。

为了实现目标导向的行为,最小化与动作相关的自由能就足够了(参见公式 7):

鉴于电机控制信号仅依赖于感觉信息,我们得到:

最小化所有感觉信号的自由能当然是有用的,因为每个可能性贡献都会驱动信念更新;然而,它需要从外感受到行动的逆映射的知识(Baltieri 和 Buckley,2019),这被认为是“ “困难问题”通常是高度非线性的并且不是明确的(Friston 等人,2010)。 在更现实的场景中,只有本体感觉驱动相对于运动信号的自由能的最小化; 这个过程更容易实现,因为相应的感官预测已经在本征域中。 从运动皮层发送的控制信号就不是最优控制理论经典观点中的运动命令; 相反,它们由定义所需轨迹的预测组成。 从这个角度来看,在脊髓本地计算的本体感觉预测误差有两个目的,只是这些信号的传递方式不同。 它们将当前的信念推向感官观察——碰巧实现感知——就像外感受信号一样。 但它们也通过抑制激活相应肌肉的简单反射弧,从而推动感官观察走向当前的信念,从而实现运动(Adams 等人,2013 年;Parr 和 Friston,2018 年;Versteeg 等人,2021 年)。

总之,感知和行动可以被视为同一枚硬币的两面,实现最小化熵或平均意外的共同重要目标。 按照这种观点,我们所感知的事物从来不会试图完美地符合世界的真实状况,而是不断偏向我们所偏好的状态。 这意味着行动只能间接实现未来目标; 相反,它不断地试图填补我们已经有偏见的信念所产生的感觉和预测之间的差距。

2.5. Variational autoencoders

变分自编码器(VAEs)属于生成模型家族,因为它们学习联合分布

并能够生成类似于输入的合成数据,给定潜在空间上的先验分布 p(z)。VAEs 使用变分贝叶斯方法来捕获后验分布

,当边缘计算不可解时(Goodfellow 等人,2016)。VAE 由两个概率分布组成,两者都被假定为高斯分布:一个对应于识别分布

的概率编码器,以及一个被称为概率解码器的生成函数

,它计算在给定潜在表示 z 的情况下输入空间上的分布(图 3C):

尽管VAEs与传统的自编码器有许多相似之处,但实际上它们是AEVB算法的一个推导,当神经网络用于识别分布时(Kingma和Welling,2014)。与其他变分技术不同,近似后验通常不被假设为因式分解的,但由于ELBO梯度

的计算是有偏的,因此使用一种称为再参数化技巧的方法,使其不依赖于参数φ。这种方法通过将潜在变量z表示为一个函数来实现:

可以通过反向传播将其最小化。 这里,KL 散度可以看作是正则化项,而第二个 RHS 项是预期的负重建项,取决于潜在变量 z 的所有第 m 个分量。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-03-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CreateAMind 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
边缘可用区
腾讯云边缘可用区(TencentCloud Edge Zone,TEZ)是腾讯云的本地扩展,适用于解决计算、存储和服务可用性问题。腾讯云边缘可用区可为您带来云的诸多优势,例如弹性、可扩展性和安全性。借助腾讯云边缘可用区,您可以在靠近最终用户的地理位置运行对延迟敏感的应用程序,基本消除延迟问题。腾讯云边缘可用区提供与中心节点一致的体验,助力业务下沉,具备更低延时、更广覆盖、更少成本等特点。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档