Generative models for sequential dynamics in active inference
翻译:志愿者 春暖花开
摘要:
理论神经生物学的一个核心主题是我们大多数的认知操作都需要处理离散的项目序列。这种处理反过来又是连续的神经动态的结果,比如语言交流中的词语序列或导航过程中的位置序列。在这一视角下,我们从主动推理的角度解决了顺序脑处理的问题,这借鉴于对预测性(贝叶斯)大脑的Helmholtz观点。在主动推理的基础上存在一个生成模型,即一个描述(可观察的)结果是如何由(不可观察的)原因生成的概率模型。我们展示了通过假设大脑包含一个生成模型,其中包括中央模式生成器、叙述或明确定义的序列,可以解释顺序脑处理的许多方面。我们在运动控制(例如书写)、感知(例如鸟鸣识别)以及规划和理解(例如语言)领域提供了示例。解决这些问题的方法包括使用吸引点序列来引导复杂运动,并从连续的听觉语音信号表示转变为生成这些信号的离散单词。
关键词:贝叶斯、主动推理、生成模型、变分、序列动力学。
介绍
认知系统的动力学通常以序列的形式进行描述。这些序列包括语言交流中的词语序列(Friston等人,2020a)以及在迷宫中导航时可能采取的步骤序列(Kaplan和Friston,2018)。从动力系统的角度来看,这意味着这些序列是依次访问的一系列不稳定的固定点(Afraimovich等人,2004)。这个想法在规划和行为的大多数神经生物学理论中(隐式地)占据着核心地位,并体现在认知元(cognon)(Rabinovich等人,正在准备中)或基本认知单元的概念中。简单地说,假设认知是由离散事件序列从神经活动的连续演化中产生的。这反映了理论神经生物学中的一个趋势,即从使用连续微分方程(Friston,2005)对行为进行建模(类似于工程中滤波问题中使用的那些方程,Kalman和Bucy,1961),转向基于离散转换的模型(Mirza等人,2018;Schwartenbeck和Friston,2016;Schwartenbeck等人,2019),这类模型在部分观察到的马尔可夫决策过程中发现,并在人工智能研究中得到应用(Kaelbling等人,1998)。
为了直观地理解序列是如何从连续的动力行为中产生的,可以考虑一个包含食肉动物、食草动物和植物群体的系统(Volterra,1928)。随着植物种群的增加,食草动物种群也相应增加。当它们吃掉植物时,这导致植物种群减少。然而,食草动物本身被食肉动物种群吃掉,导致食草动物种群下降。食草动物种群下降有两个后果。一方面,它使食肉动物失去食物来源,从而导致它们的种群下降。另一方面,它允许植物重新生长。这个简单的例子说明了序列动态背后的基本思想。它描述了一个可以被表征为一系列植物、然后是食草动物、然后是食肉动物、然后是植物、然后是食草动物等种群峰值的系统。这个广义的Lotka-Volterra系统是无赢者竞争的一个例子(Afraimovich等人,2008),因为每个种群都竞争增加其数量,但最终会被另一个种群所取代。
从神经生物学的角度来看,离散序列从连续动态中的出现可能是由于神经元群体轮流增加和减少其放电率。有关神经元序列生成的最新综述,请参见(Pezzulo等人,2014;Fro¨lich等人,2021)。这种现象的明显例子包括动物在一系列空间位置中移动时场所细胞的顺序激活(Foster和Wilson,2007;O’Keefe和Dostrovsky,1971;Redish,2016),以及在随后重放这些顺序激活时(Foster,2017;Louie和Wilson,2001;Pezzulo等人,2017)。将空间轨迹分解为一系列位置提供了对大脑振荡(例如在行为期间发生的与顺序场所细胞激活大致相同频率的海马节律,Buzsa´ki,2002)的作用的解释。类似的动态已经在秀丽线虫(Caenorhabditis elegans)的全脑钙成像中观察到(Kato等人,2015)。(This decomposition of spatial trajectories into a series of locations offers an explanation for the role of brain oscillations, such as the hippocampal theta rhythm that occurs at approximately the same frequency as sequential place cell activation during behaviour (Buzsa ´ki 2002). Similar dynamics have been observed in brain-wide calcium imaging of Caenorhabditis elegans (Kato et al. 2015))
在本文中,我们通过主动推理的视角(Friston等人,2012)讨论了离散序列是如何通过连续的神经动态出现的——这是行为的一个理论框架,概括了贝叶斯大脑假设(Doya,2007;Knill和Pouget,2004)(见图1)。我们提供了在几个认知领域中这一过程发挥作用的例子,包括运动控制、知觉、规划和语言交流。主动推理的关键思想是,我们的大脑表现得好像它们正在使用统计模型来解释感觉数据是如何生成的。为了解释感觉,必须考虑关于在何处部署感觉上皮的选择。这意味着我们的大脑使用的模型必须包括我们在与周围世界互动时所做的选择和计划。换句话说,我们对自己的行为进行建模。一旦以这种方式框定,下一步该做什么的决策就变成了推理问题(Botvinick和Toussaint,2012)。通过结合我们对我们如何对由我们的行为生成的感觉做出反应的先验信念,我们得出了关于我们可能追求的最合理序列(计划或策略)的后验信念。(By combining our prior beliefs about how we are likely to respond to the sensations generated by our actions, we arrive at posterior beliefs about the most plausible sequence (plan or policy) we might pursue.)
生成建模方法的一种常见替代方案是使用函数逼近器和神经网络,如深度学习;在机器学习和数据分析中,有几个成功的序列学习和预测的例子(Sutskever等人,2014;LeCun等人,2015)。采用显式生成建模方法的主要优势在于它是透明的,即随后的计算具有清晰的解释。实现可解释的模型对于试图理解我们的神经系统行为的议程至关重要,也被认为是实现人类可以信任的未来技术的重要目标(Castelvecchi,2016;Parr和Pezzulo,2021)。
我们首先简要概述生成模型,重点关注具有顺序或序数方面的轨迹表示(Dehaene等人,2015;Friston和Buzsaki,2016)。虽然可以用连续时间的微分方程来表达序列,但通过一系列离散转换通常更简单地捕捉它们的行为。然后,我们通过例子演示了当这些生成模型随时间积分以模拟感知行为时,不同类型的行为是如何出现的。我们涉及生成手写和肢体运动所需的移动和规划的表述,并涉及从鸟鸣到语言的沟通形式。正如我们将通过这些例子看到的那样,将我们的内部模型以离散序列的形式表达的一个关键好处是简化了规划过程,即在替代未来状态序列之间做出裁决。
生成模型
生成模型指定产生感觉数据的机制。它通常以一个联合概率分布的形式存在,涵盖了解释这些数据所需的要素。图1突显了在主动推理中生成模型的核心作用。简而言之,不同类型的生物或不同类型的个体可能期望在其首选环境和行为中遇到不同的感觉输入分布。这些分布可能高度依赖上下文,并取决于直接观察不到的事物。这些依赖关系被捕捉在生物(或个体)用于解释其感觉的生成模型中。关键的是,正是生物的生成模型引导了其与外部环境的主动互动,即其动作-感知循环(Fuster,2004)。
图1中由箭头连接的粉色圆圈提供了对通用主动推理生物的动作-感知循环的形式说明,其中外部世界的状态(x)导致感觉数据(y)。感觉数据可以是光感受器激活的模式、体感觉或任何其他感觉方式。这些数据引起感知信念的更新,操作为优化概率分布(q(x)),使其逼近给定感觉数据样本下外部世界状态的后验概率p(x|y),在内部(生成)模型p(x,y)下。鉴于感觉数据及其原因的信念,我们生成行动(a)以改变外部世界和我们的感觉输入,使其更符合我们对世界的模型。动作和感知都最小化一种称为自由能量(F)的量,它取决于我们对世界的信念、我们的感觉输入(通过这个动作)以及我们的内部模型。
图1 主动推理。这幅图总结了脑功能主动推理形式的核心思想。粉色圆圈通过箭头连接说明了一个动作-感知循环(Fuster 2004),其中外部世界的状态(x)引起感官数据(y)。在主动推理中,关键是,动作和感知都最小化一个称为自由能(F)的量,如蓝色面板所示。感知对应于信念更新和优化概率分布(q(x)),使其逼近在内部(生成)模型p(x, y)下,给定感官数据样本的外部世界状态的后验概率p(x|y)。动作选择对应于生成动作(a),以改变外部世界和我们的感官输入,使其更符合我们对世界的模型。有关解释,请参阅主文。
蓝色面板展开了自由能量以帮助理解。它可以被制定为Kullback–Leibler散度的差异,该散度衡量了信念(q(x))和后验概率(p(x|y))之间的差异,以及模型(p(y))的对数证据或边际似然性。当感知推理关闭差距(通过散度量化)时,行动最大化证据项(即自我证明动态(Hohwy,2016))。证据的另一种解释是它是与生命兼容的感觉数据分布,此时自我证明只是稳态控制(Cannon,1929)。从贝叶斯统计的角度来看,自由能量还可以被表达为模型复杂性与其预测数据准确性之间的差异(Penny,2012)。在机器学习中,它经常被称为证据上界(Winn和Bishop,2005)。这强调了将其解释为模型拟合度量的重要性。符号DKL表示Kullback–Leibler散度。符号E表示期望(或平均)。
主动推理提供的感知即推理视角植根于赫尔姆霍兹心理学、无意识推理(Helmholtz 1866)以及感知即假设测试的概念(Gregory 1980)。除了在帮助我们解释世界方面的作用之外,生成模型还规定了我们对世界的期望。我们可以通过采取行动来纠正与这一期望的偏差,使我们的感觉输入与我们的模型一致:即生成模型不仅仅是“描述性”的,还是“规定性”的,因为它指导着我们的行为。这是稳态原则(Cannon 1929)的基础,以及现代基于基础随机物理学的表述(Friston 2019),即从一些允许的感觉分布偏差应通过(主动的)负反馈机制进行校正。通过参与负反馈机制——使感觉数据在生成模型下更有可能——随之产生的数据可以为该模型提供更好的证据。因此,出于这个原因,有时这被称为自证明(self-evidencing)(Hohwy 2016)。
在神经生物学中,上述公式化可简化为脊髓(例如,运动)和脑干(例如,自主神经)反射的说明。通过比较下行运动通路携带的自上而下的预测与传入的本体感觉神经的数据,这些回路修改运动神经元的发射率(Shipp等人,2013;Adams等人,2013a)。肌肉长度的变化将本体感知信号与自上而下的预测保持一致(Feldman和Levin,2009)。根据这种行为观点,大脑必须解决的关键问题是如何使预测准确。这让我们回到了优化生成这些预测的生成模型的重要性。生物学上可行的生成模型的一个重要特征是它们是动态的。它们必须解释导致感官输入的外部世界的动态变化。此外,它们必须解释使用该生成模型的生物的行为。这引出了一个关于大脑可能如何表示动态系统的重要问题。
图2说明了一个示例系统的行为,我们可以用它来解释这些动态表示背后的核心概念。系统的构建在图例中进行了描述,其结果是一个轨道(在4维空间中),依次访问每个坐标的最大值,类似于介绍中捕食者和猎物的生态例子。每个坐标与2维空间中的一个点相关联。在该2维空间中,每个点之间的粒子被吸引,就好像连接到该位置的弹簧。每个点的弹簧常数由4维系统中的标准化坐标进行缩放。结果是在2维系统中相对复杂的轨道,其中粒子被顺序地吸引到不同的吸引点。这种构建代表了生成任意轨道的方法,这些轨道可能在吸引点的位置或访问它们的顺序上有所不同。
图2中的系统可以使用描述每个部分演变的连续微分方程来直观表示。然而,这些动态的顺序性表明了另一种更简单的表示方法。具体而言,我们可以采用符号动力学领域(Morse和Hedlund,1938)的方法;这是动力系统理论的一个分支,它为动力学状态空间的部分分配符号,并根据系统从一个符号过渡到另一个符号来表示轨迹。图3以图形方式说明了这一点,以一组箭头显示轨道,这些箭头映射到不同的吸引点。此外,它展示了当我们旋转原始的4维轨道时会发生什么,从而改变了访问吸引点的顺序(即弹簧被拉紧的顺序)。结果是以一组可允许的转换来简单表示系统动力学。
图2 连续动力系统中的序列。本图概述了本文的核心主题。它展示了在连续动力系统中离散序列的出现,以及这些序列如何用于指导行为。左上图显示了在4维空间中的轨道(为了绘图省略了其中一个维度)。右上图显示了这个轨道的所有四个坐标(v)随时间的演变。这种轨道可以看作是广义Lotka-Volterra系统的线性化版本,该系统在原点具有鞍点,使得沿一个维度的减小导致另一个维度的增加(例如,捕食者种群减少导致猎物种群增加)。中间图显示了这个轨道的归一化版本(使用符号r表示归一化函数),使得每个点的坐标总和为1。左下图显示了一个系统的行为,在该系统中,归一化轨道的每个坐标与放置在2维空间不同位置的一组弹簧的弹簧常数相关联,所有这些弹簧都连接到同一个粒子。这意味着每个弹簧都被顺序拉紧,从而产生左下图的轨迹。该轨迹的坐标演变显示在右下图中。
虽然可以通过一系列固定点的序列生成复杂且有趣的动态,但这更类似于与中央模式发生器(Marder和Bucher,2001)相关的动态,而不是自主的、有目的的行为。为了从前者跃迁到后者,我们需要一种在某种动机目标下裁决替代序列的方式,就像图3所示。在主动推理中,
图3 替代序列。这个图示了与智能行为相关的一个关键问题:在存在多个可能的计划或序列(例如,要达到目的地的访问位置的序列)时,我们如何在它们之间进行选择?通过为生成序列的轨道提供两种不同的方向,为图2中的系统提供了两个可能的吸引点之间的过渡序列,如左侧示意图所示(通过s索引)。这些导致了动力系统的不同行为,如右侧所示。将每组过渡解释为一种替代行为策略(由p索引),我们面临的问题是如何在策略之间进行选择。在主动推理下,这被制定为一个贝叶斯推断问题,其中对每个策略的先验信念通过在该策略下计算期望的自由能(G)来评分。这个量在蓝色面板中显示,并分解为在主文中详细解释的两种互补解释。与图1一样,由p表示的分布代表生成模型,而由q表示的分布是通过最小化自由能获得的信念。C变量是对先验偏好分布的参数。
驱使在替代序列之间做出选择的动机被制定为先验信念。这意味着动机驱动成为生成模型的一部分,代表不同行为或策略的解释。正如在图1中我们根据它们的自由能进行评分一样,图3显示了我们如何根据预期自由能(Friston等人,2020b)评分策略。这个量代表追求某种策略的成本,可以分解为风险和模糊度惩罚。从形式上讲,风险类似于图1中的复杂性成本。类似地,模糊度(粗略地说)是预期的不准确性,其中风险和模糊度都在预期的感觉结果下进行评估,而这些感觉结果是根据所讨论的策略来预期的。
1 这将动机驱动视为行为的解释而不是引导在不同行为之间进行选择的因素可能看起来令人费解。然而,这种倒置是主动推理形式主义的核心.这表明当动机驱动导致一个以特定方式行为时,该驱动成为行为的解释。
Fig. 1. 同样,模糊性(泛指)是期望的不准确性,其中风险和模糊性都在预期的感觉结果下进行评估,在讨论中,我们必须区分那些可以直接观察到的事物(即感觉数据)和必须进行推断的隐藏状态(即解释性变量)生成它们。到目前为止,我们的讨论重点放在了世界的隐藏状态的动态上。然而,要与这些状态互动,它们必须具有感觉后果。风险被定义为首选感觉输入的分布(例如,稳态设定点)与在给定政策下预期的分布之间的差异。以图3为例,如果我们知道黄色状态与与我们的偏好不兼容的感觉结果分布相关(即存在风险),我们可能会倾向于在其中省略黄色状态或较不频繁地包含它们。模糊性是我们能够根据引起它们的隐藏状态预测感觉数据的信心度的度量。模糊性厌恶会导致我们倾向于那些状态更频繁地精确预测感觉数据的序列(Parr和Friston 2017)。
图3显示了对期望自由能的另一种划分方式,突出了其内在和外在价值项的分解。内在价值是在追求一项政策时预期的信息增益(Lindley 1956)。换句话说,它是在预期在该政策下的感觉数据下观察到的有关隐藏状态的信念变化,其平均值在该政策下预期的感觉数据的分布下。最大化这个数量会导致探索性行为和主动感知(Mirza等,2016年,2018年; Itti和Baldi 2006年; Itti和Koch 2000年; Yang等2016年; Donnarumma等2017年)。外在价值代表了预期数据与生物个体偏好的一致程度。这个数量促使开发性行为(Todorov 2007年; Kinjo等2013年),这是在大多数强化学习设置中占主导地位的一种行为。总的来说,期望的自由能通过将探索性和开发性驱动力结合成一个单一的数量来平衡它们。当在不同政策下对结果的偏好之间存在明显差异时,开发性部分占优势。在不确定的背景下,探索性部分介入。总的来说,对期望自由能的这些贡献引入了模型中的代理,表达了一种先验信念,即我们将以目标导向和信息寻求的好奇心驱动的方式行动。
图4 连续时间和离散时间的生成模型。这幅图改编自Friston等人的作品(2017b),我们建议读者参考技术细节。图中展示了两种构建动态过程生成模型的方法。在感觉数据节点(y)上方的部分是生成模型,下方的部分表示生成模型的反演。这些模型被表示为因子图(Loeliger等人,2007)。它们使用方框表示概率分布的因子,使用圆圈表示这些因子连接的变量。例如,左图中标有g的方框表示在连续状态(x)下给出数据的概率。类似地,右侧模型中标有A的方框表示在离散状态(s)条件下给出数据的概率。左侧模型中标有prime(0)符号表示时间导数。这意味着在水平方向连接状态的因子(f,f0,f00等)表示位置、速度、加速度等之间的关系,实际上提供了基于Taylor级数展开的系数的轨迹摘要。相反,右侧模型中的下标与与该状态相关联的离散时间步相关。因此,转移概率(B)告诉我们,在给定当前状态的情况下,该状态在未来一步采用特定值的概率。这个转移本身取决于那个时间点选择的动作(u),而这个动作反过来又由策略(p)确定。x符号表示正态分布的波动。E符号表示零均值正态分布。蓝色箭头表示为了最小化自由能而需要的消息传递。红色箭头显示了计算期望自由能以及通过这个自由能计算期望策略(p)所需的那些消息。这些消息的形式包括预测误差(e)和期望(l或s),并支持神经生物学消息传递方案的理论,例如预测编码(Friston和Kiebel 2009;Rao和Ballard 1999;Srinivasan等人1982)以及基于变分消息传递的方案(Parr等人2019;Friston等人2017c;Dauwels 2007)。
第4图总结了基于动力系统不同表示的两种生成模型的解剖结构,分别在连续时间(左侧)和离散时间(右侧)制定。细节在图例中有详细解释,但关键点如下。每个模型都为隐藏状态和感觉数据的联合概率分布提供了图形表达。在图4中,感觉数据节点(y)以上的所有内容都是生成模型。以下的一切都说明了用于解决推理问题的反演方案的结构,这与生成模型的结构相反,并依赖于在网络节点之间传递消息(显示为蓝色箭头)。这种消息传递与神经网络的动力学有关,其中消息通过突触传递(Friston等人,2017a;Parr等人,2019;Parr等人,2022;Pezzulo等人,2018)。图4左侧显示的生成模型是在连续时间中制定的,使用某个系统的坐标的Taylor级数展开的系数表示轨迹(Friston等人,2010)。右侧的模型被制定为一系列具有离散时间步骤的转换。转换概率随所选策略而变化,其中对策略的先验由其负期望自由能确定。这些模型中的每一个都可以通过增加额外的维度或隐藏状态变量的因子,或通过层次组成图4模型来扩展到任意复杂的水平,以解释建模动态的可分离时间尺度。有关扩展这些模型的详细信息,请参见(Friston等人,2017b)。尽管如此,通常希望限制模型的复杂性,除非增加复杂性可以相应地提高解释数据的准确性(Jefferys和Berger,1992)。在随后的章节中,我们从计算神经科学的例子中汲取了这两种方法已经被采用的例子。
搬家和规划(Moving and planning)
本节从上面相对抽象的讨论转向展示两个示例,这两个示例中生成模型被用作自主运动行为和规划的基础。首先,我们描述了一个生成模型,该模型被用来模拟手写所需的复杂轨迹(Friston等人,2011)。这是基于我们在图2中看到的序列类型。然后,我们转向一个更深思熟虑的例子,其中动力学的生成序列部分被替换为离散时间模型,以模拟一个简单的协调任务(Parr等人,2021)。总体而言,这些示例展示了可以从包含吸引点序列的模型中开发出的自主行为,以及一旦在离散时间间隔内制定了这些序列,我们如何高效地在不同序列之间进行选择。此外,这两个示例说明了主动推理模型可以用来模拟在大脑保持顺序动力学的生成模型假设下我们可能预期观察到的神经动力学。这包括我们可能预期的神经群体之间的无决胜竞争,以及基于离散序列的模型表达时我们预期的周期性信念更新,表现为局部场电位。
手写模型基于图4左侧所示的生成模型和随附的消息传递(即信念更新)。要理解这个模型,我们首先需要考虑在观察自己写字时需要解释的感觉数据类型。这包括我们移动关节时的本体感觉信号和我们看到手臂和手移动时的视觉输入。那么,我们需要解释这些感觉的解释性变量是什么呢?它们简单地是我们手臂关节的角度及其瞬时变化率,即隐藏状态。然而,从这些变量到我们的视觉和本体感觉之间的静态映射是不足够的,无法解释我们在追踪字母时预期的轨迹。为此,我们需要在这些隐藏状态中引入动力学。这涉及向模型添加一组根据Lotka-Volterra方程演变的抽象隐藏状态。这些方程源
自介绍中描述的捕食者-猎物相互作用的相同类型。
这些状态的推断轨迹的示例更加叠加在图5上部的大脑图像中。就像图2中一样,这些状态的顺序峰值可以与手臂受到牵引的虚构吸引子相关联。这里的“虚构”意味着在现实世界中没有弹簧牵引我们写字时的手臂。然而,如果纳入生成模型中,我们就可以预测如果这样的吸引子在拉动我们的手绕过字母时会产生怎样的动态。最后,低级别的反射引起了由这个模型来解释的数据。换句话说,手臂移动以实现本体感觉和视觉预测,这些预测代表了
图5 顺序运动。该图说明了使用一系列固定点来发展复杂运动行为。图的上半部分展示了手写行为,是通过生成模型的反演结果。顺序Lotka-Volterra动态叠加在大脑图像上,每个峰值都映射到示例合成手写中相应颜色的吸引点。手写是通过访问一系列吸引点生成的,假设手下的纸在手臂继续书写的同时向左移动。下图显示了使用具有三个自由度的手臂的运动控制。叠加在大脑上的图表显示了模拟的局部场电位,生成方式见Friston等人(2017c)的描述。它们代表了关于在每个离散时间点选择的固定点的信念的更新。下面显示的帧说明了由离散模型选择的虚构固定点,以及手臂朝这些点移动的过程。这些图的图形来自Friston等人(2011年)描述的手写模拟和Parr等人(2021年)描述的协调模拟。叠加在上图的无冠竞争和叠加在下图的局部场电位代表了我们在每种生成模型下可能测量到的不同类型的神经响应。
参与书写行为的预期数据。图5上部显示了一个示例轨迹。在对手写和其他复杂运动轨迹的这种观点中,隐含的思想是运动可以被分成一系列短轨迹(Wymbs等人,2012年)和微动作(Navas和Stark,1968年;Miall等人1993; Woodworth 1899; Doeringer和Hogan 1998)。鉴于此,我们可以简单地省略生成顺序动态所需的额外隐藏状态维度,改为在离散时间内工作,就像图4右侧一样。这样做,更容易裁定不同转移概率之间的选择,并生成更具目的性的行为。例如,考虑图5下半部分显示的问题。在这里,我们有一个在三维空间中的手臂,以及三个可能的目标,显示为黑白两色的球体。在任何给定时间,这三个球中的一个是黑色的,但这可以定期在球体之间切换。任务是将手移动到黑色的球体上。我们如何将这个任务制定为生成模型?与手写示例类似,我们必须首先确定要解释的数据。除了与手臂有关的本体感觉和视觉数据外,我们还需要解释来自目标球体的视觉数据。用于解决此任务的模型结合了一个连续模型(类似于手写模型的描述)和一个离散时间模型。这将使连续轨迹的序列拼接在一起。在每个离散时间步中,都会预测一个新的吸引点和目标(黑色)球体。然而,与手写示例中的预定义吸引点序列不同。更准确地说,有几个可能的点序列(即策略)可以选择。为了在它们之间进行裁定,计算了每个序列在先验信念(或偏好)下手的位置与目标球体相同的预期自由能。这意味着那些包含吸引点序列的策略 - 结束在目标球体上 - 具有较低的预期自由能,使它们更为合理。图5说明了两个帧,在其中一个虚构的吸引点首先被放置在手和球之间的中间点,然后在手被拉向球时与球的位置重合。与上述类似,预测的吸引点对本体感知预测产生影响,这些本身通过脊髓反射弧得以实现。
生成模型在运动控制中有许多应用。我们还可以选择其他示例,包括使用Lotka-Volterra系统来计时小脑条件范式中的反应(Friston和Herreros 2016),使用谐振子模拟胡须动态(Mannella等 2021),或者在机器人系统中使用吸引点来促使达到行为(Pio-Lopez等 2016)。我们选择了两个强调顺序处理和目的自主行为出现的示例。手写示例说明了按顺序访问一系列吸引点如何让我们指定任意轨迹。协调任务进一步发展,以裁定在实现目标时替代序列之间的选择,即规划。
语言与沟通
在这一部分,我们转向将主动推断应用于交流,以展示解释知觉和运动控制的相同计算原理可能也支持先进形式的(社会)认知。我们突出了从以耦合的动态系统(例如模拟鸟鸣的系统)来描述交流的观点,过渡到更注重以序列化的词语传达意义的语言交流。
为了明确交流的含义,至少需要两个生物体,每个都有一个同类可以进行交流。每个都必须能够采取行动,影响另一个的感知系统。成功的交流导致两者之间的信念(泛化的)同步,或者在心理语言学术语中形成共同基础(Clark和Brennan,1991)。图6展示了一对鸣禽的行为。它们的生成模型,彼此相同,基于耦合的Lorenz吸引子(Kiebel等人,2009)。Lorenz系统表现出混沌漫游,给它们一种自主性的外观(Kuznetsov等人,2020;Lorenz,1963)。鸣禽用于解释听觉和本体感知(喉部)数据的生成模型包括一个高级Lorenz系统(第二级隐藏状态),该系统预测一个低级Lorenz系统(第一级隐藏状态)的参数,后者导致听觉数据。当一只鸟听到另一只在唱歌时,它会更新有关导致这些数据的隐藏状态的信念。当它听不到声音时,脑干反射会导致鸟发出其模型预测的声音。在图6中,这些鸟轮流唱歌。从这个图中得出的关键见解是,两只鸟产生的听觉数据足以使它们同步关于生成模型状态的期望。简而言之,两只鸟都试图预测它们的听觉感觉,并轮流生成这些感觉。当它们同时预测和生成相同的事物时,就确保了最大的可预测性。
这种通过同步实现的交流再次取决于图4左侧显示的连续时间生成模型。然而,通过转向离散时间模型,我们在理解语言交流方面可以获得很多好处。部分原因是出于与运动上下文中相同的原因:在不选择沿连续维度变化的轨迹而是替代序列时,这更简单、更高效。然而,这也是由于语言的离散性,其中包括诸如音素、单词、句子等单位(Chomsky,2017)。图7复制了Friston等人(Friston等人,2020a)的模拟结果,利用了这种离散形式。设置涉及一对代理,他们可以提问和回答问题以了解空间场景,类似于20个问题的游戏。基础生成模型是图4右侧显示的离散时间模型。隐藏状态被组织成在慢时间尺度和快时间尺度上演变的状态。较慢的时间尺度包括叙述结构(即当前正在提问或回答的问题)、正在提问的问题的主题(例如关于形状、场景中物体的位置或它们的颜色)、场景的结构以及相关的名词、形容词和介词,它们可以插入问题中。这些组合以在较快的时间尺度上生成隐藏状态的序列,具有适当的句法结构和语义内容。从这些状态中,可以预测出口语单词。
通过在问题主题和插入其中的具体单词的替代序列之间进行选择,代理可以相互征求答案。在上面的运动控制示例中,选择这些序列主要是由于对达到目标的偏好。这取决于期望自由能量中的外在价值或风险项。然而,在这种语言环境中,问题纯粹是为了获取信息,强调期望自由能量中的内在或认识价值。图7展示了一个代理最初对场景感到不确定,提出一系列问题,解决了她对场景中物体的不确定性,以便在被询问时能够准确回答有关场景的问题。
与前一节类似,选择这两个示例——鸣禽和问题游戏——是为了说明在连续生成模型中表达自主动力学的形式,以及在更近期模型中采用的明确序列离散化。这两种模型形式已经得到广泛应用,包括在计算精神病学中。例如,鸣禽模型已经被发展用来解释推理的病理,比如在精神分裂症中发现的听觉幻觉(Adams等,2013)。基于语言交流的离散模型进一步深化了这一点,关注了精神病症中这些幻觉的言语(Benrimoh等,2018)和上下文敏感(Benrimoh等,2019)方面。
到目前为止,我们忽略了使用时间离散生成模型来解释序列动力学可能普遍存在的问题。这个问题是,一旦在连续域中表达,序列的每个元素可能具有不同的时间持续期。语言提供了这个问题的一个直观例子:不同的单词发音所需的时间不同。
图6 合成鸣禽歌唱。这一图示,摘自Friston和Frith(2015),展示了一种基于鸣禽歌唱生成模型的简单通信形式。两只鸟之间共享的底层生成模型使用了两个混沌(Lorenz)动力系统。在第二层,一个缓慢的Lorenz吸引子预测第一层更快的Lorenz吸引子的参数,后者本身预测声谱数据。通过通过行动最小化自由能,鸟类会反射性地产生他们期望听到的歌曲。这意味着当一只鸟听到另一只鸟唱歌时不发出声音,而在静音时唱歌。通过感知推理通过最小化自由能,鸟类可以同步其内部叙述,使得它们轮流唱歌的歌曲段落作为单一(音乐)叙述的一部分协调一致。中间和下方图中的蓝线和红线表示两只鸟对Lorenz系统状态的信念(期望)。阴影表示两只鸟中的哪一只在每个时刻在唱歌。请注意,基于它们轮流生成的听觉数据,两只鸟的信念之间的同步。
对于连续数据的顺序原因的推断因此需要对该序列进行分割。在与上文中的主动听取相关的同一框架下,这个问题已经在主动推理的框架下得到了解决(Friston等人,2021年)。其思想是通过比较连续听觉流中单词的曲边概率或该数量的自由能近似,我们可以选择与最大边际似然相关的边界。
图7 语言沟通。这一图示来自Friston等人(2020a),演示了一个基于20个问题的简单游戏的模拟。代理被剪影图标所代表,她的信念通过每个面板中心的两个形状进行了说明。正确的场景由每个面板右侧的绿色和红色方块表示。当她提出一系列问题(面板A-D)时,她对场景的信念变得真实,此时她可以正确回答关于场景的两个问题(面板E-F)。
有效地,这将替代单词边界的可选性视为假设。比较每个假设的证据允许我们选择最简约的分割。
图8说明了这一点,其中演讲者重复说出单词“triangle”和“square”,听者试图从一个(小)词汇中识别这些单词。基于谱包络的阈值设定确定了合理的分割边界,然后进行比较以得出分割。模拟的神经元激发图说明了对这个问题的推理解决方案,其中神经群体代表不同长度的时间内的替代单词,但它们是不重叠的,说明了将连续数据分割成离散序列的过程。虽然在听觉背景下应用,但这个分割背后的原理是通用的,反映了这样一个事实,即将连续的观测流分割成离散事件的问题在认知处理中是普遍存在的(Kurby和Zacks,2008年)。这些贝叶斯原理基于这样一个观点,即大脑采用一个生成模型来解释具有顺序特征的连续数据的原因,并且该模型可以通过最大化其边际似然来进行优化。
结论
本文旨在展示产生自主行为的生成模型的使用,这些模型在主动推理的框架下得以形成。简而言之,这取决于这样一个观点,即生物在解释感知输入和引导行为方面,都会隐含地使用模型。更正式地说,这意味着感知和行动都有助于最大化隐式生成模型的边际似然,通过对这一量的变分逼近。我们的关注点是许多认知过程依赖于离散序列的观念,并且这在生成模型的动力学形式中得到了反映。这包括在连续生成模型中介导无胜者竞争的类似捕食者-被捕食者的动力学。然而,这还包括更明确的离散时间模型,用于解释规划和决策制定。
图8 主动聆听。这些图表说明了一个旨在解释听觉数据的生成模型的反演,并改编自Friston等人(2021)。生成模型包括一小组单词,显示在第三个图的行中,其中每个单词都预测一个声学信号。第一个图显示了一个声学时间序列,其中说话者在“正方形”和“三角形”之间交替。第二个图显示了频谱包络和用于识别可能的分割边界的阈值(红色虚线)。第三个图说明了一系列模拟神经群体(行),每个代表一个单词。鉴于与形状相关的单词更可信的先验信念,这些神经元的激活与每个时刻的每个单词的后验概率成比例。请注意,推断的单词持续时间不同,但它们不重叠(即概率之和为1),表明成功地将连续序列离散化。下图中模拟的脑电图(EEG)信号等同于图5中模拟的局部场电位,表示对每个单词的信念更新速率。
对于解决生成模型的神经回路的解剖学以及这些回路中神经元活动的影响,动力学的具体框架对于内部模型的关键。顺序动力学是我们内部模型的重要组成部分这一抽象概念只是一个开始。要使这个想法变得有用,需要承诺采用具体形式的生成模型来解释特定的行为或神经元响应。为此,我们提出了在运动控制和语言交流中利用这些顺序动力学的例子,并简要讨论了将连续时间序列划分为离散序列的挑战。这些例子包括使用三维的可达任务来模拟手写过程中观察到的复杂轨迹,使用双关节臂进行二维可达任务,通过歌唱实现广义同步的出现,一个简单的语言游戏,以及从连续的听觉数据流中分割单词。然而,相同的观点也可以应用于任何其他类型的顺序动力学。系统复杂性主要在于为手头的任务指定或学习一个适当的生成模型。当生成模型就绪时,任何主动推理系统的行为和神经动力学都可以使用完全相同的(变分)推理方案来重现,这是计算高效的,并且原则上可以扩展到处理大状态空间(Maisto等,2021年)。所有这些的核心思想是认知系统是自证明的。这不仅意味着我们的行为以最大化某种隐式生成模型的证据为目标。这还意味着该模型必须包括我们自己、我们做出的决策以及这些决策引起的事件序列。