前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >The FEP made simpler but not too simple

The FEP made simpler but not too simple

作者头像
用户1908973
发布2024-02-26 17:08:16
950
发布2024-02-26 17:08:16
举报
文章被收录于专栏:CreateAMindCreateAMind

大模型缺少数据的本质是算法效率不够,生物智能缺数据吗?

CreateAMind

图形摘要--自由能原理变得更简单但不太简单

精要内容

自由能量原理的简化解释,但不是过于简单

卡尔·弗里斯顿(Karl Friston),兰斯洛特·达科斯塔(Lancelot Da Costa),努尔·萨吉德(Noor Sajid),康纳·海因斯(Conor Heins),凯·乌尔兹霍弗(Kai Ueltzhöffer),格里戈里奥斯A.帕夫利奥蒂斯(Grigorios A. Pavliotis),托马斯·帕尔(Thomas Parr)

本文简明扼要地描述了自由能量原理,从以 Langevin 方程描述随机动力系统开始,到以贝叶斯力学作为可以解读为主观性物理学的结束。

• 从目的论的角度来看,自由能量原理提供了一个关于自组织的规范解释,这种解释以最优贝叶斯设计和决策为基础,即最大化边际似然或贝叶斯模型证据。

• 总之,从随机动力系统的描述开始,我们最终得到了关于自组织的描述,这种自组织表现为可以解释为自证明的行为;也就是说,自组装、自制或主动推断。self-evidencing; namely, self-assembly, autopoiesis or active inference

文章风格:

Abstract摘要

本文提供了自由能量原理的简明描述,从以 Langevin 方程描述随机动力系统开始,到以贝叶斯力学作为可以解读为主观性物理学的结束。它使用统计物理学的标准结果对关键步骤进行了总结。这些步骤包括 (i) 基于条件独立性建立特定状态的分割,这种独立性来自于稀疏耦合的动力学,(ii) 在贝叶斯推理方面解开这种分割的含义,以及 (iii) 使用最小作用变分原理描述特定状态的路径。从目的论的角度来看,自由能量原理提供了关于自组织的规范解释,这种解释以最优贝叶斯设计和决策为基础,即最大化边际似然或贝叶斯模型证据。总之,从以随机动力系统描述世界开始,我们最终得到了关于自组织的描述,这种自组织表现为可以解释为自证明的行为;也就是说,自组装、自制或主动推断。

关键词:自组织、非平衡、变分推断、贝叶斯、马尔可夫毯

1. Introduction介绍

有人说自由能量原理很难理解。这种说法具有三重讽刺意味。首先,自由能量原理(FEP)非常简单,以至于(几乎)是显而易见的。实际上,哲学上的描述将其解释为类似于奎恩(Quine)所说的沙漠景观,即解释要点。第二,自由能量原理的信条之一是,一切都必须提供尽可能简单的准确描述,包括自身最后,自由能量原理建立在统计物理学的基础结果之上。本评述试图尽可能简单地呈现自由能量原理,但又不牺牲太多技术细节。它逐步介绍了从将世界描述为随机动力系统[2, 3]到描述自组织行为为主动推断和自证明[4]的形式推理。所涉及的证据是贝叶斯模型证据,这与所提供的贝叶斯力学相关[5]。这些力学与量子力学、统计力学和经典力学有着相同的起点。唯一的区别在于,我们要仔细关注某物的内部状态与外部状态的耦合方式。

为了使接下来的内容易于理解,我们采用对话式风格,直观地解释关键数学表达的含义。因此,我们使用了简化的符号和假设,突出了基本思想。在开始之前,澄清一下自由能量原理是什么,以及它为什么有用可能会有所帮助生物科学中的许多理论都是对一个问题的回答:“为了存在,事物必须做什么?what must things do, in order to exist自由能量原理颠倒了这个问题,并问:“如果事物存在,它们必须做什么“if things exist, what must they do?”更正式地说,如果我们可以定义什么是某物,我们是否可以确定这个东西必须具备的物理学或动力学?为了回答这个问题,自由能量原理引用了一些数学常识,这些常识相互推导。就像汉密尔顿的最小作用原理一样“1”注释1:更好的类比可能是Noether定理(Beren milli dge–个人沟通)【6】,它不是关于‘事物’行为方式的可证伪理论——而是对以特定方式定义的‘事物’的一般描述。因此,自由能量原理作为一个数学陈述是不可证伪的但在其假设涉及的特定类别的经验现象中,它可能是可证伪的,因为原则旨在描述这些现象。

这样的描述是否有用?从本质上来说,答案可能是否定的——因为最小作用原理并不告诉你如何扔球。然而,最小作用原理提供了我们在特定情况下模拟球的轨迹所需的一切。同样地,自由能量原理允许人们模拟和预测粒子、人、工件或代理particle, person, artefact or agent(即某种‘东西’)的感知行为。这使人们能够构建有感知能力的工件或将模拟用作粒子(或人)的观测模型。这些模拟建立在指定适合描述手头粒子(或人)行为的生成模型的基础上。在这一点上,承诺于特定的生成模型可以被视为承诺于特定且可证伪的理论。后面,我们将看到一些这些模拟的例子。

剩下的部分描述了自由能量原理。每个部分都侧重于后续部分中使用的一个方程或一组方程。随后的叙述旨在简明扼要地将我们带到起点和终点。为了避免打断叙述,我们使用脚注来回答每一步中常见的问题。我们还使用图例来补充叙述,提供神经生物学的例子。大部分内容可以在文献中找到[5, 7, 8];然而,有一些简化取代了早期的描述。

2. Systems, states and fluctuations系统、状态和波动

我们从用随机微分方程描述世界开始[9]。那么为什么要从这里开始呢?主要原因是我们希望得到一个与物理学一致的描述。这是因为量子力学中的薛定谔方程、统计力学中的波动定理以及经典力学的拉格朗日形式等都可以从这个起点推导出来[10]。简而言之,如果一个人想要一个关于感知物理学,那么这就是开始的地方。

我们对具有特征状态的系统感兴趣。从技术上讲,这意味着系统具有拉回吸引子;也就是说,系统将从任何初始状态到达一组状态[2, 11]。这样的系统可以用随机微分方程来描述,比如 Langevin 方程描述了一些状态 x(τ) 的变化速率,即它们的流 f(x),以及随机波动 ω(τ)。通常假设波动是一个服从正态分布(白噪声)过程,其协方差为 2Γ:

点符号表示对时间“2”(注释2:问:为什么(1)中的流量不是时间的函数?随机变量的许多处理方法当将一个系统(例如理想气体)耦合到另一个系统(例如热库)时,热力学考虑到时间相关的流动,其中假设另一个系统变化非常缓慢,例如【12,10】。然而,FEP的野心是描述这种耦合下的一个分区各州。在这种情况下,时间尺度的分离是一个突现的性质,其中(1)成立任何给定的时间尺度。关于使用重整化群装置的处理方法,见【5】。)的导数。这意味着时间和因果关系融入了随后的一切,也就是说状态导致了它们的运动。朗之万方程本身是一个更简单映射的近似从一些变量到这些变量随时间的变化。这是根据分离成状态和(1)中隐含的随机波动,其中状态发生变化相对于快速波动而言是缓慢的。这种(绝热)近似普遍存在物理学中【13,14,15】。简而言之,这意味着我们可以忽略时间相关性快速波动,并根据中心极限定理假设它们有一个高斯分布。这为波动提供了概率密度意味着我们知道他们的统计行为,但不知道他们的轨迹或路径本身是一个随机变量【2,3,9】。

下一步,所有物理学家都知道,要问的是任何事情是否可以被谈论各state的概率密度,即“?”在①中。关于这一点可以说很多概率密度,可以用两种互补的方式表示;即,作为使用福克-普朗克方程的密度动力学等式)或使用路径积分公式。福克-普朗克方程描述了随机波动和状态流通过状态空间产生的密度【16,9】:

福克-普朗克方程描述了我们的随机过程,而不是具体的实现,它是关于状态 x(τ) = x_τ 的确定性密度动态的描述,其中问题中的密度是关于状态的。相反,路径积分的形式考虑了轨迹或路径 x[τ] ≜ [x(t) : 0 ≤ t ≤ τ] 的概率,以其作用action A 为基础(此处和后文中省略了加法常数):

3注释3:问:第三方程的分歧来自哪里?该术语源于Stratonovich路径积分的隐式使用【10】。请注意,我们假设振幅在(1)中,随机波动与状态无关,因此与路径无关,这意味着我们可以放置它在第二个等式的积分之外。)

福克-普朗克方程和路径积分形式都从(1)中关于随机波动统计的假设中继承了它们的函数形式。例如,最可能的路径——或者说最小作用路径——是当波动取最可能的零值时所采取的路径。这意味着偏离这条路径总会增加作用量。这在数学上表达为当作用量被最小化时,它的变分为零“4”注释4:忽略拉格朗日函数中发散项的贡献,获得以下表达式为简单起见,参考【17】。从表面上看这种简化意味着我们或者是:1)考虑短时间尺度上的描述,因为流动可以近似通过不受惩罚的线性函数(例如,线性响应理论,参见【9】);或者2)我们正在考虑随机波动幅度极小的极限(例如,精确粒子,参见第7条和第8条)。

第二组等式表明,关于状态及其路径的不确定性(或熵)分别是预期的惊讶和作用。也许令人感到反直觉的是,路径的熵比状态的熵更容易指定。这是因为关于路径的唯一的不确定性来源——在给定初始状态的情况下——是随机波动[10, 9],其概率密度随时间不变。在(5)中的最后一对等式显示,随机波动的幅度决定了路径的熵。直觉上,如果波动很大,那么许多不同的路径变得同样可信,路径的熵就会增加“5”(注释5:从热力学的角度来看,关于路径的不确定性随温度增加而增加。例如,爱因斯坦-斯莫洛霍夫斯基关系将随机波动的幅度与迁移系数乘以温度联系起来,即

3. Solutions, steady-states and nonequilibria稳态和非平衡解

到目前为止,我们已经有了描述系统动态与波动、状态及其路径概率密度之间关系的方程。这足以详细阐述大部分物理学。例如,我们可以使用福克-普朗克或路径积分形式来推导量子力学,其中福克-普朗克方程变成了薛定谔波动方程[18]。我们可以专注于由类似状态的统计集合组成的系统,以推导涉及波动定理的随机和统计力学[10]。最后,我们可以考虑大型系统——在这些系统中,波动被平均掉——以推导出经典力学,如电磁学和——通过合适的势函数选择——广义相对论[19, 20]。所有这些力学都需要一些边界条件:例如,在量子力学中是薛定谔势,而在统计力学中是热浴或储库,而在拉格朗日力学中是经典势。在这一点上,自由能量原理退后一步,问道,这些边界条件从何而来?事实上,这在薛定谔的问题中是隐含的:

“生物体空间边界内发生的时空事件如何可以由物理学和化学来解释?”[21]。

我们以统计意义上的边界来理解边界,这个边界是一个马尔可夫边界[22]‘6’注释6:A马尔可夫边界是系统状态的子集,它呈现“事物”或粒子有条件地独立于所有其他状态【23】。为什么?因为我们手头唯一拥有的是对系统的概率描述。而将某物的状态与其边界状态分开的唯一方法是基于概率上的独立性——在这种情况下是条件独立性“7”注释7:注意,如果两个状态子集是独立的,而不是有条件地独立,我们将描述两个独立的系统。)

这意味着我们需要确定一个状态分区,将一个子集分配给“事物”或粒子和另一个子集的边界分开的东西一些其他的“东西”。简而言之,我们必须根据条件来定义“事物性”独立性。

然而,如果事物是根据条件独立性定义的,而条件独立性是概率密度的属性,那么密度在哪里呢从哪里来?福克-普朗克方程表明态密度取决于时间,即使流量不再。这意味着如果我们断言“事物性”一种概率密度,它可能只存在一小段时间。这简单的观察迫使我们考虑不变的概率密度即:(I)福克-普朗克方程的稳态解或(ii)路径上的密度。我们将从(稍微微妙的)处理开始稳态解,然后表明(稍微直接一些)对路径上的密度的处理导致了相同的“事物性”概念。

事物在特定时间尺度上的存在暗示了(2)中的密度在这段时间内没有变化。这就是稳态解决方案的含义福克-普朗克方程。随后的密度被称为稳态密度,在随机动力系统中,意味着拉回吸引子的存在【2,3】。吸引子的概念在这里是有帮助的,因为它包含一组随着时间的推移,系统被吸引到的特征状态“8”注释:8更准确地说,福克-普朗克方程的时间相关解将趋向于稳态解。换句话说,稳态密度变成一个点概率密度空间中的吸引子。简而言之,关于“事物”,我们含蓄地谈论的是随机状态的划分具有吸引集(即,系统的稳态解)的动力系统福克-普朗克方程。简而言之,我们认为系统是自组织的稳态密度“9”(注释8:在这一点上,形式主义同样适用于具有高或低熵的稳态,因为我们没有致力于特定形式的稳态密度。稍后,我们将专门研究具有低熵的稳态,用于描述描述生物系统的自组织类型,例如群集或成群结队【14,24】。)这种解决方案也被称为非平衡稳(NESS)密度,其中“非平衡”方面取决于螺线管流,因为我们接下来会看到。

Fokker-Planck方程的解存在——也就是说,某种事物的存在意味着我们可以使用Helmholtz分解的推广来表达状态的流动,以稳态密度(或对应的惊讶)为参考。这将流动分解为与稳态密度相关的保守(旋转,无散度)和耗散(无旋转,无环)组分,分别称为涡流和梯度流

【25,26,27,28, 29, 30, 9]:

这可以直观地理解为将流程分解为两部分。流动的第一部分(保守部分)是等角线上的螺线管环流稳态密度(或令人惊讶的密度)。这一部分打破了详细的平衡并使稳态密度成为非平衡稳态密度【31,32】。第二部分(耗散部分)对稳态意外执行(自然)梯度下并取决于随机波动的幅度【33,34】。最后一项λ可以被视为一个校正项,它既不是无度的也不是无发散的,但它确保概率密度在时间【30】。

3.1. Summary 摘要

我们现在以非平衡稳态(NESS)密度的形式对系统进行了概率描述,这种密度允许状态之间存在条件独立性。这些条件独立性对于将事物的状态与它们的边界分开是必要的。在下一步中,我们将看到条件独立性是如何从状态之间的稀疏耦合中继承的,并且它们是如何用来建立特定的状态分割的。

4. Particles, partitions and things粒子、分割和事物

通过将一些(随机微分)运动方程与唯一的(NESS)密度相关联,我们得到了一个有点特殊的设置,在这个设置中,由运动方程导致的影响对NESS密度的条件独立性施加了限制。这些条件独立性可用于将状态分成外部、感知、活动和内部状态,如下所总结的。这是一个重要的举措,因为它将粒子的状态(即,内部状态及其感知和活动状态)与其他(即,外部)状态分开。然而,为了做到这一点,我们必须确定(1)中的因果动态如何支持条件独立性。这可以通过以下方式简单地使用惊奇曲率(Hessian)来实现:

这意味着如果第u个状态在给定其余状态b的情况下与第v个状态条件独立,则惊讶的曲率或者Hessian矩阵的相应元素必须为零。反之,Hessian矩阵中的零元素意味着条件独立性。总之,只有当一个状态的惊讶变化不依赖于另一个状态时,任何两个状态才会有条件独立性。现在我们可以使用Helmholtz分解(6)来表达Jacobian矩阵——即流动的(线性)耦合——与Hessian矩阵之间的关系(这里稍微滥用了点乘符号)

我们现在可以将稀疏耦合定义为该方程的一个解,其中所有项都等于零“10”:注释10:这隐含地排除了一些非零项相消的边缘情况。

稀疏耦合意味着状态u和v之间的Jacobian耦合为零,即,一个状态之间没有耦合到另一个状态的情况。这个定义排除了依赖于v的与u有关的涡流耦合。因为

是正定的,稀疏耦合要求涡流算子和Hessian的相关元素在状态空间的每一点上都为零,这反过来意味着条件独立性:

简言之,稀疏耦合意味着如果一个状态不影响另一个状态,则任何两个状态都具有条件独立性。这是一个重要的观察,即稀疏耦合意味着具有条件独立性的非平衡稳态密度。换句话说,这意味着任何具有缺失或有向边的动态影响图都具有一个马尔可夫毯(上述的状态b)。这些独立性现在可以用来构建一个特定的分割,如下所示:

• 一组内部状态 µ ⊂ x 的马尔可夫边界 a ⊂ x 是存在非零 Hessian 子矩阵 Haµ = 0 的最小状态集合。换句话说,当给定它们的马尔可夫边界(称为活动状态)时,内部状态与其余状态独立。活动状态和内部状态的组合将被称为自主状态:α = (a, µ)。

• 自主状态的马尔可夫边界 s ⊂ x 是存在非零 Hessian 子矩阵 Hsα = 0 的最小状态集合。换句话说,当给定它们的马尔可夫边界(称为感知状态)时,自主状态与其余状态独立。活动状态和感知(即边界)状态的组合构成毯状状态:b = (s, a)。内部和毯状状态将被称为特定状态:π = (s, α) = (b, µ)。

• 剩余状态构成外部状态:x = (η, π)

活动和感知(即,毯状)状态的名称来源于文献,它们通常与生物系统相关联,这些系统对其外部环境进行作用和感知“11”注释11:问:为什么特定分割包括四组状态?换句话说,为什么特定分割考虑两个马尔可夫边界,即感知状态和活动状态?原因在于这是允许与毯状状态有定向耦合的最小分割。例如,感知状态可以影响内部状态,而活动状态可以影响外部状态,而不会破坏特定分割的条件独立性(这些定向影响在图1的上部分以虚线箭头表示)。”在这种情况下,人们可以将外部状态视为通过感知状态(直接或通过活动状态)影响内部状态。而内部状态则通过活动状态(直接或通过感知状态“12” 注释12:问:这是否意味着我可以通过我的感觉器官对我的世界产生影响?是的:许多生物行为是通过(活动的)运动细胞骨架纤维、肌肉和分泌器官进行介导的,这些器官位于(感觉的)上皮下面,例如皮肤或细胞表面的受体。)影响外部状态。我们将在稍后看到,这意味着内部状态与外部状态之间存在一种同步关系,即内部状态可以被视为主动推断外部状态。由特定分割隐含的随后条件独立性可总结如下:

一个具有稀疏耦合的特定分割的流动和雅可比矩阵的正则形式可以表示如下,其中α = (a, µ) 和 β = (η, s):

这个正则形式意味着特定分割可以用稀疏耦合来定义。也许最简单的定义——可以保证一个马尔可夫毯(“13”注释:在自主和非自主状态之间缺乏涡流耦合,并且对于(12)中涡流耦合的偏导数存在约束;即,自主状态之间的涡流耦合不依赖于外部状态。同样,对于非自主和内部状态也是如此。)——如下所示:外部状态只影响感知状态,内部状态只影响活动状态这意味着感知状态不受内部状态的影响,活动状态不受外部状态的影响。

噪声过程 ωi(τ ), i ∈ {η, s, a, µ} 是独立的。在这种稀疏耦合下,可以简单地证明不仅内部和外部状态在给定初始状态时是条件独立的,而且它们的路径在给定初始状态时也是条件独立的,这是使用路径积分公式可以证明的。

路径的不确定性(即,熵)来自随机波动。这意味着如果我们知道每个时间点上流动的所有影响,我们可以从 (5) 中评估外部和内部路径的熵:

最后的等式表明,当我们了解内部(或外部)路径时,关于外部(或内部)路径的不确定性不会改变,因为外部(或内部)状态不会影响内部(或外部)流动。这意味着外部和内部路径不共享任何互信息,因此在毯状路径(和初始状态)的条件下是独立的。根据(11),当在毯状状态下进行条件处理时,初始外部和内部状态本身也是独立的。

请注意,路径的条件独立性直接继承自稀疏耦合,而无需参考NESS密度或Helmholtz分解。通过将(7)中的偏导数替换为函数导数,并从(12)中注意到没有依赖于内部和外部状态的流量,可以清楚地看出这一点。

这些表达意味着在给定毯状路径(和初始状态)的情况下,内部路径的概率不取决于外部路径,反之亦然。

图1:马尔可夫毯状层。此影响图示出将状态分区为内部状态(蓝色)和外部状态(青色),它们由包括感觉状态(绿色)和活动状态(红色)的马尔可夫毯状层分隔开来。图中的边表示一个状态对另一个状态的影响,而不是条件依赖关系。该图展示了将该分区应用于单细胞生物时的情况,其中内部状态与细胞内状态相关联,感觉状态成为表面状态或位于活动状态之上的细胞膜(例如,细胞骨架的肌动蛋白丝)。虚线表示允许从感觉(或活动)到内部(或外部)状态的定向影响。特定状态构成一个粒子;即,自主和感觉状态——或毯状和内部状态。

4.1. Summary摘要

总之,如果且仅当内部状态的流动不依赖于外部状态,反之亦然(在给定初始状态的情况下),某个“事物”的内部动态(即路径)与外部路径是有条件独立的。我们将此视为某物体存在的必要且充分条件,因为它可以与其他一切区分开来。当初始状态从NESS密度中采样时,内部状态在对旋转流施加一定约束的情况下,与外部状态(在给定毯状状态的情况下)是有条件独立的。图1说明了随之产生的特定分区。请注意,图中的边表示一个状态对另一个状态的影响,而不是条件依赖关系。这一点很重要,因为定向影响导致条件独立性。这些条件独立性体现为Hessian矩阵中的零元素,这些零元素继承自动态的稀疏、定向耦合。

5. From self-organisation to self-evidencing从自组织到自证明

具备了特定的分区,我们现在可以根据其内部状态和马尔可夫边界(即自主状态)来讨论事物。我们还可以谈论自主状态及其马尔可夫边界,即特定状态——一个粒子的状态。下一步是表征自主状态(粒子、植物或人的状态)的流动与外部状态之间的关系。换句话说,我们考虑粒子在其马尔可夫毯下的内外耦合的性质。正是在这一点上,我们开始迈向具有特定分区系统的(贝叶斯)力学的特殊渊源。

特定分区的存在意味着——在给定感知状态的情况下——可以将外部状态的条件密度定义为由最可能的内部状态参数化而成[7】‘14‘「注释 14换句话说,内部模式提供了条件密度的充分统计数据超越外部状态]。我们将其称为由内部模式µ(τ)参数化的变分密度“「15”注释:15问:如果条件密度表现不佳怎么办,例如,如果没有独特的模式?答案是,当使用广义运动坐标增加状态空间的维度时,通常可以保证良好的密度【35、36、37】。换句话说,我们不仅仅研究状态,而是研究任意高阶的状态及其广义运动。稍后我们将看到这方面的示例。」

与最小作用路径类似,我们将使用粗体字体来表示模式或最有可能的状态,考虑到指定其可能性所需的所有状态。对于自主状态,我们只需要感知状态,因为自主状态在外部状态的条件下是独立的。

引发变分密度是一个重要的步骤。这意味着对于每个感知状态,都有一个相应的活动模式和内部模式(或在活动和内部状态的联合空间中的自主模式)。活动a(τ),内部µ(τ)和自主α(τ)模式分别演变 active a(τ), internal μ(τ) and autonomous α(τ) modes evolve on active, internal and autonomous'16'注释:16A流形是一个拓扑(状态)空间,其中每个状态都有一个邻域,该邻域与相同维度的欧氏空间的一部分是同型的【38】。直觉上,它是一个弯曲的在可能很大但有限的维度中的空间,如光滑的表面。在这种情况下,这些状态是条件模式。其维度与感知状态相同“17”「注释:17主动、内部和自主流形的维度对应于感觉状态的数量。这意味着活动状态和内部状态的数量都必须大于感觉状态的数量。反过来,这将自由能原理的直接应用限制在活动状态的数量(以及内部状态的数量)超过感觉状态的数量的特定分区上。换句话说,FEP适用于具有非平凡内部动力学的大粒子。」我们将在后面看到,这些流形起到了中心流形的作用;也就是说,在这些流形上,动态不会指数级别地发散(或收敛)[13]。

至关重要的是,内部流形也是一个统计流形,因为其状态对于变分密度来说是充分统计量。反过来,这意味着它配备了一个度量和隐式信息几何[39, 40, 41]。实际上,费舍尔信息度量张量,它测量了内部模式微小变化导致的Kullback-Leibler(KL)散度的变化,是一个黎曼度量,产生了一种信息距离[42,附录B]。这意味着我们可以将内部流形上的动态解释为更新关于外部状态的贝叶斯信念。这种解释可以通过贝叶斯推理来解读,如下所示。

方程(16)意味着对于每个感知状态,都存在一个关于外部状态的条件密度和一个相应的具有最小惊奇的内部模式。该模式指定了变分密度,其中—根据定义—变分密度与外部状态的条件密度之间的KL散度为零“18”注释18:由于外部状态的变分密度和条件密度相等,任何发散它们之间的距离将会消失,参见【43,第3.2节】。这意味着我们可以将自主流描述为对变分密度的自由能泛函的梯度流“19”注释19:A泛函是一个函数的函数,在这里,自由能是由内部模式参数化的条件密度的函数。

其中所讨论的自由能是特定状态的惊奇值(上界):

(公式解读:)

这种变化的自由能“20”注释:问题:为什么这个泛函叫做变分自由能?更一般地说(例如在工程应用中,所讨论的自由能也被称为证据下限【44】),自由能是近似后验密度q的函数,近似贝叶斯后验密度q如下:

本文中考虑的变分密度是(19)中的最小值,在变分密度下计算的自由能是变分自由能。“变分”一词源于变分贝叶斯的变分法(又称近似贝叶斯推断),应用于平均场近似或分解形式的变分密度。在量子电动力学的背景下,术语“自由能”继承自理查德·费曼的路径积分公式。)

可以用几种方法重新排列。首先,它可以表示为预期能量减去变分密度的熵,因此被命名为自由能“21”注释:21问:变分自由能与统计力学中发现的自由能相同吗?答案是否定的:变分自由能中的熵项是变分密度的熵——在外部状态上——由内部状态参数化。这种熵不同于内部状态的熵。最小化变分自由能会增加变分密度的熵,并且通常会降低内部状态的熵(参见【45】中的示例)。在数学上,我们可以将不同种类的熵表示为

在这种分解中,在预期能量最小化的约束下,最小化变化自由能对应于最大熵原理【46,47】。期望能量是起生成模型作用的NESS密度;即共同分配起因(外部状态)及其后果(特定状态)“22”注释:22问:在实际应用中,变分自由能通常是数据或观察(感觉)状态的函数。那么,为什么变分自由能是特定态的函数呢?稍后,我们将看到在特定动力学非常精确的假设下,实际应用对应于贝叶斯滤波。这意味着给定感觉路径的自主路径不存在不确定性,特定路径的动作就是感觉路径的动作。在贝叶斯滤波中使用的广义运动坐标中,路径的行为成为状态的惊喜。在这种情况下,特定状态的变化自由能与感觉状态的变化自由能相同。

其次,变分自由能可以分解为特定状态的(负)对数似然(即,负精度)和后验与先验密度之间的KL散度(即,复杂度)。最后,它可以被写作特定状态关联的自信息(即,惊异)加上变分与条件(即,后验)密度之间的KL散度,根据构建,后者为零。在变分贝叶斯推断中,负惊异被解释为对数边际似然或模型证据,在边缘化外部状态后。在这种情况下,负自由能是证据下界或ELBO。

那么,我们如何解释(17)在推断方面的意义呢?让我们从考虑自主状态对某些感觉扰动的响应开始:即,对感官状态条件下的自主状态的路径。如果感官状态变化缓慢,那么自主状态将流向它们最有可能的值(即,它们的条件模式)并停留在那里“23注释:23或至少在其附近,如果其运动存在随机波动。”。然而,如果感官状态在变化,自主状态看起来就像是在追逐移动的目标。可以沿着中心流形定理的思路制定这一点,其中我们有流离开中心流形的(快速)流动和自主模式在流形上的(缓慢)流动。

实际上,这是在随着自主模式移动的参考框架中进行的分解,其路径位于中心流形上。我们进一步描述了流离开流形的情况,使用了围绕(随时间变化的)自主模式的泰勒展开24注释:24请注意,我们正在对一个(通常是粗略的)随机过程ε进行泰勒展开,参见【51,第5章】。或者,可以考虑广义坐标中的运动,以引入平滑随机波动(见下一节),这样ε变得平滑,通常的泰勒展开适用。

这意味着在展开点处的流动为零,使得展开的第二项成为第一个非零项。这是自主流动的雅可比矩阵乘以当前自主状态与其相应模式的位移。自由能的二阶导数来自于流动的雅可比矩阵,即将(17)代入(8)。因此,流离开流形的部分具有朝向中心流形的分量“25”,注释:25我们知道,流动必须朝向中心流形,因为随机波动的协方差是正定的,并且自由能的曲率在其最小值处(即在膨胀点周围)是正定的。,由梯度流提供,以及平行于流形的分量,由旋度流提供,参见(6)。总之,这意味着自主状态朝着中心流形逐渐减小的圆圈中流动,如图2所示。

那么在中心流形上的流动呢?我们从(17)知道,自主模式的流动可以用自由能梯度表示:

这个表达式将中心流形的流动分解为自由能的准确性和复杂性部分,其中准确性部分取决于感知状态,而复杂性部分是自主状态的函数,且仅是自主状态的函数。简而言之,在中心流形上的流动看起来就好像它试图最大化其预测的准确性,同时遵循先验(贝叶斯)信念“26”注释:26随机涨落的协方差γα是正定的,螺线管矩阵场Qαα是斜对称的,因此(22)中的流程将寻求最小化复杂性减去准确性。

在这里,预测被解释为对感知状态的期望,根据对其原因的后验(贝叶斯)信念,这些信念由对外部状态的变分密度所提供。

5.1. Summary摘要

总之,一个特定的非平衡稳态密度的分割暗示了自主动态可以被解释为执行一种特定类型的推理。这涉及到向自主中心流形的快速流动和在中心流形上的缓慢流动。中心流形上的流动可以解释为贝叶斯信念更新,其中后验(贝叶斯)信念由内部(统计)流形上的点编码。换句话说,对于统计流形上的每一点,都有一个相应的变分密度或外部状态的贝叶斯信念。我们现在可以将这种信念更新表达为最小作用变分原理:

这是自由能原理的基础。简单来说,这意味着特定分割的内部状态可以被视为编码关于外部状态的条件或后验贝叶斯信念。同样地,最小作用自主路径可以被表达为变分自由能的梯度流,可以被理解为对数证据。这使得自组织可以被描述为自我证明的过程,因为在贝叶斯统计中,意外性或自信息被称为对数模型证据或边际似然“27”注释:27问:这种贝叶斯机制似乎很适合于推断,但是随着时间的推移学习会怎么样呢?我们一直在一般意义上与state打交道。然而,状态可能会发生变化在不同的时间范围内。人们可以把缓慢变化的状态理解为起作用的特殊状态的参数;流的参数或隐含的创成式模型。在数学上和参数通常被同等对待;即最小化变分自由能。事实上,在贝叶斯过滤方案的实际应用中,参数被视为缓慢变化的状态。工作示例见【52,36】。‍

有趣的是,由于马尔科夫毯的对称设置,有可能重复上述所有内容,但交换内部和外部状态以及活动和感官状态的标签,并讲述外部状态跟踪内部状态的相同故事

这表明了一种形式的广义同步【53,54,55,7】,其中内部和外部状态相互跟踪

从技术上讲,如果我们考虑内部和外部状态的联合空间中的(内部和外部)流形,我们有一种称为同步流形的东西,它提供了内部和外部之间耦合的另一种视角【56,39,7】。

这些目的论解释将特定的最小作用路径视为一种优化过程,其中对自由能的不同解读与各种感知行为的规范(即优化)理论紧密相连。一些主要的例子总结如图3所示;参见[57, 58, 5, 59]以了解这些关系的一些正式说明。由于内部状态不影响感觉(或外部)状态,它们看起来好像纯粹关注推理,即它们参数化了关于外部状态的变分密度。然而,主动状态影响感觉(和外部)状态,看起来就像它们在配置(和导致)支撑推理的感觉状态中扮演着积极的角色。在神经科学中,这被称为主动推理[60, 61, 62]。

优化与推理之间的联系简单来说就是推理是信念优化。然而,值得解释推动这种优化的梯度。在统计学中,变分自由能用于评估变分密度与给定边界状态下外部(即隐藏)状态的条件密度之间的差异[49]。与(18)中的定义不同,这些密度不被假设为等价。变分推理通过优化变分密度以使其最小化自由能而进行,通常使用(17)中的梯度流。然而,(17)中的动态与变分推理之间存在微妙的差异。在前者中,KL 散度没有贡献,因为它被规定为零。在后者中,只有散度项对自由能梯度有贡献。因此,将变分自由能上的梯度流解释为变分推理是否可行,还是只是目的论的修饰?下一节通过贝叶斯过滤的视角来回答这个问题。简而言之,我们将看到,由特定分区暗示的自主最小作用路径是贝叶斯滤波器的最小作用路径。通过建立特定动力学与变分推理之间的正式联系,我们将超越“似乎”论证。

图3:马尔可夫毯子和自证。这个示意图阐明了最小化变分自由能与其他规范行为理论之间的各种接触点。马尔可夫毯子的存在意味着内部、毯子和外部状态之间存在一定程度的影响缺失。这有一个重要的结果——内部和活动状态不受外部状态的影响,这意味着它们的动态(即感知和行动)是由特定状态给定的变分(自由能)限制的惊异。这有一些有趣的解释。鉴于惊异是发现粒子或生物在特定状态的负对数概率,最小化惊异相当于最大化该状态的价值。这种解释得到了授权,因为高概率的状态在定义上是该粒子的特征。从这个观点来看,人们可以将这与强化学习[63]、最优控制理论[64]以及经济学中的预期效用理论[65, 66]的动态联系起来。最小化惊异(即自信息)的梯度流导致了一系列有影响力的神经动力学描述,包括最大互信息原理[67, 68]、最小冗余和最大效率原理[69]以及自由能原理[70]。关键是,特定状态的平均或预期惊异(随时间的变化)对应于熵。这意味着行动和感知看起来就像是界定特定状态的熵。这与自组织理论相吻合,例如物理学中的协同效应[24, 14, 71]或生理学中的稳态[72, 73, 74]。最后,特定状态的概率在统计观点上是模型证据或边际似然[75, 76],对特定状态的原因进行边际化(即外部状态)。这意味着所有上述公式在内部与诸如贝叶斯大脑假设、证据积累和预测编码[57, 77, 58]等事物一致。这些公式大多源自亥姆霍兹的无意识推理动作[78],后来在心理学[79]和机器学习[80]中以假设检验的形式解释。虽然这里没有描绘出来,但复杂性的最小化——内在于最小化自由能——通过兰道尔原理[81]实现了热力学和代谢效率。

6. Lagrangians, generalised states and Bayesian filtering

拉格朗日函数、广义状态和贝叶斯滤波

现在,假设我们想要模拟主动推理。鉴于一些运动方程和随机波动的统计数据,我们可以找到福克-普朗克方程的稳态解以及相应的亥姆霍兹分解。然后,我们可以解(23)以获取表征这种粒子预期行为的自主最小行动路径,并获得同步和推理的实现。参见[8],其中使用了耦合的洛伦兹吸引子系统的工作示例。

在本节中,我们进行了一次相当务实的探索,提出了一种更简单的方法来恢复最小作用路径;即作为一种普遍用于工程文献中的(贝叶斯)滤波方案的解决方案

6.1. Dynamics in generalised coordinates of motion

广义运动坐标中的动力学

让我们回到控制我们系统的 Langevin 方程。

在本节中,我们假设驱动运动的随机波动具有平滑的(解析的)样本路径;因此,随着波动变得粗糙,本文其余部分考虑的朗之万方程可以视为(24)的极限【82】。这种设置很好地说明了一个事实,即在生物学中,波动通常在一定程度上是平滑的——与热(白噪声)波动相反——因为它们是其他随机动力系统的输出。如前所述,我们假设波动与状态无关,是一个平稳的高斯过程,例如,用高斯核平滑白噪声波动。就像在白噪声、高斯性可以由中心极限定理激发——波动应该在每个时间点呈正态分布。

我们用 Γh 表示波动的自协方差,定义为

产生这种通用平滑噪声的基础动力系统可以通过一种称为随机实现的程序来恢复。在一个适当小的时间间隔内, Langevin 方程(24)的解可以用运动的广义坐标

的线性 Langevin 方程近似表示“28”注释:28)展开式(25)是对(24)的线性近似,通过对(24)进行递归微分并忽略高于一阶的流导数的贡献而得到。换句话说,当流是线性时,该展开是精确的,在短时间尺度上当流是非线性时是准确的。

29)自相关函数的曲率(即二阶导数)γ′′₀是衡量随机过程粗糙度的普遍标准。请注意,在波动ω不相关的极限情况下(例如,白噪声波动),γ′′₀(以及更高阶导数)变得无限大。

在这里,不同的变量

可以被看作是该过程的位置、速度、加速度、急加速度以及更高阶的运动,它们被视为通过雅可比矩阵 J 而相互耦合的单独(广义)状态。这些状态受到平滑波动 ⃗ω(即 ω 的串行导数)的驱动,其协方差 2Γ 可以用自相关的串行导数来表达。

广义状态是 Langevin 方程解的泰勒级数展开的系数(24):

在此,(26)通常仅在我们以后限制的小时间间隔内成立。换句话说,在任何时间点的广义状态确定了系统的轨迹,反之亦然;也就是说,广义状态和路径之间存在一种同构关系。

这种推理有两个优点。首先,这意味着人们可以放下白色对随机波动的噪声假设和处理是平滑的还是解析的波动。第二,广义运动坐标的线性展开(25)意味着广义态的分布具有简单的高斯形式

这里,M可以被视为质量矩阵。这意味着,具有低振幅随机波动的精确粒子的行为类似于具有质量的物体。此外,(27)被视为广义运动坐标中的拉格朗日函数,因为它的形式与(3)相似。广义点与路同构下坐标下,拉格朗日量相当于作用量;它对(24)的路径可能性进行评分,因为路径对应于广义运动坐标“30”注释30:问题:一个点如何成为一条路径?通常,一条路径对应于在一个合适的小时间间隔内解(24)的路径的泰勒展开式的系数,这些系数即为广义状态(即时间导数)(26)。中的一个点。此后,我们将通过分析广义态的拉格朗日函数来推理系统的轨迹。

最小作用路径对应于拉格朗日函数的最小化者,可以表示如下:

我们可以通过求解下面的运动方程来恢复最小作用路径

事实上,这种运动可以解释为拉格朗日函数的梯度下降,在一个随着广义状态分布的模式移动的参考框架中进行[36]。因此,拉格朗日函数的凸性意味着任何对(29)的解都会收敛到最小作用路径。在这种情况下,无散流(即第一项)被称为基于广义运动的广义状态的预测,而无旋、梯度流(即第二项)被称为更新。

6.2. Particular partitions in generalised coordinates of motion

广义运动坐标中的特殊划分

现在,我们重新引入内部、外部、感觉和活跃状态的区别,即

)。简言之,与之前一样,我们假设 Langevin 方程(24)如同(13)中一样稀疏耦合。这意味着给定毯子轨迹(15),粒子内部和外部的轨迹在条件下是独立的。相同的稀疏耦合结构贯穿于广义坐标的展开式(25)中,因此广义状态的运动涉及具有相同条件独立性的轨迹。由于路径对应于广义状态,因此这产生了广义状态之间的条件独立性,如下所示:

我们现在可以通过将拉格朗日函数与广义状态的变分自由能相等来恢复粒子的最小作用路径。这使我们能够将内部的最小作用路径表达为对变分自由能的梯度流,这本身可以用广义预测误差来表示。根据(29),我们有

其中广义态的自由能类似于(18)

给定形式为状态空间模型的生成模型,评估广义状态的变分自由能是很容易的;也就是外部和感觉状态的广义流f⃗η,f⃗s以及它们的广义波动的协方差Γη,Γs。

需要注意的是,变分密度的参数化非常简单:内部状态参数化了预期的外部状态。此外,拉格朗日函数的二次形式意味着外部状态的广义运动的变分密度是高斯的“31”注释:31问题:为什么变分密度的协方差只是内部模式的函数?这是由于二次拉格朗日函数提供了自由能最小值的解析解。详细信息请参阅[89]。。这使得变分贝叶斯中的一个普遍假设成立,即拉普拉斯假设。请参阅[89]以了解拉普拉斯假设带来的简化讨论。

重要的是,在没有活动状态的情况下,(31)中的动态与广义贝叶斯滤波器一致。广义滤波是一种通用贝叶斯滤波方案,适用于在广义运动坐标中公式化的非线性状态空间模型【36】;特殊情况包括变分滤波【90】、动态期望值最大化【91】、扩展卡尔曼滤波【92】和广义预测编码。

此外,如果自主路径有条件地独立于外部路径,给定感觉路径“32”注释:这适用于精确粒子,其特定波动具有无限小振幅——请参见接下来的章节和[37]。,则动作最少的自主路径可以是

根据变分自由能从广义梯度下降中恢复:

在这种情况下,可以通过对变分自由能进行梯度下降来恢复内部和活动状态的最可能路径,并且可以使用线性二次控制或模型预测控制的一般化方法来模拟主动推理。

这实际上是(泛化的)式(23)中特定动态的版本。

6.3. Summary摘要

这一部分从FEP叙事中进行了一种实用的偏离,考虑了广义的运动坐标。这种偏离很重要,因为它表明在具有吸引集的系统中的梯度流是统计学中用于同化数据的贝叶斯滤波器中的最小作用路径[92],实际上也是控制理论中的路径[95]。

在广义的运动坐标中工作实际上就是在处理路径和路径积分的表述。实际上,这是很有用的,因为可以直接使用路径上的密度来评估所需的自由能梯度,而不是解决福克-普朗克方程以找到NESS密度。实际上,生成模型变成了一个状态空间模型,用流和随机波动的统计数据指定:见(32)。这些是关于外部和感知路径的联合密度的充分统计信息。

到目前为止,我们在运动中的特定状态中很大程度上忽略了随机波动,以便专注于潜在的流动。这些流动是否会被实现,或者(23)中的最小作用原理仅适用于最有可能的自主路径?在接下来的内容中,我们将考虑一类特殊的系统,在这类系统中,我们抑制特定的波动以恢复粒子对外部状态表现出精确或可预测响应的行为。对于这种类型的粒子,特定的路径始终是最小作用路径。

7. From statistical to classical particles

从统计到经典粒子

到目前为止,我们已经有了一个贝叶斯力学,适用于描述具有回拉吸引子的粒子或个体。但是粒子和个体之间有什么区别呢?这个问题涉及到自由能原理可以适用的不同类别的事物;例如,分子与生物的区别。在这里,我们将生物自组织与大粒子的精确和可预测的动态联系起来。由于Helmholtz分解(6),众所周知,当随机波动很大时,耗散流占主导地位,,我们有由统计力学描述的系综(即小粒子)。相反,当随机波动幅度较小时,螺旋流“33”注释:以及它的修正项 Λ,参见(6)占主导地位,我们有经典力学和确定性混沌(即天体和n体问题)。在这里,我们考虑在特定分区设置中统计和经典力学之间的区别

人们经常说,自由能原理解释了为什么生物系统抵制第二定律和自然趋向于耗散和无序 [96]。然而,从两个方面来看,这是不诚实的。首先,第二定律只适用于封闭系统,而自由能原理描述了内部状态通过毯子状态暴露于外部状态,并与外部状态交换的开放系统。其次,到目前为止,并没有什么迹象表明特定状态或路径的熵很小。我们所做的一切都同样适用于熵密度高和低的粒子。那么,区分高熵系统和低熵系统(例如,蜡烛火焰和门房之间)的因素是什么呢?

我们可以从(5)中找到一个答案,即将路径(即特定状态的历史或轨迹)的熵与随机波动的幅度联系起来。这使得我们可以提出精确粒子的概念,其特点是具有低或消失的随机波动“34”问题34:但我的神经元肯定是有噪音的吧?有大量文献提到了神经元和突触的噪音:例如,[97]。然而,神经元集合或组合的群体动态在适当的空间和时间尺度上平均时,根据中心极限定理,几乎是没有噪音的(因为它们包含成千上万的神经元)。例如,在电生理学中,对多个波动的单次响应进行平均会产生令人惊讶的稳定和可重复的事件相关电位。从FEP的角度来看,研究单个神经元(或试验)就像研究单个分子以表征流体动力学一样。。实质上,精确粒子只是受经典自然法则支配的“事物”;即,拉格朗日力学。在特定状态的小波动的伴随极限中,每条自主轨迹都是最小作用路径。从(5)和(23)可以表达为:

这表明精确的粒子——比如你和我——会以一种精确可预测的方式对环境流动和波动作出响应。图4利用信息图解释了通用粒子和精确粒子之间的区别。需要注意的是,对于精确粒子,在给定感知状态的情况下,对自主状态没有不确定性。这是因为自主状态的流动仅取决于感知状态和它们自身。精确粒子的行为是否足以描述有感知行为

在某种解读上,也许可以:通过在适当的生成(状态空间)模型下数值积分(23)或(34),可以复现生物行为。图5展示了通过积分(23)模拟有感知行为所使用的隐含计算架构。这种方案允许通过外部动态引起的感知状态来模拟内部和主动状态“35”注释:生成模型可以通过外部或感觉状态的流动以及它们运动的随机波动来规定;也就是说,通过(34)的前两行。观察到自由能(31)仅取决于这些流动和波动的协方差,因此只需要规定这些协方差,而不是整个波动的结构。图6展示了来自主动推断文献的一个示例,它在适当指定的生成模型下积分(34),以模拟类似书写的有感知行为。这里不涉及模拟的细节和生成模型的细节,但在图例中进行了总结;重要的是要了解通过积分(34)可以复现的行为类型。

图6中的示例说明了自由能原理的应用。在这里,我们没有通过推导系统的非平衡稳态密度来描述系统,而是通过指定一些运动方程(和随机波动的协方差)来实现特定的动力学,使用了(34)和(32)。实际上,我们模拟了自证明,从定义(即状态空间生成模型)路径开始,这些路径表征了这种类型的粒子“36”注释36:图6中的示例使用了(34)以及高达四阶的广义运动坐标。数值分析表明,在大多数情况下,模拟高达六阶的广义运动(即忽略所有后续运动阶数)是足够的。‍

图4:一般和精确粒子。这些信息图描述了外部、感觉和自主路径的熵,交叉点对应于共享或相互信息。条件熵对应于熵所依赖的变量之外的区域。左侧的图表显示了一般情况,在这种情况下,关于路径的不确定性来自决定路径的条件熵的随机波动。当特定状态运动的随机波动的振幅非常小时,我们有了精确粒子,其中在给定感觉路径的情况下,自主路径没有不确定性(右侧信息图)。同样,给定外部和自主路径,感觉路径没有不确定性。请注意,因为我们处理的是连续状态,我们隐式地将熵解释为离散点的极限密度(LDDP),其下限为零[46]。(LDDP是对差分熵的调整,它确保熵被下限为零。LDDP等于所讨论的密度与均匀密度之间的负KL-散度)。两个相对熵(信息增益和风险)被突出显示为交叉点的区域。在后面分解自主路径的行动(即预期自由能)时,它们将起到重要作用。

图5:贝叶斯力学与主动推理。这张图总结了梯度流在变分自由能上的信念更新。这些是精确粒子的路径或一般粒子的最小行动路径。它说明了一种简单形式的(主动)推理,在各种应用和模拟中得到了应用,从手写和行为观察[98],到鸟鸣和通信中的广义同步[56]。简而言之,感觉状态提供自由能梯度(通常表示为预测误差),在某些生成模型下。神经动力学被模拟为在得到的梯度上的流动,以产生参数化关于外部状态的后验信念的内部状态。类似地,主动状态被模拟为在自由能梯度上的流动,通常起到预测误差的作用。换句话说,主动状态介导运动或自主反射[99,100]。这种主动推理的示例在下图中提供。

然而,当通过变分自由能的梯度流(如式(23)或(34))模拟精确粒子时,必须评估所需的梯度。而这又需要计算变分密度或后验分布的函数形式,这可能很难精确计算“37”:注释37:在贝叶斯推断中,众所周知,计算后验分布给定数据和一个生成模型

) 是计算成本高昂的,因为它涉及计算一个(通常)高维积分

(即一个分配函数)。在这种情况下,我们采用一个近似真实后验的变分密度,因此变分自由能成为惊讶的一个上限:参见(19)。从贝叶斯推断的角度来看,这将我们从(计算昂贵的)精确贝叶斯推断转变为(计算廉价的)近似贝叶斯推断 [48, 49, 104]。从其产生的角度来看,这就是引入变分自由能的原因 [105];即将一个计算昂贵的边缘化问题转换为一个计算可管理的优化问题。需要注意的是,当使用广义坐标来实现主动推理时;即(34),我们通常在使用近似贝叶斯推断:变分密度的函数形式直接继承自对随机波动的高斯假设,然而它所基于的广义坐标的展开(参见 29)通常是对基础动态的一种近似(参见 28)。

图 6:智能行为和动作观察。本图展示了通过精确粒子的主动推理模拟(这里是书写),涉及对世界外部状态的推理、对感觉输入的随后预测以及随之而来的动作。支撑这种行为的自主动力基于感觉状态的生成模型,采用 Lotka-Volterra 动力学形式;请参见左上角插图中任意着色的样本感觉轨迹线。生成模型定义了联合密度,在此下内部轨迹可以被视为参数化外部状态。该模型并非对真实外部状态的描述(这里只是模拟手臂的关节位置,其动力学由简单的牛顿规则给出)。在这个生成模型中,假设外部轨迹遵循捕食者-被捕食者的动态,因此会依次生成一系列峰值,用于一部分外部状态(或坐标)。每个坐标都与欧几里德空间中的一个位置相关联,吸引代理的手指(主动状态)即向那个吸引点的轨迹。因此,得到的吸引点是通过 Lotka-Volterra 轨迹的每个可能吸引点的加权和来确定的,权重由坐标确定。反过来,内部状态提供了如果代理的信念是真实的,感觉状态应该注册的预测。主动状态(即驱动肢体关节角速度变化的力)试图通过调整对代理关节施加力(未显示),从而抑制随后的预测误差。手臂的随后运动在左下方的面板中显示出来。此轨迹已在参考系中绘制,使其看起来像手写(例如,一系列的 'j' 和 'a' 字母)。右下角的面板显示了在“行动”和“动作观察”的不同阶段内部状态的活动。在行动阶段,感觉状态会记录运动的视觉和本体感觉后果,而在动作观察下,只有视觉感觉可用——就好像代理正在观察另一个代理一样。红点对应于该内部状态超过任意阈值的时间。这里要注意的关键是,这个内部状态只有在运动轨迹产生下行时才会偏好地做出反应,而不是上升——表明

7.1. Summary摘要

精确粒子,沉浸在不精确的世界中,对外部波动(几乎)以确定性方式作出反应“38”注释:问题38:随机波动的缺乏是否意味着不存在耗散梯度流?不是的,因为梯度可以随着随机波动的精确性而增加。在没有随机波动的极限情况下,稳态密度趋向于一个 delta 函数(即,一个固定点吸引子),而耗散梯度趋向于无穷大。这意味着,给定一个生成模型(即,NESS密度),可以解决(34)中的运动方程,以预测自主状态如何演变,因为它们追寻最小作用路径。那么,为什么这种极限行为可能具有典型的生物特征呢?

精确粒子可能是表现出生命活力或生物行为的类型的粒子,它们在一定程度上是可预测的,给定它们的初始状态和外部影响的历史。不精确(例如,统计)和精确(例如,经典)粒子之间的区别在于耗散流和保守流对它们在状态空间中路径的相对贡献,其中在精确设置中主导的是螺旋流。这意味着精确粒子表现出螺旋行为,例如振荡和(准)周期轨道——以及伴随的详细平衡丧失,即湍流和时间不可逆动力学106,107,30】。从这个观点来看,人们可能会将精确粒子与具有特征性生物节律的生命系统联系起来【108,109,110,111】;从神经元群体中的 gamma 振荡,到更慢的呼吸和昼夜周期,再到可能的生命周期。将这个观点颠倒过来,可以说生命系统是一种特定类型的粒子,在精确的情况下,表现出保守动力学、生物节律和时间不可逆性。

一个可能会问,螺旋流是否会干扰支撑自我证明的梯度流。事实上,螺旋流通常会增强梯度流,或者至少看起来是这样。简而言之,螺旋流所提供的混合可以使梯度下降更加高效。直观的例子是在咖啡中搅拌糖。螺旋搅拌所带来的混合促使糖分子沿着其浓度梯度分散。从这个角度看,螺旋流可以被视为绕过稳态密度等高线以找到最陡的下降路径。

在这里出现的新形象是,生物系统具有螺旋流,因为它们足够大以消除随机波动,在粗粒化它们的动力学时。从自由能原理诱导的信息几何的角度来看,这意味着生物行为可能通过内部螺旋流来表征,这些螺旋流不会改变变分自由能或惊异度,但在内部(统计学)流形上不断更新关于外部状态的贝叶斯信念。从生物学角度来看,这可能是对构成节奏活动(例如行走和说话)的中央模式发生器的描述。图6中的示例被选择来展示螺旋流在贝叶斯力学中的作用,这在这个例子中源于在生成模型中使用 Lotka-Volterra 动态。在心理学中,这种保守的主动推断可能是处于“流动状态”的同源物。简而言之,精确粒子可能是我们与生物系统相关联的粒子类型。而精确粒子具有低熵路径。如果是这样,现在的问题就变成了:这类粒子显示出什么样的长期行为?换句话说,与其问哪些行为会导致低熵动态,我们现在可以问哪些行为是由低熵动态产生的?接下来我们将看到,精确粒子似乎在计划他们的行动,并且,或许更有趣的是,展现出信息和追求目标的行为。

8. Path integrals, planning and curious particles

路径积分、规划和奇异粒子

虽然图6中的书写示例提供了一个引人注目的自我证明模拟——在一种意义上,即一种人造物体创造自己的感觉系统——但作为对于知觉行为的完整描述,还有一些遗漏之处。这是因为我们只考虑了自主状态对有限时间内感官状态的响应。要揭示更深层次的贝叶斯力学,我们需要考虑自主状态在更长时间内的路径。这将带领我们迈向最后一步,回到路径积分的形式化

在前面的部分,我们着重于将动态过程与(广义)状态下的密度联系起来。简而言之,我们发现内部状态可以被解释为在任何时间点上对外部状态的(贝叶斯)信念进行参数化。在接下来的内容中,我们将从状态的密度转向路径的密度,以此来描述粒子的行为和它们的轨迹

在接下来的内容中,我们将处理关于外部和特定路径的预测后验密度,这些密度是在(初始)特定状态下给定的,可以用当前(初始)内部状态参数化的变分密度来表达“39”注释问题:为什么变分密度由初始内部状态而不是初始内部模式参数化?答案是,在精确粒子中,特定动态的波动缺失意味着内部状态始终与内部模式一致。

所有这个方程所表达的就是,给定初始特定状态,我们可以评估外部和特定路径的联合密度,因为我们知道初始外部状态的密度,它是由初始内部状态参数化的。

我们感兴趣的是表征对初始特定状态的自主响应。这由自主路径的作用作为特定状态的函数给出。换句话说,我们寻求自组织的目的性描述的表达式,并允许我们模拟粒子的感知轨迹,给定它们的感觉流。从特定路径的作用到自主路径的作用需要对感觉路径进行边际化。这就是精确粒子假设发挥作用的地方:它允许我们通过表达特定路径的作用作为预期自由能来避免这种(计算昂贵的)边际化。

回想一下,当特定状态的运动的随机波动消失时,鉴于外部和感觉路径,对自主路径没有不确定性。而且,鉴于外部和自主路径,对感觉路径没有不确定性。如果我们将熵解释为离散点的极限密度(参见图4),那么鉴于外部路径,特定的、自主的和感觉的路径的不确定性就变得可以互换:

我们可以利用这种可互换性来用预期自由能的形式表达自主路径的作用。从(36)和(37)中,我们有(为了清晰起见,去掉了初始状态的条件):

我们所做的一切只是将自主路径的密度,在外部路径的条件下,与相应的感知路径的密度进行了交换(在第二行中),这要归功于精确粒子假设。通过将项聚集成自主路径的一个泛函,我们将自主行动恢复为预期自由能。

与变分自由能的表达式(18)类似,(38)中预期自由能的表达式表明,准确性变为模糊性,而复杂性变为风险。那么为什么我们将这些术语称为模糊性和风险呢?模糊性仅仅是关于感知状态在给定外部状态的条件下的预期精确性或条件不确定性。一个模糊的似然映射的启发式例子——在外部和感知路径之间——可以是一个黑暗的房间,在那里没有精确的信息。实际上,根据(38),进入黑暗房间的感知路径应该是非常不可能的。然而,这并不是全部,因为风险对任何显现出的最小化模糊性的倾向都施加了一定的约束。

在这里,风险简单地是指给定自主路径(即策略或计划)的情况下,相对于外部状态的情况,外部路径之间的差异。外部路径的边际密度通常以先验偏好的术语来表达,因为它们构成了表征粒子行为的生成模型的先验。简而言之,预期自由能的表达表明,粒子看起来会(i)尽量减少发生偏离先验偏好的外部轨迹的风险,同时(ii)在外部事件发生时解决模糊性。在这种表述中,自主路径起着双重作用,一方面记录外部事件的影响(通过模糊性),另一方面引发那些事件(通过风险)。

具有最低预期自由能的自主路径是自主状态最有可能采取的路径。

简而言之,预期自由能评分了不接受嘈杂动态的粒子的自主行为。预期自由能具有特定的形式,这种形式继承自特定波动的振幅很小的假设,这是精确粒子的定义。尽管变分自由能和预期自由能在形式上相似,但它们是根本不同类型的泛函:变分自由能是关于状态密度的泛函,而预期自由能是关于路径密度的泛函。变分自由能也可以被解释为特定状态的函数,而预期自由能是自主路径的函数。最后,变分自由能是对惊奇的界限,而预期自由能不是一个界限 - 它是自主轨迹的行动。

预期自由能在主动推理中发挥着决定性的作用,可以被视为选择最小行动的自主路径的相当普遍的目标函数。图7显示了预期自由能包含各种最佳行为的形式化的术语;从最佳贝叶斯设计[134]到控制作为推理[132, 127]。我们建议读者参考[147, 148, 149, 150, 151]对这些形式之间关系的形式化调查。

配备了关于预期自由能中最可能的自主路径的规范,我们可以通过合适的生成模型模拟出相当逼真的行为。图9提供了一个示例,依赖于图8中的计算架构,它展示了视觉认知觅食模拟中预期自由能的模糊解决部分。

如果我们用关于特定路径的条件不确定性替换关于感知路径的条件不确定性,特别是注意到它们根据(37)是相同的。经过重新排列,我们可以用期望值和期望信息增益来表达预期自由能[149, 125]:

图8:贝叶斯力学与主动推理。该图概括了变分自由能和预期自由能最小化中的信念更新。它描述了基于自主路径或策略的主动推理,并已在各种应用和模拟中使用;从行为经济学中的游戏 [152] 和强化学习 [153, 154] 到语言理解 [155] 和场景构建 [156]。在这个设置中,行动引发了感知结果,从而通过在一组合理的策略下最小化变分自由能,向世界的隐藏或外部状态提供了近似后验信念(即,感知推理)。然后,使用近似后验信念来评估预期自由能和随后的行动(即,主动推理)。模拟的一个关键观点是,生成模型的形式可以与外部状态生成感知状态的过程非常不同。实际上,这使得代理人(即,粒子)能够以与生态位构建 [157] 密切相关的方式创造自己的感知体系。请参阅 [158, 124] 获取技术细节,并就大脑中的信念更新如何实现进行启发式讨论。

这提供了对预期自由能的补充解释。第一个术语可以被理解为预期成本,因为它是特定路径的预期行为。这种边际似然评分了粒子追求这种路径的可能性,并通常以期望损失(即,负期望奖励或效用)[66, 63] 和实用性提供 [153, 123] 进行解释。第二个术语对应于关于外部路径的后验信念之间的预期差异,考虑到自主路径,有或没有感知路径。换句话说,它评分了由于承诺自主路径而产生的感知轨迹所带来的不确定性的解决或预期信息增益。在这个意义上,它有时被称为认识性提供 [158]。epistemic affordance

在模拟路径积分公式提供的规划和主动推断时,通常使用离散状态空间和离散时间段的信念更新[124, 123]。可以将这视为连续时空的粗粒化,将其离散化为离散的空间和时间区段,其中连续状态的轨迹变为离散状态的序列 x[τ ] = (x1, . . . , xτ )。在离散状态空间中,生成模型通常被表述为部分观察到的马尔可夫决策过程[147, 124, 88, 159],其中自主状态的路径构成策略,确定外部状态之间的转换。然后,可以使用它们的预期自由能对可能的策略进行评分,并从最可能的策略 α = (α0, . . . , ατ ) 中选择下一步行动“40”注释:40参见【124,88】部分可观察马尔可夫决策中这些函数形式的推导流程。。

部分观测马尔可夫决策过程中隐含的状态之间的条件独立性导致了上述变分和期望自由能的功能形式[124, 123]。至关重要的是,外部状态的后验使用均场近似,其中当前和未来状态的联合分布在时间上的每一点都分解为边缘分布。这种近似可以通过对先前状态进行调节来优化,从而导致一个不同的(Bethe)变分自由能[160, 161]。请注意,变分自由能的离散版本是关于状态序列的分布的函数,并且可以被视为对状态序列空间的一个离散版本,类似于(32)中广义状态的变分自由能。

随后的自由能最小化可以被表述为梯度流,遵循(17) - 在新感觉输入的离散到达之间 - 这种方式与神经动力学相关联 [123, 124, 42]。在某些模拟中,可以通过将离散状态空间模型放置在连续状态空间模型之上,以生成通过主动推断,可以用于模拟大脑中许多已知计算解剖和生理学方面的深层生成模型 [158]。

8.1. Summary摘要

总之,我们现在有一种方法可以从任何初始特定状态中识别最可能的自主轨迹,用于模拟我们所关联的生物系统的精确粒子的感知行为。期望自由能将贝叶斯最优行为的两个方面融入同一个(客观)函数中 [149]。从贝叶斯的角度来看,期望信息增益恰好是支持最优贝叶斯设计原理的数量 [134, 76, 163]。换句话说,这些原则规定了降低对各种假设的不确定性的最佳方式。第二个必要性来自贝叶斯决策理论,在这里,目标是在选择或决策下最小化某些预期成本函数 [164, 165, 145]。在目的论上,值得反思支持贝叶斯力学状态式和路径式描述的生成模型之间的差异。对于状态式表述(23),生成模型只是由NESS密度提供或提供外部和特定状态的联合密度。对于路径式表述(34),(41),生成模型是外部和感觉状态路径的联合分布。换句话说,有一个隐含的动态状态空间模型,可以启发性地概括为对外部和感觉动态的行为影响的后果建模。因为结果遵循原因,所以生成模型获得了时间深度 [166, 155]。当然,描述任何给定粒子所需的深度可能是区分不同类型的粒子的另一个特征。简而言之,路径式表述描述了在接近或远景的视野下规划的粒子。

9. Conclusion结论

上述变分形式与自组织和目的行为的其他规范理论之间存在许多联系点。然而,为了聚焦叙述,我们有意压制了先例、变体和特例的演示。图3突出了自由能原理与自组织和感知行为的各种表述之间的几个关系。简而言之,这将诸如强化学习和最优控制理论之类的东西,视为优化在一个由非平衡稳态密度提供的生成模型条件下的特定状态的边际似然。可以认为,自由能原理与已建立的表述之间的联系对于协同动力学和相关的耗散结构的处理方式最直接[14, 167]。还有一个正式而直接的链接到信息论的表述和贝叶斯统计。此外,自由能原理可以被视为受限制的最大熵原理的对偶[169],其中约束由生成模型提供。有关像赋能[170]、信息瓶颈[171]和预测信息[172, 173]之类的内容的处理,请参阅[150, 148]。

同样,关于最佳行为的几种说法——无论是在认知方面还是在语用方面——都与主动推理的路径积分模拟密切相关。图7突出显示了一些关键关系,例如内在动机、人为好奇心【136,137,138】和最佳控制【93,95,131】。关于这些其他理论的有趣之处在于,它们基于优化一些目标函数,通过消除各种不确定性来源,可以从预期自由能中恢复这些目标函数。这分别揭示了行为心理学和经济学中的目标优化和预期效用理论【174,65】。

本文集中讨论了单个粒子,并在很大程度上忽略了导致内部和外部状态之间普遍同步的(外部)背景。这种同步与存在本身以及自由能原理提供的贝叶斯力学密切相关。事实上,这种力学建立在同步之上,可能反映了在形式上相似的粒子之间同步的出现;换句话说,一个集合或生态系统的个体成员之所以存在,是因为它是集合的成员,从多细胞组织的层面到进化生物学中的同类组织[175]。类似地,由上下级尺度建立的背景发挥了存在性的作用。简而言之,如果在更高的尺度上存在一个非平衡稳态密度,那么一定存在一个尺度,粒子才能存在,而这个尺度包含了Markov毯的Markov毯[176]。由于时间尺度的分离,一定程度上的自我证明被吸收到上一尺度的快速随机波动中。例如,一个神经元的快速电生理波动从神经元群体动力学和大脑感觉运动协调的角度来看,就成了随机波动[177, 178, 179]。这直接遵循了重整化群的理论。有关进一步讨论,请参阅[5]。

为方便起见,我们没有详细考虑自由能原理和主动推断在实际应用中的情况。简要回顾这一领域的文献将表明,大多数应用都集中在神经科学领域[124],也有一些例外情况,例如[180, 181]。最近,人们越来越关注主动推断在机器学习和人工智能领域的应用[61, 182, 183, 184, 150, 185, 147]。这方面的大部分文献涉及模拟和建模,特别是将主动推断扩展到实际问题。这些发展反映了关注重点从本文所讨论的基础问题转向了应用问题。自由能原理的基础方面很可能也会随着更简单的解释和观点的出现而发生转变。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-02-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CreateAMind 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档