前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >ASI 8年计划 paper2:贝叶斯力学:信念的物理学

ASI 8年计划 paper2:贝叶斯力学:信念的物理学

作者头像
CreateAMind
发布2024-02-26 17:09:29
1740
发布2024-02-26 17:09:29
举报
文章被收录于专栏:CreateAMindCreateAMind

On Bayesian Mechanics: A Physics of and by Beliefs (4万字)

Abstract摘要

本文旨在介绍一个在过去十年中出现的研究领域,称为贝叶斯力学。贝叶斯力学是一种概率力学,包括能够对具有特定分区(即粒子)的系统建模的工具,其中特定系统的内部状态(或内部状态的轨迹)编码了关于外部状态(或其轨迹)的信念参数。这些工具允许我们为系统编写机械理论,看起来好像它们正在估计其感知状态的原因的后验概率分布。这为建模确定此类系统动态的约束、力、势能和其他数量提供了形式化语言,特别是因为它们涉及对信念空间的动态(即统计流形上的动态)。在这里,我们将回顾有关自由能原理的文献的最新进展,区分贝叶斯力学已应用于特定系统的三种方式(即路径跟踪、模式跟踪和模式匹配 path-tracking, mode-tracking, and mode-matching )。我们进一步探讨了自由能原理和约束最大熵原理之间的二元性,这两者都是贝叶斯力学的核心,并讨论了其影响。

关键词:自由能原理,主动推理,贝叶斯力学,信息几何,最大熵,规范理论。

1 Introduction简介

在本文中,我们旨在介绍一个在过去十年中开始出现并得到巩固的研究领域——贝叶斯力学——它可能提供了第一步走向自组织和复杂适应系统的一般机制【1,2,3,4,5,6】。贝叶斯力学涉及对物理系统进行建模,这些系统看起来好像是对它们所嵌入的环境的概率信念进行了编码,特别是关于它们与该环境耦合的方式。因此,贝叶斯力学旨在为某个时期内存在的所有事物的显著特性提供一种数学原理解释,即:它们获得了其嵌入环境的统计数据,似乎由此对该环境的概率表示进行了编码【7,8】。贝叶斯机制的前提是,特定类型系统的物理机制与信息机制或此类系统编码的概率信念机制系统相关。贝叶斯力学用一对由特定定律联系起来的互补空间来描述物理系统运动:系统物理状态的概率分布空间(即比如说,观察者对其环境的信念),以及同时存在的概率空间由系统编码或包含的分布,通过近似贝叶斯连接推论。贝叶斯力学的前提是信念的动态结合系统的(即,它们在信念空间中的时间演变)物理动力学对这些信念进行编码的系统(即它们在可能状态空间中的时间演变轨迹)【6,2】;由此产生的数学结构在【1】中被称为“共轭信息几何”,其中应该注意“共轭”是“伴随”的同义词或“双重”)。使用贝叶斯力学的工具,我们可以形成力学理论一个自组织系统,看起来好像正在模拟其嵌入环境。因此,贝叶斯力学将物理系统描述为共轭空间中的流系统持有的概率信念,并描述了系统之间的关系两种观点都有。

人们常说,能够长期保持组织结构的系统,例如作为生命系统,似乎能抵抗熵的衰减和耗散热力学第二定律(这一观点通常归功于薛定谔【9】)。事实上,这是不真实的,是一种花招,薛定谔自己也很清楚:自组织系统,尤其是生命系统,不仅符合第二条热力学定律,即孤立系统的内部熵总是增加,但非常好地符合它——这样做,他们也保持了他们的结构完整性【9、10、11、12、13、4、14】。贝叶斯力学的基础是由复杂适应系统物理学的自然和人工智能。贝叶斯力学建立在这些基本方法之上和工具,它们已经被应用于发展数学理论和计算模型,让我们能够研究稳定结构作为一种熵耗散的特例【15、16、17】。贝叶斯力学起源于变分物理学和统计学其他领域的原理,如杰恩斯Jaynes的最大值原理熵【18】和稳定作用原理,并借鉴了信息论和几何学【19,20,21】、控制论和人工智能的一系列广泛的多学科成果社会智能【22,23】、计算神经科学【24,25】、统计推断和统计物理的规范理论【26,27,28,29,6】,以及随机热力学和非平衡物理【30,17,31】。贝叶斯力学建立在这些工具和技术的基础上,允许我们为特定类别的物理系统写下力学理论,这些理论看起来好像是在估计他们观察到的原因的后验概率密度(即估计和更新他们的信念)

在本文中,我们讨论动力学、力学和原理之间的关系。relationship between dynamics, mechanics, and principles

在物理学中,系统的“动力学”通常指的是描述(即现象学描述)事物的行为方式:动力学告诉我们位置的变化以及导致这种变化的力量。动力学是描述性的,但不一定是解释性的:它们并不总是直接以运动定律等事物为前提。我们通过力学或机械理论从描述转向解释:特定的数学理论通过提供变化、运动、能量(或力)和位置之间关系的公式来解释动力学的来源。最后,原理是规定性的:它们是可以解释机械理论的紧凑的数学陈述。也就是说,如果机械理论解释了系统如何表现,原理就解释了原因。例如,经典力学为我们提供了运动方程来解释非相对论物体的动力学是如何产生的,将系统位置的变化与其势能和动能联系起来;而静止作用原理告诉我们为什么 这种关系获得,即真实路径系统的能量差是这两种能量之间的累积差异最小的系统。同样,贝叶斯力学是一组机械理论,旨在解释系统的动力学,这些系统看起来好像是由嵌入环境的概率信念驱动的

我们已经说过,力学依赖于规定性原则。贝叶斯力学的核心是变分自由能原理(FEP)。FEP 是一个数学陈述,它说明了系统存在的意义以及“它本来的样子”的基本意义(即,从第一原理出发)。FEP 为看起来好像有信念的系统提供了机械理论的解释。因此,FEP 旨在解释为什么自组织系统似乎通过保护其结构来抵抗局部熵衰变的趋势。FEP 建立在之前数十年的工作基础上,从惊奇和熵的角度重新定义了经典和统计力学(例如,[16,15,17] 的开创性工作)。意外被定义为事件的对数概率:启发式地,它量化了过程的给定状态或测量结果的难以置信程度,其中高意外与观察到的概率较低的状态或结果相关(在其他情况下) 换句话说,这些状态通常不会被发现).“1”注释1:「我们所说的“典型”是指具有某种概率密度的典型事件的双重统计意义上的“典型”,即(i)在某些样本并不令人惊讶的状态的意义上,以及(ii)在数量的意义上 这是该系统的系综极限的特征(即系统可能渐近演化到的状态)。众所周知,这将基于路径的形式主义集中到基于状态的形式主义中。有关于此的重要评论,请参阅[32],尤其是[33]。」熵是状态或结果的预期或平均意外。它也是某种概率分布或密度的分布的度量,并量化该分布的平均信息内容[34]。变分自由能是一个易于处理(即可计算)的意外上限;负自由能被称为证据机器学习中的下界或 ELBO [35]。FEP 将自组织描述为朝向自由能最小值的流动。众所周知,可以使用 FEP 来编写通过避免与环境发生意外的交换,使动态系统的流动成为自组织,从而最大限度地减少随时间的熵耗散;例如,[1, 36] ,FEP 将其整合为一种建模方法,类似于最大原则熵或静止作用。也就是说,FEP 并不是关于什么的形而上学陈述事情“确实如此”。相反,FEP 从对事物含义的规定性、特定定义开始,然后可用于编写系统的机械理论符合事物的定义[1,3]。FEP starts from a stipulative, particular definition of what it means to be a thing, and then can be used to write down mechanical theories for systems that conform to this definition of thing-ness

在继续之前,我们强调一下“信念”一词的两种含义之间的区别:一种是概率意义上的,其中术语“信念”在贝叶斯统计学的技术意义上使用,表示对某些支持的概率密度,从而形式化了对该支持的某种信念;另一种是命题性或民间理解的意义,在哲学和认知科学中很常见,它涉及一种带有验证条件的语义内容(例如,真值条件)。在本文中,我们始终指的是前一种,概率意义上的“信念”;我们将“信念”和“概率密度”这两个术语交替使用。

有了这个警告,贝叶斯力学是专门针对具有状态分区的特定系统的,其中一个子集参数化另一个上的概率分布或密度。贝叶斯力学在数学上阐述了一组精确的条件,根据这些条件,物理系统可以被认为是赋予了关于其嵌入环境的概率(条件或贝叶斯)信念。形式上,贝叶斯力学涉及所谓的“特定系统”,这些系统赋予了“特定分区”——即,分成粒子,这些粒子与其嵌入环境相耦合,但是可分离。所谓的“特定系统”,是指具有特定(即“特定的”)内部状态、外部状态和中间毯状态的系统,这些状态实例化了内外部之间的耦合(“马尔可夫毯”)。然后,可以将内部状态和毯状态视为构成“粒子”,因此称为分区的名称“2”。「注释:‍在自由能原理文献中,词语“系统”通常指的是一组耦合的随机微分方程,涵盖了一个粒子(内部和毯状态或路径)及其嵌入的外部环境(外部状态或路径)。换句话说,在自由能原理的表述中,关注的系统不仅是粒子或自组织系统,而是耦合的粒子-环境系统的动态。(有时这是以扩展的大脑-身体-环境系统 [37] 或者代理-环境循环 [6] 的术语来讨论的。)这就是为什么在这些文献中引入了“粒子”这个词:为了确保对“系统”所指的内容没有歧义。我们注意到,在文献中存在一些不一致之处,这是因为这些术语在物理学中的使用并不一致。」在自由能原理下,物理系统的内部状态可以被建模为编码概率信念的参数,这些信念是概率密度函数,其定义域是表征系统的量(例如状态、流、轨迹、其他测量)

简而言之,贝叶斯力学是关于内部状态所编码或体现的信念以及这些信念随时间演变的一组物理、机械理论:它提供了一种形式化语言来模拟决定这些系统内部状态在信念空间中移动的约束、力、场、流形和势能(即在统计流形上)。因为这些概率性信念依赖于由粒子的内部状态物理编码的参数,所以结果的统计流形(或信念空间)及其沿着这些流形的流动与支持它们的系统的物理学之间具有非平凡的、系统化的关系。这通过应用自由能原理实现:我们通过自由能上的静止作用路径来模拟特定系统的行为,给定一个函数(称为同步映射),该函数定义了在任何这种动态系统(如果存在分区)中划分边界(或马尔可夫毯)时,内部和外部状态如何同步

总之,贝叶斯力学涉及物理系统在信念空间中的图像,以及这些表示之间的连接:也就是说,它将特定系统的内部状态(及其动态)映射到概率分布空间(以及该空间中的轨迹或路径),反之亦然。

两个相关的数学对象构成了自由能原理核心的一部分,并将在我们对贝叶斯力学的描述中起关键作用:(i)本体潜能或约束,以及(ii)由这些潜能驱动的系统的力学。在这种情况下,本体潜能类似于物理学中的其他潜能,例如重力或电磁潜能。它是一个标量量,定义了一个能量景观,其梯度确定了系统所受力的矢量场这样的潜能是本体的,因为它们描述了一个东西是什么:它们允许我们指定系统必须满足的运动方程,以保持它所是的那种东西。

本体潜能或约束提供了对特定系统是什么样的系统的数学定义:它们使我们能够根据那种类型的系统的典型状态或路径的描述,指定特定系统的运动方程(即,它们通过状态空间的特征路径,它们随时间的演变方式,它们最常访问的状态等)。我们将在第3和第4节中对这些概念进行技术上的详细讨论。特别是,贝叶斯力学关注本体潜能或约束与表征具有此类潜能的系统的时间演化的流动、路径和流形之间的关系,使我们能够对物理系统中的自适应自组织提出新的观点。

我们将看到,通过自由能原理的描述始终伴随着一种对同一动态的双重或互补的视角,这种视角源自最大熵原理。这种观点涉及系统在其下采样的概率密度,以及该密度如何在时间上被施加或演化“3”。注释3:我们在半技术意义上使用“对偶”,“对偶化”和“对偶地”这些词;请参阅第5节。简而言之,对偶对象是彼此的精确相反。两个映射或对象的对偶性,我们称之为伴随对,意味着它们共享内在特征,但在与其他对象的关系上呈现相反的方向。读者应注意,伴随对这一术语在范畴论中经常出现,但我们在这里没有明确考虑范畴论的概念。我们详细考虑了自由能原理和约束最大熵原理constrained maximum entropy principle (CMEP) 之间的二元性,表明它们是对同一事物的两种观点。这提供了一个统一的视角,涉及自适应、自组织动态的二元性视角:即自适应系统对其环境(和自身)的视角,以及环境中的热浴的视角,它们被嵌入其中(并且所有组织良好的事物最终都会衰变到其中)。

这些观点可能在表面上看起来是相对立的:毕竟,持久的、复杂的自适应系统似乎是有组织的,以抵抗熵的衰减和耗散;而嵌入在热浴中的所有有组织事物的不可避免的、存在的热力学使命是耗散到其中[9]。解决这种明显张力的办法是对整个结构进行对偶化的核心动机。正如我们可以将维持其状态在特征、不足为奇的设定点周围的受控系统看作受环境干扰的系统一样[2]——我们可以将自组织系统视为一个持久的、有凝聚力的状态中心,它嵌入在环境中,并抵抗环境耗散的趋势。这种“代理-环境”或“关联”对称性对几乎所有复杂系统的形式方法都是基本的,这些方法根植于开放系统之间的相互作用[38, 39, 40, 41, 42, 43],使其成为了理解复杂性的一种吸引人的框架。

特别地,自组织可以以两种方式被看待。一种是从“自我”的角度来看,这是居于个体化的事物的观点,它与环境中的其他事物不同。从自由能原理提供的这种视角来看,人们可以询问特定系统如何解释其环境并维持其“自我”——即它们所具有的那种典型结构。这需要对内部或感觉状态的原因进行推断另一种是从“组织”的角度来看——也就是从外部的角度来看,建模一个结构如何保持凝聚,不会在某个可观察的时间尺度内耗散到其环境中。这种后一种视角就像是询问某个系统的内部状态,而不是询问内部状态所携带的信念(正如在自由能原理的视角下可能会这样)。这两种故事都涉及系统的自组织,但以不同的方式进行建模,并非偶然。

在同样的双重意义上,关于组织的问题就像是一个位于外部世界的观察者或建模者,制定关于特定系统内部状态的信念。这些观点是等价的,因为它们讲述了关于推断和自组织动态的相同故事。这种双重性使我们能够通过多种互补的视角来看待自由能原理和贝叶斯力学。改变我们的视角的优势在于,我们可以将自由能原理与最大熵的视角进行比较,后者在标准数学和物理学中更为熟悉。特别地,这应该为我们提供了一个系统的方法,将有组织系统的动态和力学与这些有组织系统所编码或体现的信念的动态和力学联系起来,以物理学语言恢复贝叶斯力学和自由能原理的基本前身表述

本文的论证顺序如下。整篇文章分为三个主要部分。文章的第一部分以相对读者友好的高层次描述性摘要的形式呈现,概括了近二十年来发展的自由能原理文献。我们首先提供了一些关于动态、力学、场论和原理的初步材料,并对贝叶斯力学的出现提供了一些动机。然后,我们对贝叶斯力学的最新进展进行了相当深入的讨论。我们全面审查了贝叶斯力学的核心形式主义和结果。我们全面回顾了自由能原理在文献中的表现,并区分了它被应用于模拟特定系统动态的三种主要方式。我们将这些称为路径跟踪、模式跟踪和模式匹配

文章的第二部分再次以高层次的方式介绍了最近才出现的一系列新结果,这些结果涉及自由能原理与受特定约束的最大熵原理之间的对偶性,以及更加数学化的内容,特别是涉及规范理论。我们简要讨论了规范理论、最大熵和对偶化。在此基础上,我们审视了自由能原理和约束最大熵原理的对偶性。文

章的最后部分讨论了贝叶斯力学不断发展的哲学。我们讨论了自由能原理和约束最大熵原理之间的对偶对贝叶斯力学的影响,并勾勒了未来工作的一些方向。最后,我们回顾了一下,为将这种对偶推广到更复杂的系统铺平了道路,允许系统的系统研究远离平衡,逃避稳态密度或静态统计学——这是一个我们称之为G理论的研究领域,涵盖了路径上的贝叶斯力学和路径上的熵(或口径)的对偶,以及更多

读者应该注意,本文不是对贝叶斯力学和自由能原理的单独论述,应该将其视为对审查的技术材料的更具概念性的伴随论文;因此,我们经常选择定性描述而不是明确的方程式,并将读者指向技术材料,以便详细审查假设和证明。值得注意的是,涵盖贝叶斯力学、自由能原理和最大熵原理的领域本质上是技术性的,它预设并利用了详细的形式结构和概念。我们的目标是使本文相对独立,提供一些入门材料以便阅读;但我们假设读者具有动态系统理论(特别是状态或相空间形式主义)、微积分(尤其是普通和随机微分方程)以及概率或信息理论的工作知识。熟悉规范理论对阅读文章的第二部分也是有帮助的。本文的哲学总结部分应该对数学和物理背景相对较少的读者也是可理解的。

2 An overview of the idea of mechanics

在深入讨论贝叶斯力学之前,我们先回顾一些支撑当代理论物理的核心概念

在形式化的物理学研究方法中,对特定对象行为的描述是理论建构层次结构的基础部分。正如在引言中讨论的那样,系统的动力学构成了对该系统受到的力的描述,通常通过运动方程或运动定律来具体规定(即力学)。在我们能够推导出某物体行为的数学描述之前,我们需要大量的其他信息来解释这些运动方程的来源。例如,力学理论是一种数学理论,告诉我们力量、运动、变化和位置是如何相互关联的。换句话说,力学理论告诉我们一件事物应该如何行为;而且,给定某个特定的系统,我们可以使用力学理论来指定其动态。描述模型和物理、力学理论之间的区别通常在于力学理论可以从一个基础原理(如静止作用原理)中推导出来。因此,由此产生的力学理论准确地指定了遵循该原理的系统所做的事情,反之亦然,该原理根据一组对所寻求的动态图像相关的系统级细节提供了对该力学理论的解释。

“理论”一词具有多义性。科学建模哲学中关键概念的快速概述有助于澄清我们在这里所指的内容(参见[44]进行了出色的概述;还参见[45, 46, 47])。我们所谓的“动力学”、“力学”和“原理”归根结底是数学结构(在数学中,这些也被称为数学理论)。数学理论或结构的内容纯粹是形式化的:例如,微积分和概率论的公理和定理显然并不固有地与特定的实际事物有关。通常所说的“科学理论”或“经验理论”包括一个数学结构和可能被称为经验应用、解释或理解的内容,这将数学结构的构建与世界中的事物联系起来,例如,与存在的系统的特定可观察特征相关联“4”。「注释4:为避免歧义,我们将保留术语“解释”用于原理解释力学理论为何运作方式的方式;并保留术语“经验应用”来指代将数学理论或结构的某些方面系统地与实证世界的方面联系起来。有关相关讨论,请参阅[44, 45]。」

有时人们会说,物理学中的原则,例如静止作用原理,严格来说是不可证伪的principle of stationary action, are not falsifiable ;尽管如此,它在科学研究中显然扮演着突出的角色,而科学研究最终是建立在经验验证之上的(至少乍看之下是如此)。我们可以根据数学理论(即我们所说的力学理论和原理与它们的经验应用之间的区别来理解这一点。解决这种紧张关系的方法在于注意到,在缺乏某种特定的经验应用情况下,数学结构并不意味着要对经验现象提出任何具体的说法。事实上,正如[45]和[6,参见备注5.1]所论证的那样,通过使用同一数学结构来解释完全不同的现象,引入有生产力的“符号滥用”的可能性是形式建模成为强大科学工具的部分原因

我们已经说过动力学是描述性的,但它们不一定是解释性的。有一种长期以来的论证传统认为动力系统模型本质上并不具有解释性(例如,[48, 49, 50]),因为它们不一定涉及解释机制,而是提供了行为的方便形式总结。这就是例如,开普勒对天体运动的描述,它仅仅是描述性的(因此,根据我们的定义,是一种动力学),而牛顿的普遍运动定律提供了解释这些动态的力学。也就是说,开普勒的行星运动定律实际上并不是当代意义上的运动方程;它们描述了日心轨道的椭圆轨迹,并且没有解释这些轨道的形状(例如,以质量和引力吸引等因素为因素,牛顿后来会做的事情;我们将其标记为力学)。

自麦克斯韦的开创性工作以来,几乎所有的现代物理学都是以场论的形式表述的。在20世纪初,由于其描述优势,所有的物理学都被重新表述为空间扩展的场 [51]。场是一种形式化表达力学理论如何应用于空间时间中的单一路径的方式,即所谓的世界线。也就是说,场将运动方程约束到空间时间中特定的、物理上可实现的轨迹上。(同样,由于几何的描述优势,现代物理学大部分被几何化了[52]。后来,我们将看到,现代物理学通过几何理论的几何工具来增强场论的装备。)从数学上讲,场是一个n维的抽象对象,它为空间中的每一点分配一个值;当该值是标量时,我们称之为标量场,其中一个特例是势函数。例如,电磁场将每一点的电荷密度分配给空间中的每一点(即,电场和磁场的势能);这个势的梯度反过来决定了粒子在该势中所受的力。类似地,引力场将一个值分配给空间时间中的每一点,即每单位质量所需的功来使一个粒子脱离其惯性轨迹

在这里,我们关注的是我们所称的贝叶斯力学。一般来说,当谈到某种物理学的力学理论时,比如量子力学(描述高能量情况下物体的行为,即非常小的物体非常快地运动,如量子粒子)、统计力学(产生具有概率自由度的系统的行为,特别是大量功能相同的物体的整体行为)、或者古典力学(在没有噪声或量子效应,以及非相对论速度下产生物体和粒子的行为)-力学本身是由某种对称性或优化原理推导出来的。然后,力学理论可以提供关于特定系统的数据,比如系统演化的初始或边界条件,然后方程将返回该系统的动态“5”。注释5:当代理论物理学基于优化原理来确定机械理论。在构建机械理论以推导物理系统的动力学时使用优化原理,不应被误解为声称物理系统实际上计算它们的极值。对称性原则是所有物理学的基础,是一种对使用极值化的支持 - 例如,在最小作用量路径上,自由粒子的动量和能量是守恒的,由诺特定理给出的时间平移对称性。优化可以被看作是我们对物质世界图景中对称性的一种追求的结果。同样,与其假设(实际上是错误的)物理系统会明确地计算其动态,我们只需要存在一个拉格朗日或李雅普诺夫函数来描述这些动态:一个与这些动态系统aticatically变化的量。从经验上讲,我们知道一般的物理系统至少符合一种这样的对称性或守恒原则。事实上,这种一致性是我们生活的宇宙的一个引人注目的经验事实,而不仅仅是数学上的产物或建模策略。

一个机械理论来实现数学原理的一个例子,这样我们就可以指定一个系统的动态,就是经典物体遵循牛顿的第二定律,即

对于某个时间t的某个物体的位置q以及该位置上的力量,

。请注意,正如上面讨论的,力量被表示为相对于位置q的重力势能V(q)的空间导数

。纽托尼经典力学,即由这个方程体现的力学,当我们精确指定势能V(q),初始速度q˙(0),初始位置q(0),其他适当的边界条件以及最后的定义域时,给出了某个经典物体的动态(即轨迹)。

如果我们根据观察到的力量为系统指定能量函数,我们可以通过拉格朗日力学产生这个物体的动态。在经典物理学中,更普遍地说,一个以可能状态或路径空间中的轨迹上的能量总结系统动态的量被称为拉格朗日量。在物理上,这是根据动能来定义的。我们可以使用拉格朗日量来确定经典力学遵循的原理。让

牛顿的第二定律来自于最小作用量原理,因为拉格朗日量在路径上的积分的变化,

当被最小化时。提到的积分被称为作用泛函,作用的变化导致描述任何静止作用路径的规则[54]。通过一些代数计算后,我们可以看到这一点。

这就是牛顿第二定律(注意加速度 a 是位置的二阶导数,即 a = ¨q)。这个结果总结了系统倾向于不使用“6”「注释6:然而,请记住,系统通常不知道它使用能量;这只是一个虚构的描述,使得稳定作用原理更直观。」比必要更多的能量来完成某些运动(参见[55]进行教学概述);这意味着在沿着静止作用路径时,势能的变化恰好等于动能的变化(即它们的差为零),因此不会使用“额外”的能量,也不会执行“额外”的运动。动能和势能的累积差为零反映了这种交换规律的期望 - 这实际上是物理学中能量守恒的基础。这也说明了系统倾向于沿着力加速,并且通过精确的施加力来执行此操作 - 既不多,也不少。因此,经典力学告诉我们系统沿着力加速,因为它们保持其能量并遵循静止作用路径(即其变化为零的路径),反之,经典力学理论源自静止作用原理。见图1。

对我们来说,重要的原则示例(伴随着机械理论)包括静止作用原理(我们刚刚讨论过)、最大熵原理和自由能原理。根据杰恩斯(Jaynes)的说法,最大熵原理是统计对象力学导致扩散的原理[56, 57, 58]“7”.「注释7:回顾一下最大熵的物理基础,即在给定一些约束条件(或通过它们的概率将微观状态分配给宏观状态的参数)的情况下,物理系统趋向于具有最大数量微观状态的宏观状态。可以数学上证明,这种“扩散”行为导致了扩散。‘spreading’ behaviour is what leads to diffusion」同样,自由能原理是有组织系统保持围绕系统样态或路径有组织的原理,而由自由能原理引起的机械理论可以被理解为需要自组织的动力学。我们可以将前者理解为统计力学 - 在扩散下的粒子行为 - 而我们将后者称为贝叶斯力学有趣的是,每个物理理论都与某种特征几何学配对,例如在经典力学中是symplectic geometry in classical mechanics几何;此外,正如讨论的那样,机械理论通常被视为将场论限制到世界线上。通过专注于与对某个给定系统的动力学的机械理论相关的自由能原理的对称物理原则方面,我们隐含地将几何和场论的概念引入到了自由能原理中,这两者都是非常强大的。我们将在第5和第6节中回顾这些观念。

图1:静止作用原理的描述。本图显示了最小作用路径(深蓝色)是作用的稳定点路径——作用的梯度为零的路径。在这里,轨迹是一个抛物线,就像人们可能在一个重力场中观察到的路径一样。在这条路径上,作用在黄色变化下最多是二次的。其他浅蓝色的路径不太“理想”,因为它们破坏了动能和势能之间的精确平衡。换句话说,这些路径不在势阱中移动。

3 The free energy principle and Bayesian mechanics:an overview

自由能原理与贝叶斯力学:概览

本节回顾了在变分自由能原理(FEP)文献中得出的关键结果,并将它们置于更广泛的贝叶斯力学视角之内。我们首先对FEP进行了一般介绍。然后,我们概述了FEP在文献中的一种相当全面的形式应用分类法;这些是针对具有不同数学属性的不同类型系统的应用,通常不明确区分。我们首先检视了FEP的最简单和最一般的形式,应用于对特定系统的路径上的概率密度建模,通常写成运动的广义坐标。这种基于路径的FEP的一般形式对系统的动力学几乎没有任何假设,特别是不假定非平衡稳态存在或具有明确定义的模式然后,我们转向了以状态概率密度的动力学为基础的FEP的表述(即FEP的密度动力学表述)。文献中的密度动力学表述主要有两种形式,其中外部状态的分区具有动力学和不具有动力学,分别代表两种情况密度动力学表述比基于路径的表述做出了更强的假设,即系统的力学具有稳态解,这使我们能够针对特定系统的流形式做出具体的说明。我们讨论了一个称为近似贝叶斯推断引理的结果,该结果源自密度动力学表述。见图2。

图2:贝叶斯力学的三个方面。根据FEP,我们可以定义关于信念的特定机械理论,从而定义了在给定数学系统范围内可能存在的自证行为类型。文献中包含了三种主要的贝叶斯力学应用,我们将其表示为一个具有两个分支点的树形结构。一方面,FEP已被应用于特定系统路径或轨迹上的密度(FEP的路径式表述,导致我们称之为路径跟踪动态),以及对状态的密度(密度动态表述),后者取决于系统力学的NESS解。密度动态表述又分为具有静态模式的系统和具有动态模式的系统;我们称前者为模式匹配,后者为模式跟踪。

3.1 An introduction to the free energy principle

3.1 自由能原理介绍

在第2节中,我们说原则是用于为给定类别的系统编写机械理论的数学理论或结构自由能原理恰恰是这样一个数学原理,我们可以利用它来为“事物”或“粒子”定义特定的机械理论自由能原理是这样一个数学命题如果某物在一段时间内保持一定的结构,那么它必须编码或实例化其环境的统计(生成)模型。换句话说,自由能原理告诉我们,保持其结构的事物在嵌入环境中必然获得该环境的统计结构。The FEP is the mathematical statement that if something persists over time with a given structure, then it must encode or instantiate a statistical (generative) model of its environment. In other words, the FEP tells us that things that maintain their structure in an embedding environment necessarily acquire the statistical structure of that environment.

与当代大多数统计物理学一样,自由能原理始于对系统的概率描述——通常是随机微分方程(SDE)系统。SDE用于描述系统的时间演变或流动(即编写机械理论),系统可以占据的可能状态或配置的空间(称为该系统的状态或相空间)。SDE允许我们制定机械理论来解释具有确定性成分(也称为SDE漂移)和随机成分(SDE噪声)的动力学。在没有噪声的情况下,SDE会退化为常微分方程,其中系统沿流动方向以确定性方式演变。

自由能原理的形式化处理通常始于描述为Itˆo SDE的物理系统,形式如下:

其中,f(x)是x的流的漂移,ξ(t)是白噪声;启发式地说,标准维纳过程dWt / dt的时间导数。波动矩阵C编码噪声的空间方向和大小,并产生扩散张量

其中包含随机波动的协方差“8”。注释8:‍‍关于波动和它们的方差的这几点初步说明突显了FEP是如何隐含地以多尺度方式进行构建的,这激发了关于FEP下多尺度动力学的日益增长的研究工作。实际上,在这个早期的表述阶段,这里呈现的公式已经涉及到了时间尺度的分离:我们区分了一个更快的状态或路径时间尺度,这些状态或路径被有效地视为随机波动,以及一个更慢的状态或路径时间尺度,这些状态或路径被视为本质上的状态或路径。这在文献[1]中得到了进一步的阐述和应用。

在建立了这样一个通用的设置之后,从经典到统计和量子力学,大部分当代物理学都在探讨我们是否能对系统的不同路径或状态的概率分布说出一些有趣的事情。在FEP文献中,系统路径或状态的概率分布通常被称为生成模型。在统计学中,生成模型或概率密度是某些变量的联合概率密度函数。在FEP文献中,可以通过两种互补的方式分析生成模型,从而导致FEP的两种主要表述形式:一种是作为状态的密度,指定它们被遇到的概率(与遇到令人惊讶的状态相对);另一种是作为路径的密度,量化该路径的概率(与其他不太可能的路径相对)。可以将生成模型想象为特定系统状态或路径空间上的弯曲(概率密度形状的)表面状态或路径的概率与函数在状态或路径空间上的图像的高度相关联

下一步涉及特定的分区。我们说FEP适用于以特定方式定义的“事物”,这些事物成为它们嵌入环境的模型。显然,谈论“一个模型”需要将其划分为两个实体:我们可以识别为模型的东西,以及被建模的东西。因此,FEP通过稀疏因果依赖结构或稀疏耦合进行信息地应用于以特定方式定义的“事物”,这是FEP其余部分遵循的关键构造。换句话说,FEP是一个我们可以应用于指定系统力学的原则,这些系统具有特定的、特殊的分区(即,一个作为模型的东西和一个被建模的东西)。为了使这样的区分在物理系统中成立,必须是模型实例化的东西与被建模的东西之间的因果耦合表现出某种程度的稀疏性。考虑通过反证法的非正式证明:如果一切都受到一切其他事物的因果影响(即,如果没有稀疏耦合,就像气体一样)在某个有意义的时间尺度上,那么我们将无法谈论任何一个“事物”作为其他事物的背景。

因此,我们将整个系统 x 划分为四个组件“9”。「注释9:也可以采用不太传统但等效的划分为三个部分,请参见[65]。」明确地,我们设置

其中µ表示与模型相关的变量(称为“内部状态”或“内部路径”),η 表示与生成过程相关的变量(称为“外部状态”或“外部路径”),而 b = (s, a) 表示将内部和外部状态耦合的变量——马尔可夫毯子,这里包括感知和行动状态(或路径)[Markov Blanket]“10”。注释10:我们使用术语“马尔可夫毯”来通常表示边界状态。大多数情况下,相关的边界状态要么(i)包含一个严格的马尔可夫毯,要么(ii)包含一个近似的马尔可夫毯。SCC告诉我们,如果考虑的系统足够大,我们将会有一个(弱)马尔可夫毯。我们承认,在一些更有趣的情况下,边界状态实际上并不是严格的马尔可夫毯。但是,对于这些情况,我们有专门的术语:它们分别是绝热或弱毯,具体情况请参阅[64]。

通俗地说,特定分区的马尔可夫毯子正是将一个粒子(或开放系统)与另一个粒子在给定的整体系统内分隔但也耦合在一起的一组自由度。例如,在文献中,马尔可夫毯子成为区分一个粒子与另一个粒子的空间-时间路径的变量;这类似于文献中提出的论点。引入特定分区的目的正是为了引入允许我们将一个系统与另一个系统分隔开的自由度,使得它们原则上可以相互推理(即跟踪)。在这个意义上,马尔可夫毯子并不特别——它仅意味着在给定某个变量 b 的情况下的可分离性"11"。「注释11:正如我们将要描述的那样,这为高维系统中马尔可夫毯的普遍性提供了直观的理解。

感知状态是马尔可夫毯的子集:它们是受外部状态影响并影响内部状态的毯状态但不受内部状态影响主动状态是那些受内部状态影响并影响外部状态的毯状态,但不受外部状态影响的状态“12”。注释12:马尔可夫毯条件也可以被弱化为一种偏离严格条件独立性的概念 [64]。

正如所指出的,这种分区假设了子状态或路径之间的稀疏耦合[69, 64](即,给定毯的动态,某些分区的子集独立于另一个分区的演化),其形式如下:

关键要注意的是,这个划分的关键点在于,内部和主动成分的流动(即它们在状态空间中的轨迹)不依赖于外部成分(反之亦然,外部和感知状态或路径的流动不依赖于内部状态或路径)。应该强调的是,毯子是状态空间中的一个界面或边界,即它不一定是时空中的边界 [70](尽管在某些情况下,它与之重合,例如,细胞的壁)。内部状态(或路径)及其毯子状态(或路径)通常被称为特定状态或路径(即粒子的状态或路径);而内部和主动状态(或路径)一起被称为自主状态或路径,因为它们不受外部状态(或路径)的影响。

这个构造的关键点在于,在FEP的框架下,鉴于这样的划分,我们可以将特定系统的自主划分解释为一种贝叶斯推断形式,其确切形式取决于对所考虑的特定系统的稀疏耦合和条件独立结构做出的附加假设 [69]。特定划分最终是我们将其与贝叶斯推断自身进行类比的许可,因为它许可我们将系统的内部状态解释为执行(近似贝叶斯或变分)推断。在变分推断中,我们通过引入另一个称为变分密度(也称为识别密度)的概率密度函数q来近似某个“真实”概率密度函数p,其参数为µ。使用变分方法,我们调整参数µ,直到q成为p的良好近似简而言之,FEP表明,鉴于特定的划分,特定系统的内部状态编码了外部状态的变分密度的充分统计量(例如,高斯概率密度的均值和精度)。正如我们将看到的那样,这在内部状态或路径的内部空间中引入了一个内部的统计流形和相应的信息几何。

正如在第1节中所述,这种推断的目的是最小化特定状态或状态路径的惊讶程度。我们在第2节中以更一般的方式遇到了将某些行动最小化作为力学原理的想法。这在这里仍然适用:我们可以将FEP表述为“最小惊讶原则”。当应用于不同类型的形式系统时,我们得到不同类型的贝叶斯力学,就像在不同的数学背景下得到各种类型的经典力学一样,这取决于对基础状态空间和行动泛函的假设(如牛顿力学或拉格朗日力学,引力力学,连续介质力学等)。

在[71, 67]中,对路径(特别是对初始状态条件的路径)的惊讶程度

这种行为在贝叶斯力学中被建议作为一种行动。在这里,x(t)是系统状态在一组由t参数化的时间点上的路径。最小行动路径是系统的预期流动,记作f(xt)。

这种表述的一个关键方面是我们可以从最小化惊讶中恢复贝叶斯推断。假设我们将惊讶应用于特定状态的路径,即π(t) = (a(t), s(t), µ(t))。在关于相信π(t)的力学方面,贝叶斯力学的故事开始了。正如我们刚才说的,这种特定分区的存在意味着存在一个变分密度

在特定时间点上,换句话说,这是关于由内部状态参数化的外部状态的信念。从启发式的角度来看,我们可以将其视为关于原因如何产生结果的概率性规定。事实上,我们现在可以说

并利用变分贝叶斯推断中典型的论证,这使得我们可以声称这样的系统确实参与了推断,通过这个等式

这意味着只有当系统推断其观察结果的原因时,等式 (2) 才成立(在这种情况下,上述 KL 散度为零)。从这个意义上说,任何最小化其惊奇度的系统都自动最小化了变分自由能,因此可以解释为近似贝叶斯推断。

具体来说,这个变分自由能是一个关于外部状态或路径的概率密度的泛函,其由内部状态或路径(在某些边界状态或路径给定的情况下)参数化,并且在贝叶斯统计中扮演边缘似然或模型证据的角色。这是构建的关键一步,因为它将系统的熵连接到其信念的熵,即内部状态分布的熵 H[p(µ)] 和外部状态的变分(或识别)密度的熵,由内部状态参数化 H[q(η)]。

3.2 Applications of the free energy principle to paths, without stationarity or steady state assumptions

自由能原理(FEP)最简单、最一般,也是许多方面最自然的表达形式,是针对特定系统演变路径的[67]。人们往往低估了 FEP 最初是以路径的形式,在广义运动坐标下[72, 73]进行表述的;毕竟,它是一种表达静止作用原理的方式,告诉我们在某种势下粒子可能采取的最可能路径。FEP 的许多数学内容都可以追溯到在信号处理和贝叶斯滤波方面的工作,这些方面是动态的,并且是为了神经成像而发展起来的[74, 75]。然而,说 FEP 的路径积分公式的研究被放弃以支持其他公式是不准确的。实际上,敏锐的读者会注意到,关于 FEP 的主要专著,即 [1],是以广义坐标(有时是隐含地)为基础的。

当我们在基于路径的公式中操作时,我们使用所谓的“广义坐标”,其中系统流的时间导数被单独视为系统的“广义状态”的组成部分[75, 76, 67]。我们可以使用这些广义状态来定义一个即时路径,即一个在系统状态空间上的轨迹或状态的有序序列;而以路径为基础的 FEP 则涉及到这种即时路径上的概率密度

形式上,FEP 的基于路径的表述表示,对于感知状态的任何给定路径,自治状态(即内部和外部状态的联合空间中的路径)的最可能路径是自由能泛函的最小值或稳定点“13”。注释13:读者应该注意,概率密度函数的泛函的稳定点(也是一个概率密度函数)与动力系统自身的稳定点之间存在关键区别,后者是状态空间中的一个点。当我们说路径是自由能泛函的稳定点时,我们的意思是它是系统通过状态空间的最不令人惊讶的路径。[67]可以将其表达为稳态作用量的变分原理,其中作用量被定义为自由能的路径积分;换句话说,在自由能 F 的轨迹上,最可能路径的变化不会显著改变积分,即

更多细节请参阅[66, 67]。在这里,不需要对稳态密度或静态模式进行假设:这是一条最小作用路径,其中自主状态最小化它们的作用。

这种形式主义的一个核心应用是主动推断,其中主动状态的路径是预期自由能的最小化[65]“14”。「注释14:重要的是要注意,可以通过移动到路径而不是状态,对一个不稳态的系统进行稳态行动的路径。」Denoting the action of a conditional probability density as A[−|−],我们可以将主动状态表述为动作的最小化者。

在特定的交换条件下,注意EFE与FEP的基于状态密度的公式中探讨的变分自由能非常不同,因为EFE并不是对惊讶的一个界限。这与路径密度公式描述系统的方式与状态密度公式完全不同的事实一致。consistent with the fact that the density-over-paths formulation describes systems very differently from the density over states formulation

简而言之,在FEP下,我们可以在完全一般的情况下(即,不做任何关于稳态或恒定态的假设)说,特定分区的存在,以路径的稀疏耦合来定义,分区的内部和外部子集的路径,将最有可能的内部和主动路径解释为一种基本形式的贝叶斯推断licences an interpretation of the most likely internal and active paths, given sensory paths, as instantiating an elemental form of Bayesian inference“15”。注释15:已经有人声称,自由能原理(FEP)需要对稳态和/或稳态进行假设,或者相关的假设,比如遍历性;见,例如,[77, 78]。基于这种说法,[77]建议FEP不能用来模拟依赖路径的动态。这存在两个问题。首先,正如我们所见,FEP在其最一般的形式下并不要求我们做出这些假设。其次,当我们确实做出(尽管更为限制性的)假设,即系统具有稳态密度(即其力学具有稳态解决方案)时,我们可以利用赫尔姆霍兹分解(在下一节中进行讨论)将流的确定性部分(或漂移)分解为依赖路径的保守流和独立于路径的耗散流;参见[1]。因此,这种系统的动态似乎参与路径跟踪动态:自主路径看起来就像跟踪(即预测)外部路径。这有时被称为自证明。这既有一个知觉的方面(即,对感官信息的响应),也有一个选择性或实践性的方面(即,决策和规划相关)。从形式上讲,这些分别归因于内部和主动路径;在后者的情况下,遵循路径的稳定点(即,最小化预期的自由能)被称为主动推理。

在这种情况下,预测的概念有两个方面。首先,这些运动方程构成了我们定义的机械理论;它们提供了解释系统动态的运动定律。因此,它们构成了一个预测模型,允许我们(作为实验者或建模者)根据一些初始条件预测系统的行为,就像在文献中所述。另一个方面是我们所模拟的粒子所进行的预测。简而言之,如果系统具有特定的分区,那么它将看起来就像分区的子集(即,内部和外部状态)相互跟踪,或者等效地,推断彼此的统计结构。这使我们能够对建模者自身进行的推理或预测的种类进行预测。

我们应该注意,这个结果比我们接下来要讨论的更为简约。特别是,它对自主状态的具体流动形式没有任何具体的说法(事实上,这种公式留下了一整个等价类的轨迹,这些轨迹同样很好地最小化了变分自由能,这是一个更一般的推理问题)。

3.3 From paths of stationary action to density dynamics: Applications of the free energy principle to systems with a steady state solution

从稳定行动路径到密度动力学:自由能原理在具有稳态解的系统中的应用

本节转向自由能原理(FEP)的密度动力学表述。近年来(大约2012年至2019年)关于FEP的文献倾向于专注于密度动力学表述,该表述定义了随时间演变的状态概率密度,而不是路径的概率密度。在这种情况下,我们仍然处理具有稳定行动路径的路径。然而,在新的设定中,我们假设概率密度的统计量具有所谓的稳态解。我们讨论了一个称为近似贝叶斯推断引理(ABIL approximate Bayesian inference lemma)的结果,在文献中有两种主要形式,取决于目标系统的统计量。关于特定系统的稀疏耦合和条件独立性可以进行额外的假设。当它们存在时,它们有助于使一些数学推导更简单,而且更重要的是,它们允许我们对目标系统的流做出更具信息量的描述。

密度动力学表述已经被探索的一些原因。第一个原因是,非平衡稳态,其中包括详细平衡的破坏和由螺旋流暗示的复发,是生物节律和其他生物规律的有趣模型。因此,在假设存在稳态密度的情况下,看看我们能走多远是一个有趣的建模练习。由于路径基础表述在渐近意义上等价于密度动力学表述(即,由于最大口径在渐近意义上等价于最大熵),因此通过查看更受限制的特殊情况并没有损失任何东西,前提是当然要注意到这种近似的局限性。第二个原因是教学上的:在假设存在稳态密度时,相关运动方程的推导在普通坐标下不那么复杂

读者应该注意,或许有点令人困惑的是,说一个系统处于稳态,或者具有稳态解,不是对系统状态本身的描述,而是对系统概率密度的时间演化的描述。说一个系统具有稳态解意味着,如果不受干扰,系统将沿着该解所定义的流形流动,直到到达该解的稳定点或轨道,其中动作的变化为零。反过来说系统处于稳态意味着,密度动力学已经停止演化,并且现在处于其行动泛函的稳定点(或在随机波动的存在下,接近于稳定点),在该点行动不能进一步被最小化。这并不意味着系统已经演化到一个固定点。

更正式地说,当应用自由能原理到状态密度而不是路径时,我们假设系统的运动方程允许存在非平衡稳态密度(NESS)。形式上,NESS密度是描述(1)的密度动力学的福克-普朗克方程的一个稳定解。假设这种密度存在会使得自由能原理的适用范围较少(具体减少多少仍在讨论中,参见[82]及该论文的回应);但在这些条件下,它可以用来描述自组织系统的流动情况。

根据自由能原理,NESS密度满足以下特性:

NESS假设在特定系统中是有趣的,因为它使我们能够对这类系统中发现的流动类型提供非常基本和有益的信息。在这些表述中,NESS密度充当系统动态的拉格朗日势能函数[71]。

在自由能原理下至关重要的是,根据NESS密度的上述第三点定义,所定义的surprisal可以被视为系统的本体势能(当它存在时)。我们将本体势能定义为一种抽象势能,它诱导某个系统动态的吸引子。它的本体性在于,它表征了所考虑系统的特性。这仅仅是因为系统被吸引到特征性状态或路径集合,这些状态或路径集合是该系统的特性定义的吸引子区域。

本体势能也可以被写成对构成类似系统状态的一组约束。事实上,正如我们后面将看到的,对于推断问题的最大熵解,对数概率等于特定系统的约束——因此它在字面上也是一种势能,用于限制特定系统访问一组特征状态。也就是说,在数学上,我们可以将surprisal视为一种势能,类似于重力或电磁势能,其梯度允许我们指定特定系统所受的力。这些力决定了它在状态空间中的演变,以及在共轭信念空间中的演变。(相应地,被约束为以某种方式加权的概率密度的对数概率会复制该权重,即

图3:Helmholtz分解。被称为Helmholtz分解的流动分割。垂直方向包括由Γ给出的梯度上升和随机波动,将系统推离模态(防止系统坍缩到一个点)。水平流是一个涡旋流,能量保守但是在时间上是定向的,由矩阵算子Q给出。

我们将在本文中进一步探讨本体约束的概念,它是本体势概念的对偶,将在第5节介绍。

当我们考虑收敛于预期非平衡稳态密度的模态的抽样动态的统计时,本体势在系统偏好方面具有另一种解释 [1, 83, 84, 85, 86, 87]。我们可以将非平衡稳态密度视为提供了一组先验偏好,特定系统似乎试图通过行动实现或实现这些偏好 [2]。事实上,我们可以将这种动态的解决方案看作是认知系统目的论的自然化解释 [88, 7]。

在这些假设的基础上,我们可以推导出一个更强的主张,即特定系统参与一种近似贝叶斯推断的形式。这个近似贝叶斯推断引理(ABIL)可以如下陈述:当一个系统具有稳态解时,我们可以定义一个同步映射,系统地将外部状态的条件模态与内部状态的条件模态相关联。在这些条件下,我们可以说特定系统似乎执行关于最优条件模态的推断,通过内部编码外部环境的统计信息。ABIL本身表明,在同步映射和变分自由能泛函(或其等效形式)的情况下,此模态匹配既是近似贝叶斯推断的必要条件也是充分条件。

我们可以正式定义同步映射σ。映射σ是一个将给定一组 blanket 状态的最可能的内部状态映射到给定相同 blanket 状态的最可能的外部状态的函数The map σ is a function that sends the most likely internal state, given a blanket state, to the most likely external state, given that same blanket state.。这些内部状态是真正沿着变分自由能进行流动的,这种变分“移动”使我们能够谈论推断,因为这种流动与惊异的流动具有相同的最小值,我们可以将这些状态解读为执行推断的过程。正如我们所说,这使得将系统的动态解释为实现一种基本形式的近似贝叶斯推断成为可能。

更简单地说,这意味着对于每个毯子状态,都存在一个平均的内部状态或内部模式,它参数化了关于平均外部状态或外部模式的概率密度或信念。ABIL背后的主张是,匹配马尔可夫毯上的这些条件模式的系统正在存储其环境的模型(或者可以这样解读),因此正在进行一种推断。需要注意的是,µ的逆的存在性不能保证:我们可以证明如果µ的逆在其图像上是可逆的,即µ的逆是一个单射,那么σ存在,但是我们不能事先断言µ的逆在任何域上都存在。也就是说,µ的逆存在性是取决于图像的可逆性,但不必须是在所有域上都成立的。此外,重要的是要指出,µ绝对不需要是双射的。

此外,请注意——考虑到它依赖于 NESS 解决方案的存在特定系统的力学——这种描述仅在渐近系统中成立 [33, 32, 91]。

现在,条件外部模式可能具有趣味性的动态特性,也可能没有。这就是我们遇到的形式应用的第二个方面(参见图2),因为FEP对前一种情况提供了信息,并对后一种情况提供了空洞的应用。例如,在[82]分析的一维线性系统类中,模式根本没有动态:流中的唯一变化源是随机波动。正如在[91]中讨论的那样,在线性系统中,动态简单地耗散到一个静止的固定点并保持在那里。现在,遵循FEP的系统仍将通过同步映射匹配外部模式,但由于外部模式没有动态,因此无法进行可以解释为主动的“跟踪”行为。因此,[82]发现在这些情况下,自由能梯度对系统的真实动态没有提供有意义的信息;但这是因为没有关于哪些可以说有趣的动态。我们可以将这种行为看作是模式匹配,一种静态贝叶斯推断(例如,适用于描述统计学家在一般线性模型下应用于数据的贝叶斯推断)。

在存在外部模式的动态方面,我们反而得到了一种更丰富、更主动的模式跟踪行为,其中外部状态随时间变化。在这些条件下,内部模式似乎在跟踪外部模式。由于模式跟踪涉及最可能的流跟随方程(1)的确定性分量,这就像自由能的路径积分的经典极限,即无限确定性的极限[71]。也就是说,某些模式跟踪的特定系统是宏观贝叶斯“粒子”,我们可以忽略随机波动。

随着信念的变化而跟踪模式会诱导共轭信息几何和相应的流动,从而使得系统在每个时间点执行推断以确定其内部状态应该参数化的信念,然后朝向那个最佳参数流动[31, 91]。正如所示,在一个情况中,我们考虑系统的物理状态(或路径,即状态序列)上定义的概率密度的“内在几何”,即这些状态或路径的概率;在另一种情况下,我们考虑由这些状态或路径参数化的概率密度的“外在几何”,即我们将它们视为另一组状态或路径上的概率密度的参数。请参阅[1, 92]。

在接下来的第4节中,我们将看到我们可以利用约束最大熵原理(CMEP)的技术,将本体潜能(即NESS潜能)重新表述为一组约束,系统在耗散时使熵最大化。

3.4 Some remarks about the state of the art

在转向CMEP及其与FEP的联系之前,我们对FEP技术文献中的一些重要发展进行评论。最近的研究[82, 93]质疑了FEP理论家所声称的Markov毯子是否像他们所说的那样普遍存在。我们简要评论这项工作。总的来说,我们认为Markov毯子(在适当的意义上定义为特定分区)在物理系统中是普遍存在的:基本上所有物理系统都具有Markov毯子。

根据所谓的稀疏耦合猜想(SCC sparse coupling conjecture),所有足够大、稀疏耦合的随机动力系统都具有Markov毯子,以通常的方式定义。最近的研究表明,对于具有二次惊异度(包括具有状态相关Helmholtz矩阵的二次惊异度)的系统,SCC以近似形式普遍成立。也就是说,我们现在知道,随着一个极其通用的随机动力系统类增大(即,它们变得更高维),在系统中找到Markov毯子的概率(以适当方式定义,即在特定分区的子集之间)趋于一。

在[64]中,证明了SCC的一个削弱版本。引用的结果表明,随着维数的增加,甚至在大类非线性系统中,用于研究Markov毯子的Hessian条件会得到满足。这些结果建立在之前的工作[69]之上,后者在具有高斯稳态密度系统的情况下确定了宣称系统显示Markov毯子的充分条件。该条件是系统稳态分布的Hessian(其条目编码惊异度的曲率或双重偏导数)与捕获流的螺旋部分的矩阵场的内积恒等于零。当这个内积恒等于零时,我们总是有一个适当意义上的Markov毯子。现在,在[69]中,仅仅猜测系统的大小增加时找到毯子的概率会增加。直觉是,随着系统的增大,它的稀疏性增加,从而在子集之间表现出Markov毯子。在[64]中,已经证明了对于足够大的许多耦合随机动力系统,Markov毯子属性以概率1成立。该证明涉及定义一个“毯子指数”,评分方式度量了讨论中的内积非零程度。利用这项技术,我们可以明确量化系统偏离严格Markov毯子条件的程度。More interestingly, the probability of the blanket index vanishing tends to one with dimension。至关重要的是,大多数物理系统在相关意义上都是大型的。例如,仅一勺水就含有约10^23个分子。大脑包含1000亿个神经元,每个单独的神经元都与成千上万个连接相关。还有其他很多例子。

现在,[93]中的结果可能确实破坏了近似贝叶斯推理引理(ABIL)的原始推导,正如在著名论文[94]中可以找到的那样。然而,较新的工作使用传统数学重新推导了 ABIL [6]。[93]中的结果仅与[94]中发现的推导相关;我们注意到,[63]中也对后者进行了批判性讨论。因此,从[93]中得出的适当结论是,人们不应该引用[94]来表达关于ABIL或马尔可夫一揽子属性的观点;更微妙的是,人们应该摆脱这种形式主义。但我们有独立的理由相信 ABIL 是真实的;事实上,文献已经摆脱了那种形式主义。

正如上文所讨论的那样,得出FEP不适用于[82]中分析的系统的结论是误导性的。对FEP的应用是无信息的,因为该工作集中在线性、低维数的数学边缘情况上,即具有少量状态的系统。更准确地说,该论文考虑了FEP是否能够有益地应用于一维耗散系统;在物理上,这些系统是具有单个自由度的耦合、阻尼弹簧。该论文明确地表明,对于这样的系统构造Markov毯子是困难的。然而,这并不削弱FEP或一般情况下获得Markov毯子属性的意义。相反,这些结果构成了FEP对非常低维度(即一维)的线性系统的有趣应用。因此,从这项工作中得出的结论并不是一般情况下不会获得Markov毯子属性,而是在小型、低维度系统中Markov毯子很少或很难构造;但它们在适当大的系统中(其中包括大多数物理系统)仍然是普遍存在的。因此,FEP并不是一种可以应用于任何数学系统的“万能理论”——它只是一个包含Markov毯子的万能理论。实际上,[82]已经表明,FEP在各种系统上都是无信息的;例如,它适用于线性随机系统,但对此类系统在FEP理论上没有特别有趣的内容。

总之,FEP是一种方法或原则,适用于以Markov毯子、稀疏耦合和特定分区为规定的“事物”。FEP不涉及不包含任何“事物”的系统。从这个观点来看,上述批评性文献关注的是任何给定系统是否可以被划分为某种“事物”和其他“事物”。如果可以,那么FEP就适用——否则就不适用。

4 Some mathematical preliminaries on the maximum entropy principle, gauge theory, and dualization

4 关于最大熵原理、规范理论和对偶化的一些数学基础

在介绍中,我们讨论了如何改变我们对自组织的视角涉及跨越边界的视角交换:与其问一个特定系统或粒子如何维持其“自我”以及它应该对环境持有什么样的信念,正如FEP所感兴趣的那样,我们可以转而问这个自我是什么,以及从一个外部观察系统的人的角度来看,它是什么样子。同样,对于我们询问的对象进行对偶也意味着对我们对贝叶斯力学的应用进行对偶,询问关于我们对系统的信念,而不是系统所编码或携带的信念。因此,这个想法是,我们可以利用这种双重视角来建模自组织,就像我们通常会做的那样,恢复问题的对称性,并允许我们应用FEP来模拟自组织系统。

我们已经说过,FEP与约束最大熵原理(CMEP)是对偶的。FEP is dual to the constrained maximum entropy principle (CMEP). Duality in this category-theoretic sense means that two objects在这种范畴论意义上,对偶性意味着两个对象,正式称为伴随对,共享一些共同的固有特征,但与其他对象展现出相反方向的关系。一个伴随(存在一个伴随对)通常暗示着一个问题中隐藏着一些有趣的结构;在这种情况下,它是定义耦合系统推断彼此状态的奇特的代理-环境对称性。可以证明,将(i)自由能与受限熵交换,以及(ii)内部与外部状态交换,可以恢复ABIL的所有方面和自证明的简单情况,因此也就恢复了FEP的许多方面,特别是涉及自组织的方面;参见[6]中对ABIL(引理4.2和定理4.1)的证明。

因此,对偶化的动机几乎是三方面的:(i)它重新捕捉了FEP的原始精神,即观察者对展示自组织的代理进行建模;(ii)它使我们能够将FEP的数学基础建立在最大熵和处于平衡状态的静止系统的基础上;(iii)它使我们能够将现有的FEP方法扩展到FEP文献中新的情景,如基于约束的形式主义。作为一个技术工具,改变我们的观点引入了受限自熵作为信念的自由能的对偶。通过这样做,我们可以将FEP与概率论和动力系统理论中的现有见解联系起来。这种新的观点对我们对FEP的阅读来说是独立有趣的,并可能将其扩展到新的现象或系统。对最大熵原理开发的新方法(如规范理论结果)通过这种关系在FEP中以有用的方式反映出来

我们开始的时候并不是直接涉及最大熵,而是从对CMEP的一种略显非传统的几何观点开始,稍后将其与FEP的状态密度表述(特别是Helmholtz分解)联系起来。这种特定构造所需的CMEP的核心要素起源于规范理论gauge theory,这是数学物理学中的一个理论,它将粒子的动力学与它们的状态空间的几何联系起来。后来,这将使我们能够讨论在最大熵下流的分解,以与FEP存在的情况相同,并明确将其与对约束的改变响应中的概率分布的更新联系起来。我们建议参考[96],它具有很好的入门性,以及[97]或[98]以获取更多细节。

A gauge theory begins with a field theory规范理论从一个场论开始,例如电磁学或量子电动力学(QED),描述了物质的动力学以及构成物质的粒子的动力学。通常通过应用静止作用原理(参见第2节)来描述“物质场”的动态,并且与一个称为行动泛函的特殊积分相关联,正如我们在第2节中所讨论的那样,这是一个由系统的拉格朗日汇总的涉及机械能的量。由此得知,行动泛函的最小化者,即函数空间中的一个点,给出了使行动保持静止的场的配置。

原则上,行动泛函给我们提供了关于物质场的一切需要了解的信息。然而,在许多场论中,行动具有某种对称性——这是一种保持行动不变的变换,因此对某些特定量的任意变化对由行动预测的物质场的运动方程没有影响。一个简单的例子包括参考系变化下的重力场:相对论的基本原则是我们没有绝对的坐标来描述物理现象,运动等现象在不同视角下看起来不同,尽管潜在的物理学是相同的。因此,重力具有坐标不变性,这意味着它在坐标变换下保持不变:换句话说,在这种转换下它具有对称性。在其他理论中,我们有其他的对称性:例如,在量子电动力学中,我们可以任意选择和改变粒子的复相位,而与相关行动没有变化。理论对称的量称为规范。在规范理论中,对称性本身被称为规范不变性,其特征在于规范的自由选择和在规范变化下的不变性,规范变化被称为规范变换

规范理论之所以有趣的原因之一是,与行动泛函不同,物质场本身通常是规范协变的;这意味着它随着规范的变化而变化。虽然原则上我们可以从行动泛函中推导出关于物质场的所有信息,但这种对称性在场中并不明显:表达场演化的方程随着规范的选择而变化。这就是所谓的协变性(一起变化)。想象一下选择一个参考系:规范对称性只是说我们可以选择任何新的参考系,并且仍然观察到与物理定律一致的运动(例如,保持总能量不变的运动);但是,在一个参考系内表达这种运动的方式仍然取决于参考系的选择(例如,选择一个移动的参考系将惯性轨迹转换为相对于该参考系的移动轨迹)。规范协变性与我们表达矢量分量的坐标基的变化的概念有着非常直接的关系。(关于此的示例请参见下一页的图4。)

规范理论捕捉到物理任意性与数学相关性之间的张力,相应地,规范理论为我们提供了一种描述一个量如何随着时间和空间的变化而变化的方式。在规范理论中,这经常记录了力场如何影响粒子的运动,以及玻色子(携带力的粒子)与费米子(组成物质的粒子)之间的耦合。一个有启发性的例子是广义相对论下的引力。广义相对论的原理是,特殊相对论(即相对于光速的运动的相对性)可以推广到任何相对于某种其他运动表达式而加速的运动。这种观点的一个结果是,所有的非惯性运动在引起某种加速度的曲面上都与惯性运动相同,这种加速度被称为“等效原理”。等效原理最早由阿尔伯特·爱因斯坦于1907年正式提出,他观察到,物体朝向地球中心的加速度为1g等同于一个惯性运动的物体(即在参考系内不加速运动)在自由空间中被加速率为1g的火箭上观察到的加速度(其参考系正在加速)。这就是等效原理:加速的参考系在物理上等同于引力场。因此,时空的曲率就是引力。正如在[99]中总结的那样,“观察者无法通过实验来区分加速是否是由于引力作用或他们的参考系正在加速。”现在,质量扭曲了时空,完成了这种类比。另一条由约翰·惠勒提出的至理名言是“时空告诉物质如何移动;物质告诉时空如何弯曲”。

数学家讨论规范理论的方式是通过一种特殊类型的空间,称为纤维丛。我们的规范理论有三个要素:一个具有纤维 F 的“关联丛” E,其中物质场存在;物质场所在的空间 X;以及物质场的规范选择,它存在于一个“主丛” P 中。规范的选择具有特定的性质,即当它发生变换时会改变物质场,因此这两个自由度是相关联的,并且两者都位于某个输入或基空间之上,因此它们也是相关联的。

图4:纤维丛、截面和变换的示意图。纤维丛存在于基流形上,位于该空间中的点上。在这里,纤维是与基点相关联的实线的副本。不同的截面选择对应于约束函数的不同选择。截面是一个函数,它将“概率空间”中的坐标分配给基点上的点,即概率值或某些基点 (x, y) 上的纤维 F 中的特定点。对于 fA、fB、fC ∈ F,这些点位于基点 (x, y) 上。任何 fi(x, y) 的高度都对应于 (x, y) 的概率,并且是截面 p 内的 (x, y) 的映射。显示了三种简单的截面选择,同一个点 (x, y) 由于不同的约束函数(A、B 和 C)选择而映射到相应概率密度的不同区域。F 上的嵌入显示了所有这些密度都是相同基空间上的截面。

每个场在输入空间上都有一个场状态,因此我们将这个三重结构视为一个包含每个输入空间点上所有可能状态的空间。这是一个纤维丛,因为它看起来像是从基流形中伸出的一组纤维,全部捆绑在一起。我们对每个输入点的规范选择也是如此,然后通过将物质场状态与规范选择相关联来耦合这两个纤维丛。

在数学上,纤维丛的构造本质上类似于函数的概括:在每个输入点,都有一整个空间的可能输出或图像,我们在整个输入空间上捆绑在一起。一个例子是 xy 平面是实线的纤维丛,位于实数上的点,拓扑排列使得每个纤维与基底成直角,这样我们可以定义单个实数输入的实值函数。更复杂的函数通过改变我们的纤维和输入空间,在这个框架中有一个自然的归属。这包括时空上的经典和量子场的状态。请参见图6。

我们将丛中的内部函数称为截面,例如实数线丛在实数 R 上的 f(x) = y。可以想象截面的图像,例如一组 y 值沿着平面上的路径,由基点参数化,作为丛的横截面,沿着该路径切割它。因此,截面是生成丛切片的函数。截面将基中的路径提升到丛中的路径,以生成这样的切片。事实上,我们所谓的丛切片(f(x) 的图像集,由特定的一组 y 值组成)实际上称为提升。

纤维丛概括了空间之间的函数,特别是纤维丛允许构造一个从基空间到其他称为纤维的空间的丛的函数。这使我们能够将场定义为纤维丛的截面,因为它们是从丛中“获取”场状态并在基空间上的输入点处选择的函数。例如,经典场是某个丛的截面:在空间时间的每个点上,我们得到一个经典状态,这样一个经典场就是从空间时间到状态场的提升。这个例子与我们之前对力学和动力学的区分相一致,即将一个场限制在时空中的某条线上产生力学,以及在该线上的某种形式的截面下提供输入点产生轨迹(即动力学)。将时空上的路径提升到复线丛中,我们得到了量子粒子的复相位。该粒子的行为由提升的实际运动方程确定(即它的力学),这是我们将其与特定粒子的机械理论相联系的自由度。反过来,机械理论本身是由这样一个提升的存在导致的。因此,整个图景是,我们在时空上有一个纤维丛,它给我们提供了一个场论结构,其在某一点的提升是一个力学理论。实际上,复线丛的一个截面是一个波函数,输入像一个特定的势函数这样的数据,我们得到一个量子运动方程

函数表达式——物质场的参考框架——与规范选择的关联构造是我们之前定义的规范协方差。回顾我们之前定义的三重结构。

完成我们对规范理论的介绍的最后一部分是规范场、规范力和连接gauge field, gauge force, and connection.。连接是导数的一种概括,它使我们能够讨论截面选择在基底流形上的变化。定义连接就像在丛的总空间上引入一个精细的拓扑结构,使我们能够将基空间上的微小变化映射到丛空间上的微小变化。因此,我们可以对在丛中由基路径参数化的路径进行导数运算。在这种情况下,导数本身是一个称为切空间的概括对象,它是切向量的集合(一个向量场),描述了粒子从基空间中给定点流动的方式。在规范理论中,连接就是规范场,它告诉我们规范选择如何在时空中变化。在连接中是平坦的路径是未受迫的,而弯曲或偏离平面的路径,则被粒子感知为规范力。

连接还允许我们改变丛空间中运动的约束,并且允许我们定义其中点的平行传送。我们将稍后特别讨论平行传送。现在我们可以利用这一点来理解最大熵中 p(x) and J(x)的协变性,为近似贝叶斯推断的不合理有效性提供基于物理的理由,我们接下来将讨论这一点。

5 On the duality of the free energy principle and the constrained maximum entropy principle

第5节 关于自由能原理和约束最大熵原理的对偶

在本节中,我们利用第4节中介绍的规范理论资源,为FEP下的贝叶斯力学提供一个互补(即对偶)的视角。我们提供了来自[5, 6]的结果的简要回顾“17”,「注释17:为了清晰起见,请注意本节旨在回顾现有的工作,而不是提出新的结果。」以[98, 第9章]作为规范理论的数学参考。本节分为两部分:从约束到规范对称性的转移,以及从规范对称性到动力学的转移。two parts: moving from constraints to gauge symmetries, and from gauge symmetries to dynamics.

在这种贝叶斯力学的对偶版本中,系统的本体势能被表达为对系统状态的一组约束,可以使用变分最大熵程序来指定。这与关于状态的NESS势能形成对比,后者是根据那些状态的感知原因而写成的。相应地,本体势能指定了系统可能发现自己处于的状态(即典型状态)。然而,这并没有告诉我们太多关于系统朝这些状态的动力学;这些主要受系统的水平(通常称为涡旋)和垂直(耗散)流的控制。我们将在这里讨论这一点。

5.1 From constraints to gauge symmetry

5.1 从约束到规范对称性

我们先前提到,在某种数学意义上,规范理论是描述一个量如何随着另一个量的变化而变化的理想方式。这种协变性正是当概率在状态空间中传输时所发生的情况—当状态的约束发生变化时,该状态的概率也以与连接约束动态空间相同的精确方式发生变化。考虑拉格朗日优化条件,即感兴趣函数的梯度等于约束的梯度乘以一个比例(称为拉格朗日乘子),即

当熵被最大化时,对于一个拉格朗日函数 - log p(x) - λJ(x)。这也被称为熵最大化的欧拉-拉格朗日方程,该方程为真的p(x)是最大熵分布。该方程要求作为向量场的惊奇函数log p(x)的演化等价于其他函数的梯度。本节的目的最终是看看上述优化关系与约束某一部分图像所描述的粒子运动的潜在函数之间的类比有多精确。我们将以此为动机来证明受约束的最大熵实际上约束了感兴趣的概率密度,即在固定约束下,密度被约束为具有这样的形状,即p上的梯度位于关联丛上的诱导连接中。 参见图5。

在某种意义上,这一点的重要性不在于这是一个规范对称性,从物理场论的传统意义上说(尽管从熵函数的角度来看,它是如此)。相反,其力量在于引入的几何关系,特别是当改变系统的约束时,我们也改变了沿着曲线或表面的矢量场,告诉我们我们的概率分配应该如何在状态空间中“移动”。这与贝叶斯更新的“移动”方式完全相同:改变我们的先验知识或约束重新分配概率。实际上,这就是该形式主义的力量:得出贝叶斯推理的几何观点,无论是近似还是精确

我们将首先证明这种规范对称性是存在的。然后,在下面的小节中,我们将使用它来解释平行输运环境中的规范协方差。并行传输允许对FEP中的信念更新和亥姆霍兹分解(或流分裂)进行新的解释(见图3),将其与数学物理的既定基础联系起来

需要最大化的标准熵函数是

图5:曲线上的向量场。在一个丛上的联络使我们能够沿着曲线定义一个切向量场。在这里,应用的约束直接约束了这样一条曲线的形状,应用为一个矢量场,约束某些粒子的运动沿着梯度的轨迹。这条特定的路径是弯曲的,对应于某个(弯曲的)联络的最小作用路径——一个测地线。在这个局部区域,我们还可以轻松地构造一个扁平联络和扁平路径。我们把扁平的路径称为水平提升,点的平行传输沿着这些路径特别发生。

根据(6),可以提出这样一个看法,尽管可能有些幼稚,即最后一项为零。这个观察意味着任意给定的J选择都可以分解掉。然而,为了产生一个真正的规范理论,我们还必须调查改变J选择对p的影响。在从J改变到一些新的约束选择J + J0的情况下,我们推断出(7)的以下变换规律:

在第2节中,我们介绍了动作的变化给出了系统的轨迹,或者一些可以像牛顿定律那样解决的轨迹方程的概念。最初,动作应该给出系统的唯一运动或运动方程,不同的动作将给出不同的最小作用路径。然而,在一个规范理论中,规范对称性表现为系统可能轨迹中的冗余性:系统存在多个可能的规范等价路径或场配置。如果我们注意到欧拉-拉格朗日方程,则可以轻松地证明这一点。

通过简单地将(7)的被积函数的梯度设置为零,我们得到这一情况。这个问题的解是「注释:请注意,上述过程中我们已将由于评估−∂p/∂(x)log p(x)而产生的−1吸收到了拉格朗日乘子λ中。规范化常数Z也作为惯例被吸收到了λ中[58]。因此,这里所有的p都是概率。」exp{-λJ(x)}, 这是一个特别简单代数方程的根。现在我们将尝试对(8)做同样的处理。对于S[x; J + J 0 ]的同样变分得到:

请注意,由于我们定义的变换规律,被积函数更加复杂。利用对数的性质,我们可以简化第一项为

这使我们能够因式分解出e −λJ(x) , 得到

由于指数函数始终大于零,我们可以完全放弃这个常数——它对梯度项的零点没有影响。一些进一步的代数运算给出了以下项的组合:

在计算的这一点上,很明显新的约束函数被抵消了。因此,我们得到了我们的原始解答。

回顾以上内容。这恢复了(9),完成了结果。

总之,我们已经表明固定特定的约束J是任意的,并且改变约束的选择也是任意的。因此,约束的选择是系统机制规范中不影响动作的自由度(即变化使动作保持静止)。这概括了Jaynes之前提到的对称性,即约束的重新参数化不应影响最终的概率密度【18】,Shore和Johnson【100】在其最大熵下一致推理的公理方案中重新引入了这一点(参见【58】的综述)

事实上,这种对称性根源于杰恩斯关于最大熵的原始论断。事实上,存在着一类无数多的系统,它们都可以用熵来描述,具有可以固定的特性,从而产生对特定系统的描述。这些约束的存在赋予了它们规范对称性的地位。就像基于它们的计算特性存在某些特权选择的规范一样(例如,在电磁学中的库仑、洛伦兹和福克-施温格规范),我们已经指定了一个特定的规范选择,我们可以称之为贝叶斯规范Bayesian gauge“19”,注释:19The authors thank James Glazebrook for suggesting this name。产生一个进行近似贝叶斯推断的系统。此外,在贝叶斯规范中恰好表现出了约束的任意性。确切地说,这种自由选择就是一种规范选择,用规范理论来描述推断。例如,假设目标概率密度p的充分统计量只是一个均值 ˆx。

两者都导致 q = p,前者是通过直接求解;后者是通过认识到在吉布斯测度中,如果 ˆx 是 p 的唯一充分统计量,则p = exp{−λx} (注意,我们处于指数族的世界中,这明确是我们感兴趣的领域,因为在[5]中的构造)。

从某种意义上说,这种规范理论上的关系是近似贝叶斯推断的原因;也就是说,为什么它能起作用的原因。这相当于一种说法,即学习外部世界的统计信息就足以使该世界不再令人惊讶。更一般地,它提供了以控制参数值为约束的变分贝叶斯推断的定义“20”。注释20:在这里,控制参数是一个变量(可能对于所讨论的系统来说是外生的),它在设置该系统的动态方面起着关键作用——例如,从内部(或外部)状态的角度来看的覆盖状态。在数学方法的语言中,我们可以将其视为贝叶斯规范群Bayesian gauge group,由指数函数(从概率的角度来看是信念)组成,其中这些信念的变化是一个适当(主要)丛的自同构(参见[5]的命题1和定理2)。因此,我们有了一种机械理论,用规范理论的术语来书写,适用于所有看起来像是进行推断的系统。

我们也可以使用这种设置来讨论先验概率。某些先验的初始参数化——即对我们的先验概率密度的约束选择——是任意的事实说明了为什么近似贝叶斯推断对先验概率的任意选择都有效:选择先验在数学上是一个自由的规范选择。

5.2 From gauge symmetry to dynamics

5.2 从规范对称性到动力学

从这一点开始,我们可以从机械理论转向动力学。将规范场耦合到物质场中引入了在丛的切空间中的“方向”感,即在规范力的作用下路径沿着某些方向前进。特别地,我们可以定义规范理论中所谓的“水平”和“垂直”流。

在图6中,我们介绍了规范理论的三重结构:一个基空间X用于我们的时空或背景场,一个主丛P用于X上的规范选择,以及一个与P耦合的相关丛E,它告诉我们我们的物质场如何随着P中规范选择的变化而变化。当我们在相关丛E中生成曲面时,潜在曲面下的截面选择隐式地与主丛P中的截面选择耦合在一起,因此改变该选择会改变E中的曲面。通过丛空间的水平路径是一种非常特殊的路径,称为水平提升。这些是平坦路径,沿着这些路径规范选择不变,因此也没有规范力。规范力会使水平路径偏离,加速它们,并使它们在垂直方向弯曲,因此,在基地上的粒子演化时改变规范选择会使其路径“上”或“下”扭曲。如果这种扭曲对于每条可能的路径都存在,则该丛被称为曲的,这与能够接受全局水平路径的平坦丛形成对比。这些也被称为全局平凡丛。尽管所有路径都弯曲的约束性语言,即使一个丛中有一个全局水平路径也是一个特殊的构造;一般来说,纤维丛是非平凡的(即,它们具有一定的曲率)

确定一个提升——我们称之为截面的广义函数的图像——是以平坦或弯曲的方式演化的对象是连接的一般化,称为连接,我们在前一节的末尾讨论过。连接沿着曲线诱导出一个矢量场,或者反过来,一个矢量场,其积分曲线就是提升(即,截面的图像)。在温和的假设下,当连接到处平坦时——不含有垂直分量的向量——丛是平凡的。像平坦连接一样的水平矢量场也被称为叶片,叶片矢量场具有唯一解。

我们可以沿着截面将连接拉回到基地,得到一个基地上的矢量场,称为拉回连接。这确定了粒子在时空中受到规范力影响下的运动方式。连接的拉回就是我们所说的“局部规范场”,它是这种运动的决定因素。

局部规范场的积分曲线是约束函数的等高线。在图6中,我们将这些等高线标记为函数J(x, y) = x^2 + y^2的圆形水平集,并将这些圆拉回到基地。这些圆是规范水平路径:它们在J曲面上不经历垂直曲率。

将这个输入到E中,我们可以产生一个相关丛的截面,它在E中的诱导连接下是规范水平的。我们希望在约束空间中的水平性能够转化为等概率性——规范水平路径应该被提升,使得它们在E中也是水平的,因此,它们是等概率状态的环。换句话说,这是一个要求E中的概率环与拉回到X的环平行的请求。

这个名字叫做平行输送。平行输送产生水平提升,即在基地上抬起路径的开始点并沿着该路径平行输送它,产生一个水平提升的路径。因此,我们确实希望证明以下内容:概率密度的形状受到约束的限制的观察可以被明确地表述为概率相对于约束以平行方式在状态空间中传输的事实。

方程上,我们可以得出一个引人注目的结果:最大熵的解是平行输送方程。在一般情况下,最大化熵的函数p是某个约束函数λJ(x)的指数形式exp{−λJ(x)}。单个截面内的一个内部函数(因此是一个点,就是在输入上评估的函数的意义上)平行传输的条件可以用普通微分方程(ODE)来表达。

当将两边都除以p(x)时。这个方程积分得到(9),并且是我们先前约束在潜在的梯度(或对应地,一个连接)中运动的方程。事实上,平行输送ODE(10)的解是指数函数。

证明了熵的最大值是在状态空间上的平行输送,就像平行输送是状态空间中可能运动的一个变分原理一样。这些概率测地线是等概率环,构成了所需的概率密度。

5.3 Splitting the flow 分流

在这种规范理论意义上讨论流动分解为水平和垂直分量的用途是什么?答案是这样做为自由能原理提供了一个自然的应用场景,它阐明了Helmholtz分解的形式结构;见方程(3)。我们进一步探讨了一个引人注目的结果:在CMEP下将系统的流动分解为垂直和水平分量与特定系统的自主分区的Helmholtz分解是同构的(有关更全面的技术讨论,请参见[6])。

回顾一下,特定系统的确定性流动部分(其SDE的漂移分量)可以分解为一个涡旋状、保持概率质量的组分,它在NESS密度的等概率轮廓上流动,并且一个耗散性组分,用于抵消随机波动。由于水平流是等概率的,任何水平流都不会改变所访问状态的意外值。这已被确定为FEP中流动的一种探索性组分。因此,如果我们正在建模有组织但流动的系统,例如展现出类似生命特征的系统,我们可以通过在这个约束几何中指定流的水平组分来形式上重现探索的倾向

反之,如果我们考虑一个非常简单的系统,比如具有线性响应的系统——一个耗散系统,我们期望其在其固定点周围高度受限制——我们可以在该点周围放置一个非常窄的密度,并将水平流的退化纳入我们的模型中。相反地,通过一个特权的水平流,我们可以得到对应的垂直流的概念。(水平流是特权的,因为它对应于在状态空间中的惯性路径,即不受任何外部力的影响的路径。)由于垂直流被认为是加速路径脱离水平平面的规范力,所以这个垂直流趋向于最大概率点,即p(x)的模态

应该注意,这个构造假设约束——因此模态——是固定的,但是,我们可以随时重新最大化熵并重新固定规范,每当我们需要更新对系统的信念时。事实上,我们在这里介绍的规范理论观点确实正是这样,因为p(x)在J(x)上是协变的。未来的工作应该将这个扩展到非稳态的情况;在一定程度上,已经开始了[65],在这里,模式和相应的垂直流随时间改变方向,引入了对这种迭代推断的连续解释。事实上,对于沿着路径的边际信念的连续观点的建议可以从最大路径熵或最大精度原则[58]中推导出来,我们先前推测这是将FEP技术扩展到真正的非平衡态的一个有吸引力的基础。我们将在第7节中介绍G理论,探讨FEP和CMEP之间的二元关系的扩展,但是我们将详细内容留给未来的工作。

总而言之——为什么我们将规范理论技术引入贝叶斯力学?它提供了一个有吸引力的近似贝叶斯推断的表述,并且与当代物理中机械理论通常的书写方式一致;但它主要是有用的,因为它允许我们对自我证明说些什么。先前的工作[6]已经使用CMEP证明了近似贝叶斯推断引理,并将这个结果与CMEP中的规范对称性联系起来。有了这种关系在手,自然可以显示近似贝叶斯推断引理中的模式跟踪存在,即在该密度流下的系统的实现流向一个模式。由规范对称性显示的分裂使我们能够通过近似贝叶斯推断的定义来定义Helmholtz分解。

鉴于我们刚刚回顾的内容,约束与概率之间的规范理论关系仍然更有用,因为我们现在可以理解:(i)为什么惊异或负对数概率是功能的规范选择,通过平行输送,(ii)为什么平行输送是有意义的,通过规范协变性标识,以及(iii)为什么似乎存在一种力量——一种隐喻性的生命力量,也许,实际上,是一种规范力——驱使模式匹配,这是FEP下概率(贝叶斯)信念控制的基础

Given what we have just reviewed, the gauge-theoretic relationship between constraints and probabilities is more useful still, because we can understand now: (i) why surprisal or negative log-probability is the canonical choice of functional, via parallel transport, (ii) why parallel transport makes sense, via gauge covariance identities, and (iii) why there appears to be a force—a sort of metaphorical life-force, perhaps, and in fact, a gauge force—driving the mode-matching that underlies the control of probabilistic (Bayesian) beliefs under the FEP.

5.4 The duality of the FEP and the CMEP

5.4 FEP和CMEP的二元性

尽管没有明确涉及非平衡系统“21”,【注释21:但是,请注意,水平流动的任何方向都会破坏详细的平衡,从而使我们可以扩展CMEP至内斯密度。此外,请注意推断静态概率密度即使在平衡之外也是有效的,无论系统是最大化物理熵还是不是】。CMEP的构造使我们能够从FEP的技术中得出洞察力。我们现在回顾一些这种二元性的后果。

先前,我们说过对偶是精确的相反:它们从两个相反的角度看待一个情况;在这里,一个面向内部,从热浴朝向自组织粒子,另一个面向外部。关键在于:对偶对于从相反的观点讲述同样的故事。因此,最小化自由能的粒子在给定某种生成模型的情况下可以被理解为在特定约束下最大化熵。因此,我们在每种描述中都有行动功能的二元性。这就像是对自由能取反,将对数概率转换为约束,然后最大化结果而不是最小化它,如[6]中所讨论的那样;更普遍地,可以通过Legendre-Fenchel对偶来获得,并且我们的构造(从内部能量中减去熵以得到自由能)在这种情况下大致等同于该对偶。

还有另一个对偶——由于马尔可夫毯的对称性,我们可以交换内部和外部状态,并引入在约束下最大化熵作为关于系统假设身份的对偶陈述(即用其状态的流量约束来表达特定系统)。这两个附加条件,涉及行动功能和状态空间中流的形状,意味着我们可以用两种对偶方式为特定系统写下机械理论,在某些本体潜力或约束下:作为一个NESS密度,或作为主要包裹的一个部分。最大化自我熵——在一些特定约束下——等同于(在非常准确的对偶意义上)在某些生成模型下最小化变分自由能。约束包含了在CMEP下的系统性质;在几何上,它们是NESS势能的对偶,起着相同的核心作用。转而,约束作为扩散方程的势能,由熵的梯度上升确定;正如NESS密度作为由自由能下降确定的流的势能。最后,我们已经看到,约束塑造了推理过程的动力学,就像规范场与物质场相互作用时那样(即允许冗余和一些自由度,使得行动保持不变或稳定)。

因此,我们讨论了FEP的数学上更熟悉的表述,根据静态行动的补充原则(即CMEP)重新推导了FEP理论的结果。上述的直接结果是,正如FEP所描述的那样,自组织发生是由于熵的耗散,而不是尽管熵的存在。最大化熵的想法使我们能够说,生命实际上在统计上是受到第二定律的青睐。换句话说,尽管在熵存在的情况下自组织似乎存在着悖论,但宇宙鼓励有序性,因为一个地方的有序意味着另一个地方的更大的混乱(有关FEP的应用,见这里的论证:[4])。

这些约束可以用特定系统状态空间中的马尔可夫毯来表述,使它们等同于一个生成模型;但是,将其表述为对系统的存在性变量的约束也有明显的好处。在一个非常宏观的层面上,拥有特定的分区导致内部状态模拟外部状态的约束;因此,拥有毯子意味着某些约束,反之亦然,我们可以约束内部状态模拟外部状态。然而,这可以转化为一种等价的构造,强调了特定系统的内部状态必须的形式,即它们被约束为某种信念的最优参数,我们称之为本体潜力。因此,CMEP的表述使我们能够避免(至少部分)人们对状态空间中马尔可夫毯可能存在的哲学顾虑(例如[101]),但代价是计算上较难处理:为系统指定一套完整的存在性变量通常是一个困难的问题。

FEP和CMEP的对偶也阐明了如何解释当我们假设系统的力学有NESS解时,系统自主(主动和内部)状态流的两个组成部分。我们已经看到,给定一个NESS密度,特定系统的自我证明动态具有两个组成部分:一个耗散的、无旋的分量和一个螺旋的、无梯度的分量,二者共同决定了系统的推理动态。从FEP的角度来看,这种耗散分量可以被看作是向同步流形的“快速”流动[71](即,抵消快速的随机波动);同样,从CMEP的对偶视角来看,这可以被解释为是垂直提升到概率空间中[6];另请参见第4节。自主流的正交、螺旋分量可以被视为是同步流形上的慢速流动。

信息论的角度来看,人们也可以将螺旋流视为推断的预测成分,将耗散流视为更新项,它根据感知信息纠正了预测[71]。流的螺旋成分是推断的估计部分:它沿着可以等效地视为NESS势能的等值线或最大熵概率密度的等值集合。在规范理论的表述中,水平流沿着某条等值线构建了一部分概率密度。在没有随机波动的情况下,正是这些水平流支撑了FEP中的最小作用路径。最大熵推断对应于在统计流形上的这种水平移动,通常在FEP文献中被描述为一种推断,因为它围绕解的等值线转动,产生了整个状态空间上的后验分布。但这并不完全是根据概率更新的推理。正交的耗散流可以解读为“纠正”螺旋流的流动成分,根据感知状态引发的扰动。因此,它携带了有关外部状态的信息,这些信息被感知状态间接地编码。耗散流更直接地与推断相关联,并且与基于感知数据更新预测密切相关。它最终支撑了预期的内部状态(或内部模式)与预期的外部状态(或外部模式)之间的同步流形的存在,其存在实际上是FEP的核心。事实上,螺旋分量并不是获取贝叶斯力学所必需的,但可以指定它来从特定系统获取推理动态;参见[6, 5]。

6 The philosophy of Bayesian mechanics

本文旨在正式介绍贝叶斯力学领域以及其核心结果和技术。在本节中,我们利用前面的讨论来阐明一些其核心哲学承诺。我们提供以下警告:贝叶斯力学的哲学显然还在不断发展中;我们在这里只是勾勒了一些关键点。

6.1 Clarifying the epistemic status of the FEP

我们希望我们对贝叶斯力学的正式处理能够澄清有关自由能原理(FEP)的性质,以及它的认识论地位,以及它与贝叶斯力学故事中其他主要角色(特别是CMEP)的关系的问题。FEP有时被称为“理论”,这可能意味着它是一种经验理论,即它是一种容易直接验证或证伪的事物。自从它近20年前作为一个正式讨论对象引入文献以来,一整套相关工作已经涌现出来——最初它被呈现为一种理论(例如,[102, 73]中的“皮层功能理论”或“统一脑理论”)——围绕它出现了大量研究工作。FEP及其相关工作有时被讨论为一种新的物理分支(一种“特定的物理”[1];或一种“有情系统的物理”[80]),或者是一种自我校正的数学方法来对物理存在的各种系统进行类型化(一种“形式本体论”[104, 105])。所有这些观点都可以得到调和和解释。最近,[44]利用了科学建模哲学的资源,以引起我们对FEP本身的注意,正如我们在第2节中所称的,它是一种数学理论:一种没有特定经验内容的形式结构(即,没有具体的经验应用)。我们对这一讨论的贡献在于引起对贝叶斯力学中不同类型形式结构的注意。

总结一下:诸如自由能原理(FEP)、极大熵推断原理(CMEP)、诺特定理以及最小作用量原理等原理都是我们可以用来发展机械理论的数学结构(机械理论本身也是数学结构),用来模拟各种类别物理系统的动力学(物理系统本身也是数学结构)。换句话说,我们利用这些原理来推导系统的力学(一套运动方程),进而用来推导或解释动态。因此,原理是一种数学推理的一部分,可以发展成一种方法;也就是说,它可以系统地应用于特定情况,或多或少地产生成果。科学家使用这些原理来解释这些机械理论。如果力学是用来解释系统正在做什么的,以运动方程组的形式,那么原理就解释为什么。从这里出发,科学家利用机械理论进行特定应用。在大多数实际应用中(例如,在实验设置中),它们被用来理解特定的经验现象(特别是用来解释我们所称的它们的动态的经验现象)。当如此应用时,机械理论就成为了普通意义上的经验理论:形式主义的特定方面(例如,某个模型的参数和更新)与一些目标经验现象系统地相关联。因此,机械理论可以通过给组件特定的经验解释来进行实验验证。而实际的实验验证理论,更多地是关于评估某个数据集对某些模型提供的证据,而不是关于证伪某个具体的模型本身。此外,物理学的机械理论和原理能够对真实物理系统做出一些有趣的说明的事实——事实上,所有物理系统似乎都符合从这些原理中推导出的机械理论;参见,例如[81]——与这些原理的数学“真理”(即一致性)是不同的。

6.2 Elan vital and the FEP

本体潜能的概念赋予了甚至是简单的物理系统,比如岩石,一种弱的连贯性和对内部状态的“监控”(参见[67]中的粒子种类分类)。因此,自由能原理本身对于定义生命或意识等的界限并没有什么有启发性的说法。我们已经详细讨论了受限熵观点如何显示了自由能原理的普遍性。换句话说,自由能原理涵盖了一类广泛的对象作为特定系统的情况,包括适应性复杂系统如人类、更简单但仍然复杂的系统如形态发生结构和图灵图案,甚至是在某些可接受的时间尺度上处于平衡状态的完全简单、惰性结构,比如石头。由于明显的原因,那些没有结构或没有环境的物体,其中任何一个都不符合自由能原理,在一个极端存在——但是要对生命和非生命、有意识和无意识的区别做出任何结论,在这里提出的框架下,以及基于原则的理由,应该被视为不可能的

另一方面,最近在“无尺度认知”的框架下讨论了展现控制但我们通常不会描述为“认知”的适应性系统的确定性,其中论证了通过紧急动态生成的组织系统确实满足了某些认知的核心特性。换句话说,模式可以被视为对“自身”执行推理。我们无法在真正的认知和仅仅表现为“似乎”认知的动态之间构建一个有用的区分,但这些动态实际上归结为“纯粹”的物理学,这一结论概括了认知背景下自由能最小化原理的意义。关于一切被建模为执行某种推理的内容确实可以被理解为执行一种基本的推理(作为一种广义同步的形式),而不涉及关于“心智”和“认知”的形而上学的说法,这些规范性的陈述是恢复性的。

基于这一基础,我们可以问自由能原理是否因为对各种粒子都是虚真的而失去了一些解释力量。由大脑研究发端,自由能原理也适用于像石头这样的惰性物体,似乎令人不满意,而其基础对于大脑(或心智,或生命系统)并没有独特的见解。在我们看来,自由能原理并不一定对认知有特殊的说法,这在某种程度上是一种福音——认知应该像其他系统的更“先进”或更复杂的版本,并且不具备特殊的非物理内容。事实上,对认知和非认知系统、或生命和非生命系统之间的原则性区别的承诺,就是一种生命活力,其中学习、感知和行动的物质和规律不应该根植于与石头相同的物理定律,就好像它们提供了一种不同、更不可动摇的状态组织或连贯性[107]。事实上,本文提出了相反的观点:这样的理论应该用热力学术语重新解释,正如软物质和生物物理学的其他部分一样[17, 108, 105, 109]。因此,我们拒绝了这些隐含的二元论观点。正如在这些结果中多次提到的,自由能原理的虚无实际上是其普适性的结果,这使我们能够审视任何系统,并询问自由能原理对我们如何理解其动态的看法。这使我们朝着自组织系统的真正目的论前进[110],通过对自组织如何依赖于和被贝叶斯信念所捕捉的机械性理解。

6.3 On maps and territories在地图和领土上

成为模型”这一概念是贝叶斯力学的关键,特别是对于自由能原理(本质上可以称为“模型证据原理”)。就启发式而言,自由能原理表明,如果一个特定系统作为随时间变化的状态的凝聚中心存在,那么它必然涉及或实例化其环境的模型。一些人提出了这样的担忧,即自由能原理混淆了隐喻性的“地图”和“领土”(参见[111]进行讨论)。问题是:自由能原理本身是一个概率模型(或隐喻性的“地图”)来描述自组织系统;还是它意味着自组织系统本身是、携带或包含一个概率模型。换句话说,所讨论的模型是科学家部署的,还是自组织系统自行部署的?

通过简单地指出,可以解决这种担忧,即特定系统可以被解释为是自由能原理下的统计模型的两种方式,这涉及到公式中的两个核心概率密度函数:这些是生成模型和变分密度[7, 62, 111]。在第一种意义上,对于一个特定系统“成为模型”是一种简化的说法:这意味着该系统涉及或实例化了生成模型中的统计关系。正如我们所见,生成模型实际上只是一个特定系统的势函数或拉格朗日量(如果在路径上)。它是一个数学构造,可以接受具体的经验解释,作为特定系统的全面、联合动态的代表:即,一个将自主状态或路径与外部状态或路径耦合的机械理论。因此,在第一种解读中,一个特定系统是其环境的模型意味着我们可以将系统本身及其嵌入的环境视为涉及到生成模型中的关系。由于它们被描述为实例化这些关系,我们可以说该系统“是”生成模型,但要注意这是一种简化,并且不要混淆隐喻性的“地图”(我们的科学模型)和“领土”(目标系统)——至少在这个层面上不要混淆。

但是在贝叶斯力学中还存在着第二种“成为模型”的意义,也许是两者中最重要的意义,它授权了一种更强的再现主义解释。在某种意义上,自由能原理是一个关于“领土”某个特定部分的“地图”(一个科学模型,实际上是一个概率模型),它表现得“好像是一张地图”[111, 62]。与其说是重新实质化,正如一些人所提出的那样(例如,[112]),我们可能会说自由能原理部署了两个嵌套的建模层次:科学家或观察者的层次,以及被观察的自组织系统的层次。正如我们所说,鉴于特定的分割,我们可以将特定系统的内部状态或路径解释为对外部状态的(变分)密度的参数进行编码。因此,在自由能原理下,我们可以将系统的状态建模为对其与之耦合的一些事物的信念(q)。正如Alex B Kiefer曾经说过的(个人交流,2021年),根据自由能原理,自组织系统的最佳科学模型是将其建模为其嵌入环境的统计模型。在这个意义上,自由能原理从根本上采用了新型人工智能概念,即大脑-身体-环境系统是其自身最佳模型的观点。

6.4 Blanket-based epistemology

最后,值得注意的是,贝叶斯力学中蕴含着一种内在的认识论,这通过自由能原理(FEP)和条件最大熵原理(CMEP)都得到了证明[111]。自由能原理在其核心是一种计量(即测量理论)的陈述:它意味着在我们的物理宇宙中自组织系统的存在(或可以被建模为)一种测量[1]。而在其核心,测量是一种推理。自由能原理可以启发性地陈述为,存在就意味着不断为自己的存在产生证据——我们称之为自证明[79]。在物理宇宙中持续存在为系统提供了其自身存在的感知证据;而根据自由能原理,自组织发生是因为系统最小化自由能(即最小化预期数据,考虑到数据生成方式模型与感知数据之间的差异)。

自由能原理进一步暗示,从根本上说,无法有意义地区分系统的动力学实际上是否进行或实例化了近似的贝叶斯推理,以及它们是否仅仅“看起来好像”是如此——而不打破毯子本身。这对于测量自组织系统的科学家的观点以及自组织本身的观点都是正确的,并且通过自由能原理和条件最大熵原理之间的二元性进一步阐明了这一点。关键是,测量不是一个确定的过程:毕竟,测量是基于数据和先验信念进行的推断。这涉及到物理学的观测基础[113, 114]。如果没有这种测量和推断的能力,可以说,就根本不会有物理学。从某种意义上说,自由能原理捕捉了我们的认识困境,即需要从数据中进行推断以了解世界:它要求我们永远无法超越毯子。作为试图理解某些现象的科学家,我们永远无法摆脱仅仅推断背后的事实(即给定手头的不同类型数据,推断现象的内部状态或路径)。在自由能原理的术语中,从科学家作为我们自己特定分区的角度来看,我们只能访问我们的感知路径,即我们的测量,我们用它们来对生成我们数据的方式进行基于模型的推断。至少可以说,对于任何超越我们对它的代理关系的毯子的任何事物的陈述,更多地类似于形而上学而不是科学探究。

关键是,这种基于毯子的认识论的极简主义与Jaynes的最大熵原理的含义是完全一致的,这一原理正是关于从最大无知的角度对物理系统进行建模的。最大熵原理被用来制定一个概率密度,以尽可能少的假设来解释一些数据。最大熵原理说,在可能解释某些数据的一组分布中,熵最大(即最不具信息性的那个)的分布是“真实”的分布。同样地,而且是二元的、更正式地说,自由能原理说,给定一组感知状态或路径(即给定一些数据),真实的自主状态路径是预期具有最少自由能的路径(即最不令人惊讶的路径)。这种哲学上的二元性也在实践中得到了体现。使用条件最大熵原理的技术,我们可以创建关于一个特定系统的数学模型,其中我们占据的是环境系统或嵌入特定系统的外部观察者的视角。另一方面,使用自由能原理,我们也可以模拟一个特定系统如何从自己的角度测量自己和其环境[111]。因此,甚至在哲学上,自由能原理和条件最大熵原理实际上在本质上是同一事物的两个方面。因此,我们可以将自由能原理解读为一种信念物理学,因为它是一种允许我们为一种特定系统在信念空间中的映像制定机械理论的原则;而双重地,我们可以将条件最大熵原理解读为一种信念物理学,因为它是一种指定如何使用概率性信念更新的形式结构来模拟特定系统的原则。

7 Concluding remarks and future directions: towards G-theory

我们已经介绍了贝叶斯力学的最新发展。在一些初步讨论之后,我们回顾了自由能原理文献的核心结果,审视了FEP已被应用到的系统类型的三部分分类(对路径、具有NESS潜力的状态以及处于静止NESS的状态)。然后我们回顾了FEP和CMEP的二元性。我们发现可以构建CMEP的规范理论形式,这解释了为什么近似贝叶斯推理能够起作用,以及为什么一切看起来都好像在平均和随时间推移中成为其嵌入环境的模型(以及为什么这就像是消耗它一样,假设了一些与该过程的力学相关的表型一致性约束)。

我们现在简要讨论了贝叶斯力学研究的一个核心方向,重点放在构建一种数学理论上,这将扩展FEP和CMEP之间的二元性,以及更多。我们从FEP的路径式表述开始,指出为了对这些系统的力学做出更有意义的论述,我们可以用状态上的概率密度动态来表述。我们已经看到,对FEP的状态式表述是与CMEP成对的,后者是用状态来表述的。这一研究成果与该领域的其他工作一起,例如[36, 115],越来越多地表明,现有的智能和适应性物理学方法以一种非平凡的方式相互契合,就好像它们是尚未被发现的整体的部分一样。尽管目前仍处于早期阶段,并且仍未成熟,但我们已经开始看到一种复杂自组织系统的一般力学从这种融合中出现

G理论是我们给复杂自适应系统的一个更大的理论的名称,我们尚未完全理解,但这种理论的存在在这里所探讨的FEP和CMEP之间的二元性强烈暗示着。G理论这个名称类似于理论物理学中的M理论的一种致敬。M理论的存在最早是在1990年代推测的,作为已知弦理论的统一处理方式[116];当时已经知道特定版本的弦理论是彼此对偶的,而这个想法是必须存在一个基础理论,所有已知的弦理论都是其方面或组成部分。与M理论类似,读者应该注意,G理论中的“G”并没有特定的含义。如果迫切需要,作者可能会建议“规范”,或者可能会指出期望的自由能通常被表示为G。

暗示G理论的一个二元性是我们在本文中详细讨论的自由能原理和CMEP的密度动力学形式等价性。另一个,我们最近已经开始调查的[66],涉及到FEP的基于路径的表述和最大能级的等价性,这是将CMEP的形式主义扩展到路径或轨迹的熵路径集合的熵被称为“能级”[18];最大路径熵的公式被称为最大能级。

在这里,我们的讨论回到了原点。我们从讨论静止作用路径开始,然后从那里转移到了密度动力学表述(即状态上的概率密度),以查看在一些额外的假设参与时可以说些什么。现在我们可以从最大熵的最大化的角度回到路径。在进行中和未来的工作中,我们的目标是构建以下形式的关系,进一步将贝叶斯力学的构建二元化:

这里讨论的和在[6]中讨论的有关受限自熵和信念自由能之间的“关联”是图表中最左侧的一对映射。顶部的映射将最大熵泛化为最大能级,在[33, 58]中已经讨论过;自由能和期望自由能之间的关系在先前的几个地方已经讨论过,例如在[67, 117, 83]中,正如我们在第3节中讨论的那样。G理论的一个方面在上面的图表中有所体现。G理论的第一个案例将包括右侧的一张地图。

同时,还构造了其共轭,使得图表沿着虚线方向成立(该映射的存在在[91]中有所描述)。这将使我们能够进一步利用FEP和受限熵最小化之间的等价性。虽然其影响尚未完全明确,但这些技术将使我们能够为那些更容易用能级而不是惊讶和其变分自由能边界来表达的系统编写机械理论。这可能会成为一个非常重要的系统类别,因为许多生物系统似乎呈现出非平稳性,具有移动吸引子,具有混沌轨迹,或者至少在某些时间尺度上没有稳定状态密度。事实上,正如已经指出的[6],最大能级可能是形式上处理这类系统的更自然的环境。

总之,我们希望通过本文提供了对贝叶斯力学的有益介绍,并阐明了它涉及的核心概念和构造。我们已经看到,贝叶斯力学包括一系列工具和技术,使我们能够利用一个原则(即FEP或CMEP)来为看似在估计其感知状态原因的后验概率分布的随机系统编写机械理论。我们已经看到,贝叶斯力学专门针对具有特定分区的系统,该分区允许特定系统编码有关其特征的概率信念的参数,将其视为“其本身的系统”。因此,贝叶斯力学为我们提供了一个形式语言,用于模拟决定物理、特定系统形象在统计流形中如何移动的约束、力、场、流形和潜能。我们使用适用于它的系统类型的分类法回顾了文献中的主要FEP理论结果。我们还回顾了作为适用于物理学的科学建模的核心概念,以及力学和规范理论的核心构造。然后我们讨论了FEP和CMEP的二元性,这是贝叶斯力学的核心,并研究了这种二元性对贝叶斯力学和物理学更广泛的深远影响。我们对贝叶斯力学的最新发展和未来发展充满热情。贝叶斯力学的数学表述已经有了,但仍有许多工作要做。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-02-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CreateAMind 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档