On the Minimal Theory of Consciousness Implicit in Active Inference
论主动推理中隐含的最小意识理论
https://arxiv.org/abs/2410.06633

摘要 主观体验的多面性对意识研究构成了挑战。传统的神经科学方法往往集中于孤立的方面,例如知觉意识或意识的整体状态,并围绕相关的经验范式和研究发现构建理论。因此,各种意识理论通常难以相互比较;事实上,这些理论旨在解释的现象之间可能几乎没有重叠。在此,我们采取一种不同的方法:从主动推理——一种将行为建模为(近似)贝叶斯推理的第一性原理框架——出发,逐步构建一种极简的意识理论,该理论源于在主动推理框架下推导出的计算模型的共同特征。我们回顾了一系列将主动推理模型应用于意识研究的成果,并论证所有这些模型都隐含着一小组理论承诺,这些承诺指向一种极简(且可检验)的意识理论。
1. 引言
意识体验是异质且多面的。初步来看,对意识的科学研究可分为三个相关(但在实践中很大程度上相互独立)的研究方向:对内容、状态和自我的研究(Seth, 2021)。意识的内容是主体所意识到的体验中的品质或元素(例如,一朵红花在绿色背景下的图像,或 freshly brewed coffee 的香气)。内容的研究通过控制物理刺激属性和意识的整体状态(如困倦),同时变化主观知觉来进行(Baars, 2002)。有意识的生物也具有不同的整体意识状态,这些状态通常通过行为评估(例如,通过格拉斯哥昏迷量表;Teasdale et al., 2014),对于评估意识障碍患者至关重要。这些状态包括植物状态、各种睡眠状态、正常清醒状态,或许还有谵妄或致幻状态(讨论见 Bayne et al 2016)。意识(至少在人类中)通常也伴随着某种形式的极小的和/或叙述性的自我意识(Gallagher, 2000),以及具身性、自我性和人格性的体验(Ciaunica et al., 2022; Seth, 2013; Seth & Tsakiris, 2018)。
大多数神经科学意识理论将这些现象中的某一部分作为其解释目标,并围绕相关的经验范式和研究发现构建理论(Seth & Bayne, 2022)。例如,全局工作空间理论(Baars, 2005; Baars et al., 2013)及其当代化身——全局神经元工作空间理论(Dehaene et al., 2011; Mashour et al., 2020),是围绕对比分析方法构建的,该方法将知觉内容的意识视为因变量;也就是说,改变参与者是否意识到由刺激引起的某个特定内容。意识的整体状态最初被视为一个背景条件(Dehaene et al., 2006),这使得全局神经元工作空间理论主要成为一种关于意识内容的理论。此后,该理论也被应用于通过麻醉操纵意识整体状态的实验(综述见 Mashour et al., 2020)。然而,最初认为意识状态是内容意识的背景条件,而非约束内容的上下文构造的假设,可以说在当代版本的理论中仍然存在(见 Bayne et al., 2016; Bayne & Carter, 2018)。高阶理论(Brown et al., 2019; Fleming, 2020; Lau & Rosenthal, 2011)同样主要是关于内容如何变得有意识的理论,并且迄今为止对意识内容与状态之间的关系保持沉默。类似地,作为另一个领先的意识理论,整合信息理论(Albantakis et al., 2023; Oizumi et al., 2014; Tononi et al., 2016)的发展明确旨在解决意识的难题(即,解释为什么某些物理结构产生主观体验而其他结构不产生)。整合信息理论完全从内在的角度来处理意识,从而低估了外显行为的作用,而外显行为可以说不仅在塑造我们意识到什么方面,而且在决定意识内容的定性特征方面都扮演着重要角色(O'Regan & Noë, 2001; Seth, 2014)。其他理论,如主观性的自我模型理论(Metzinger, 2004)或投射意识模型(Rudrauf et al., 2017),则专注于解释自我或第一人称视角的(看似)存在。除了上述引用的理论之外,还有其他意识理论,其中许多理论侧重于特定的解释目标和方法论方法。因此,这种状况构成了双重挑战:不仅意识理论之间难以——基于经验证据——进行裁决(Yaron et al., 2022),有时甚至不清楚这些理论是否旨在解释相同的经验数据(Seth & Bayne, 2022)。
本文中,我们并非从意识的一个或多个特定属性作为主要解释目标开始,而是从主动推理开始,这是一个将适应性行为建模为(近似)贝叶斯推理的框架,并询问我们是否能由此构建出一个意识理论。主动推理是在预测编码理论(Rao & Ballard, 1999; Srinivasan et al., 1982)和将大脑功能视为推理的'亥姆霍兹机'(Dayan et al., 1995)的背景下发展起来的,这些理论借鉴了统计学中变分推理和消息传递的进展(Beal, 2003; Wainwright & Jordan, 2008; Winn & Bishop, 2005)。该框架的新颖之处不在于提供独特的预测。事实上,计算神经科学及相关学科中许多替代性的但针对特定领域的规范建模框架,与主动推理一致或等价,但往往适用于更狭窄的上下文范围(Da Costa, Sajid, et al., 2020; Sajid, Ball, et al., 2021; Sajid, Da Costa, et al., 2021)。相反,主动推理的新颖之处在于其普遍性。在该框架下,通过最小化相同的自由能泛函(Parr et al., 2022),即变分自由能和期望自由能,可以对极其多样化的行为进行建模。实际上,主动推理框架已应用于认知和神经科学领域的各种现象,包括视觉搜索(Cullen et al., 2020; Mirza et al., 2018; Parr et al., 2021)以及语言的理解和生成(Friston, Parr, et al., 2020; Friston, Sajid, et al., 2020)等领域。由于这些现象都是在最小化相同目标函数(这些函数可以分解为一小组可解释的(准目的论的)术语)时出现的,主动推理使我们能够揭示跨不同感兴趣现象之间的共性和差异,而这些在一个通用性较差的建模框架中可能会被掩盖。因此,我们将论证,恰恰因为主动推理本身并非一个意识理论,它才能够公正地对待意识体验的多样属性(参见 Hohwy & Seth, 2020; Vilas et al., 2021)。我们的论点是,通过从一个用于建模适应性行为的通用框架出发,随着单个的意识现象(即意识科学中的经典范式)开始被一个单一的正式(即数学)公式所解释,一个意识理论的轮廓将自然而然地浮现出来。
实际上,在从主动推理构建一个极简意识理论的过程中,一个自然的初步步骤(已经在进行中)是利用该框架对意识科学领域中作为范例的个别现象进行建模。在开发了这样的模型之后,人们可以探索它们的计算特性和行为,并将每个模型中的变量和参数映射到正在建模的特定意识过程的现象学方面。然后,每个模型都成为理论的一个构建块,随着更多模型的积累,理论也随之发展。通过这种渐进的过程,一个成熟的主动推理意识理论可能会逐渐成形。因此,这个过程的一个关键组成部分在于识别那些在意识科学的不同现象中既具有解释力又具有系统性的模型之间共有的计算特性(Atkinson et al., 2000; Seth, 2009)。重要的是,与该理论最初极简的性质一致,我们将局限于讨论意识神经科学中研究充分的范式,并避免推测超出这些实验任务的意识的更一般功能(包括潜在的进化起源)。实际上,我们的方法与其说是关于意识的涌现(参见,例如,Fleming & Michel, 2024),不如说是关于一个表现出与意识相关现象的系统的属性。
本文旨在与两个目前很大程度上相互独立的关键受众对话:研究意识的实验神经科学家和认知科学家,以及在主动推理框架内工作的神经建模者和理论家。对于实验界,我们希望提供一份精确但易于理解的主动推理及其与意识关系的指南;特别强调该理论的经验承诺。对于从事主动推理研究但目前未涉足意识研究的理论家,我们希望强调该框架对意识的现成适用性,以及需要进一步理论和形式发展的领域。
我们在第2-3节开始,简要介绍主动推理建模框架,重点介绍将变分自由能和期望自由能分解为一小组具有目的论意义的术语。我们还介绍了支撑主动推理的生成模型架构的一般特征及其潜在的神经实现。这两节技术性最强,熟悉主动推理形式体系的读者可以跳过。我们鼓励不熟悉主动推理的读者坚持读完这两节。主动推理本质上是一个数学框架,为了精确地讨论它,我们必须使用相关的形式体系。第4节随后调查了与意识科学相关的建模文献,并提出了对现有模型的一个新颖扩展,使主动推理能够触及对意识整体状态的研究。最后,在第5节中,我们认为所有这些模型都隐含着一组假设和理论承诺,一旦使其明确,就会产生一个极简但在经验上富有成效的意识理论。为了使这个极简理论与实验之间的关系尽可能清晰,我们遵循意识科学哲学领域近期的工作(Negro, 2024),并通过拉卡托斯的'科学研究纲领'(Lakatos, 1968)的视角来讨论该理论及其经验承诺。
最后,我们指出本文的主要目的在于教学而非论战。也就是说,我们不会先论证其他竞争性意识理论的不足之处,然后将主动推理作为替代方案提出。相反,我们旨在对主动推理框架中隐含的(极简)意识理论提供一个积极的阐述。我们认为,最富有成效的前进方式是尽可能精确地阐明该理论的结构及其与经验数据的关系,以促进经验驱动的理论比较。
2. 变分自由能和期望自由能
一个维持其身体完整性的有机体,必须能够停留在与其存在相容的狭窄状态范围内(例如,对于哺乳动物来说,维持相对恒定的内部体温);这意味着有机体将把大部分时间花在一组相对受限的特征性状态中(Friston, 2013; Tschantz et al., 2020)。在主动推理下,这通过将有机体的表型解释为其生态位的生成模型(即,关于其感官输入如何产生的模型)来建模,该模型为与频繁占据状态(即,该种类有机体的特征性状态)相关的观察结果赋予高概率(Corcoran & Hohwy, 2018; Ramstead et al., 2020; Ramstead et al., 2018, 2020, 2021)。因此,感知-行动循环被视为一个优化问题,其中被极值化的主要目标函数——变分自由能——代表了有机体观察结果如何产生的生成模型的(对数)证据(Da Costa, Parr, et al., 2020)。关键在于,该生成模型包含一个先验信念,即当行动序列最小化期望自由能时,它们更合理。这意味着有两个目标函数需要考虑。具体来说,(负)变分自由能是对数模型证据的一个计算上易于处理的下界,而(负)期望自由能可以被认为是近似于期望的对数模型证据(Parr & Friston, 2018a)。最小化变分自由能使有机体获得了模型证据的近似值,可用于推断世界的隐藏状态并学习环境的各种统计量。然后,该模型中的信念可用于选择那些最小化期望自由能,从而使主体保持在其表型特征性状态(与其持续生存一致)的行动。这使得行为可以被解释为自我证明(Hohwy, 2016, 2020, 2021),即有机体采取行动来最大化其世界模型的证据。
构成这一自我证明过程的各个量至关重要,我们将依次审视它们。
变分自由能(公式1)是,在近似后验分布 (q) 下,近似后验的对数与生成模型 (p) 的对数(即观察结果 (o) 与其原因——或隐藏状态 (s) ——的联合概率)之间的期望差异。近似后验反映了在给定感官数据的情况下,对世界隐藏状态的推断结果。

变分自由能有两种关键的分解方式,每种都从互补的视角突显了其基本属性。方程1的第二行利用概率的乘积规则以及模型证据不依赖于隐藏状态这一事实(允许我们在第二项中省略期望算子),将变分自由能分解为两项:近似后验与真实后验之间的相对熵或KL散度,以及惊奇度或负的模型证据(即,对所有隐藏状态平均后的感官数据的概率)。KL散度总是大于或等于零,因此变分自由能总是大于或等于惊奇度(亦称惊异或自信息)。因此,变分自由能是惊奇度的一个上界,并且当近似后验与真实后验匹配时,它将等于惊奇度。
第一种分解在教学上有助于理解变分自由能的属性,但对于描述变分自由能如何被最小化并无用处。这是因为真实后验的值在计算上是棘手的,因此主体无法得知。在第三行中,我们将变分自由能分解为两项,复杂度和准确度,这两项在计算上都是易于处理的。复杂度是状态的后验近似与状态的先验(即,接收感官数据之前关于隐藏状态的信念)之间的KL散度,它衡量了先验与近似后验之间的差异。可以将其视为对信念更新幅度的一个正则化项。先验与近似后验之间的变化越大,复杂度越高。准确度是观测结果的期望对数似然(即,在每个隐藏状态下当前观测结果的概率)。因此,最小化变分自由能要求有机体在最大化准确度和最小化复杂度之间进行权衡。这是一个关键点。感官输入是嘈杂且模糊的;给定噪声数据,通过调整近似后验以拟合当前数据,总是可以提高准确度。然而,持续对后验进行大幅更改会大大降低模型泛化到新观察结果的能力。如果不惩罚(贝叶斯)信念的大幅更新,一个最大“准确”的模型将会过度拟合噪声,并需要不断修正 (Sengupta et al., 2013)。因此,最小化变分自由能确保主体具备对其感知世界的一个可泛化的解释或模型。
由于是自我组织的生物,主体必须选择那些平均而言能最小化变分自由能的行动 (Friston, Rigoli, Ognibene, Mathys, Fitzgerald & Pezzulo, 2015; Parr & Friston, 2019)。纯粹反应性的行动,如反射弧,可以通过采取行动使观测结果符合先验信念中编码的(内稳态或本体感觉的)设定点,从而在变分自由能最小化的框架下进行阐述 (Buckley et al., 2017; Tschantz et al., 2022)。然而,更复杂的行动或行动序列(即,策略)需要对未来观测结果进行某种形式的反事实计算(即,规划)。这种规划依赖于期望自由能(方程2),它将一个策略的可观测后果视为随机变量(因为它们尚未被观测到)。期望自由能对期望观测结果进行加权求和,以近似每个策略下行动的期望结果;故称“期望”自由能。我们可以将变分自由能视为期望自由能的一个特例,适用于当前时刻;即当观测结果已知且不依赖于未来行动时。
因此,根据主动推理,行动选择如同感知一样,是一个(将规划视为)推理的过程。关键在于,主体必须推断其最可能的行动过程 (Friston, et al 2017),而非推断最大化感官结果概率的隐藏状态。这里行动可以涵盖一切,从外显的身体运动(如眼跳)到内隐的心理活动(如注意力定向)。这种方案颠倒了通常用于建模行动选择的框架:它不是寻找能达到某种偏好状态的行动,而是首先假设主体将实现其偏好状态,然后推断到达该状态的最可能行动过程(参见 Millidge et al., 2020)。最可能的行动过程,就是那个能最小化合理策略的期望自由能的策略。
方程2的第二行展示了将期望自由能分解为其最直观的组成部分:风险、模糊性和新颖性。由于推导过程较为复杂,我们建议感兴趣的读者参考 (Da Costa, Parr, et al., 2020) 的附录。

第一项,风险,是特定策略下的观测结果预测后验与主体偏好观测结果(由 C 指定)之间的KL散度,后者包括了编码在主体表型中的内稳态设定点(讨论见 Smith, Ramstead, et al., 2021; Smith et al., 2022)。因此,较小的值表示在某个策略下预期的观测结果与主体认为最具表型特征或最有回报的观测结果之间具有更大的相似性。最小化此项的需要促进了目标寻求行为的偏好。第二项,模糊性,是似然(即隐藏状态与观测结果之间的映射)的期望(条件)熵。为了最小化模糊性项,主体将选择那些能使状态与观测结果之间映射更精确的策略(例如,在黑暗的房间里打开灯)。第三项,即最后一项,新颖性,是模型参数的后验分布(以状态、观测结果和策略为条件)与模型参数的边缘后验之间的期望KL散度。在此,我们针对似然分布的参数展示了这一点,用 A 表示(下面将要描述的分类似然矩阵上的狄利克雷先验的浓度参数),但类似的项也可以包含在其他参数中。新颖性衡量了在每个策略下预期由状态和观测结果所带来的关于生成模型参数的信念变化。因为新颖性是一个负项,为了最小化期望自由能,主体被驱使去最大化以观测结果和状态为条件的后验与边缘后验之间的差异,即寻找预期会导致关于模型参数的 posterior 信念发生最大变化的新的观测结果。这说明了支撑主动推理的双重要求:即,目标寻求和信息寻求,两者被包含在单一的目标函数之下。因此,最小化期望自由能要求主体在这些要求之间进行权衡;这意味着主体通过选择那些能在最小化风险(即最大化偏好)、最小化模糊性(即最大化关于状态的信息增益)和寻求新颖观测结果(即最大化关于参数的信息增益)之间达到最佳平衡的策略,来解决探索-利用困境 (Schwartenbeck et al., 2019)。关于期望自由能作为在给定先前行动和观测结果的情况下,主体控制下的状态的边缘似然的一种更一般的表述,请参见 (Da Costa et al., 2024)。
总之,配备了有限套自动行动(例如,简单的有机体或更复杂有机体的自动化子系统)的主体,可以通过最小化变分自由能来建模,即让有机体/主体采取行动,使观测结果与先验信念(例如,内稳态设定点;Buckley et al., 2017; Corcoran et al., 2020)一致。因此,变分自由能可用于在连续和离散生成模型中建模感知推理,以及在连续模型中建模简单的反射样行动。然而,一旦行动选择需要任何反事实计算的元素,我们就转向期望自由能 (Corcoran et al., 2020),它(通常)需要一个离散生成模型(通常是分类-狄利克雷模型;Koudahl et al., 2021)。
3. 生成模型、信念更新与神经动力学
当前主动推理的最前沿技术将大脑描绘成一个由相互作用的生成模型组成的层级“混合模型” (Friston et al., 2017; Parr et al., 2021, 2022; Parr & Friston, 2018c)。支撑低层感官推断的生成模型采用预测编码网络的形式,对连续量(如运动和对比度)进行推断。然后,连续的低层感官系统通过连接函数(将连续量映射到离散潜在变量)与更高层的离散生成模型(例如,部分可观测马尔可夫决策过程,POMDPs)进行接口,后者执行分类感官推断并选择离散的行动序列(即策略),这些策略随后(再次通过连接函数)被转换回连续的运动指令 (Parr & Friston, 2018c)。关于连续模型的教程式综述,请参见 Bogacz (2017) 和 Buckley et al, (2017)。关于离散模型的详细数学综述,请参见 Da Costa, Parr, et al, (2020);关于更易理解的教程式综述,请参见 Smith et al, (2022)。关于连续和离散模型的专著级论述,请参见 Parr et al., (2022)。
为了说明在主动推理下推导预测编码所依据的一般原理,这里我们回顾一下如何从变分自由能推导出一个单层预测编码网络,假设一个静态的生成模型和固定的先验 (Bogacz, 2017; Friston, 2005)。同样的原理也适用于动力学模型的推导 (Buckley et al., 2017),但需要相当多的形式化工具(例如,运动的广义坐标)。
为了得到变分自由能的一个易于处理的表达式,我们做出以下三个假设:1) 生成模型(即似然和先验)和近似后验是高斯分布;2) 变分自由能可以通过在后验均值周围的二阶泰勒级数展开(拉普拉斯近似)很好地近似;3) 方差是平稳的。事实上,这是对同一假设的三种不同表述方式。在这些假设下,(负)变分自由能的表达式简化为在后验众数处评估的生成模型的对数。





这为我们提供了一组三个常微分方程,描述了三个类神经元节点的行为,其动力学在变分自由能上进行梯度下降。这为我们提供了一个简单的神经元动力学模型,该模型近似于隐藏状态的后验分布。这些方程与皮层微回路之间的映射是一个正在进行的研究课题。然而,广义上讲,隐藏状态的动力学(在“期望节点”中实现)通常与皮层的深层相关联,这些深层横向投射到同一皮层层级浅层的误差节点,并向后投射到下级皮层层级浅层的误差节点。预测误差动力学(在“误差节点”中实现)通常与皮层的浅层相关联,这些浅层横向投射到同一皮层层级深层,并向前投射到该层级更高层的深层(图1a)。每个层级的期望节点作为其上一层的观测值,并作为其下一层的先验(综述和讨论见 Bastos et al., 2012; Hodson et al., 2023; Shipp, 2016; Walsh et al., 2020)。


与预测编码一样,感知推断的目标是通过最小化变分自由能,在给定一组观测结果的情况下推断出状态的(近似)后验分布。在这里,我们使用 Parr, Markovic, et al., (2019) 引入的(边缘)变分自由能的时间无关定义,并将生成模型写成矩阵形式。

同样,与预测编码类似,生成模型的反转是通过对变分自由能关于状态进行梯度下降来实现的。忽略常数项,方程8给出了边缘自由能梯度的表达式。



使用 softmax 函数(它是逻辑函数向向量的推广)来模拟平均放电率,是基于大规模脑动力学平均场模型中的一个假设,即一个神经元群体的平均放电率可以视为平均膜电位的一个 S 型函数 (Breakspear, 2017; Da Costa et al., 2021; Hopfield, 1982; Wilson & Cowan, 1972)。脑电图(EEG)研究中的事件相关电位(ERPs)以及颅内记录研究中的局部场电位,都被视为归一化放电率的时间导数(即变化率)。关于可能的神经实现的简要概述,见图 2b。深入的讨论和综述,请参见 Parr and Friston, (2018a)。

到目前为止,我们已经分别针对连续和离散感知推理的情况,推导出了两个用于最小化变分自由能的简单算法:每个算法在神经动力学方面都有直接的解释。然而,正如上文关于行动选择的概述,根据定义,我们尚未接收到(未来的)观测结果,因此必须通过最小化期望自由能(方程13)来选择策略。我们在下面以矩阵形式展示期望自由能,以突出生成模型组成部分与期望自由能组成部分之间的联系。


那么,针对单时间步策略的策略后验,就是期望自由能的一个简单 softmax 函数(方程14),这有效地将期望自由能转换为一个概率分布,下一个动作可以从该分布中采样得到。

这里,T 表示策略的未来时间范围。最小化期望自由能(的路径积分)的策略将具有最高的后验概率。然后,通过在每个时间步从策略后验中采样来选择动作。
4. 意识现象的计算模型
在概述了驱动感知-行动循环的关键量、连续(基于预测编码)和离散(基于POMDP)生成模型的结构,以及模型动力学与神经动力学测量指标(如事件相关电位和放电率)之间的关系之后,我们现在转向讨论以往采用主动推理对意识科学中典型任务进行建模的研究工作。总的来说,这些研究集中在意识内容和意识自我上。为简洁起见,我们专注于数值(即仿真)研究,而不涉及许多与意识神经科学相关的有价值的定性和概念模型(例如,Ciaunica et al., 2022; Safron, 2020; Seth & Tsakiris, 2018),以及主动推理所蕴含的意识形而上学的阐述(Friston, Wiese, et al., 2020; Ramstead et al., 2023)。关于本文未涉及内容的相关综述,请参见 (Nikolova et al., 2022; Ramstead et al., 2023; Rorot, 2021)。此外,我们注意到,尽管我们回顾的模型侧重于视觉和内感感官模态,但这种选择反映了对意识内容和意识自我的研究通常集中在视觉和内感上。这并不反映主动推理框架在其他感官模态适用性上的局限性。事实上,为了说明该框架的解释普遍性——并在本节末尾强调对意识状态的潜在应用——我们将扩展一个现有的关于听觉规律性意识处理的模型,以解释睡眠和麻醉状态下这种处理过程的中断。
4.1 意识内容模型
在前一节中,我们将感知-行动循环描述为一个迭代过程:1) 推断最能最小化变分自由能(为模型证据设置上界)的近似后验;2) 以最小化期望自由能(从而最大化模型证据)的方式对世界进行采样。这促使我们对意识科学中的几个关键现象进行视角转变。它提请人们注意在许多通常被认为主要是被动的感知现象中,主动采样和预期的作用。
从被动感知到主动感知的转变在双稳态感知模型中尤为突出。双稳态感知模型通常将感知切换视为噪声和/或适应驱动的振荡(例如 Moreno-Bote et al., 2007; Wilson, 2007),而不是至少在某种程度上由主体行动驱动的状态。例如,Parr et al, (2019) 提出了一个模型,涵盖了特克斯勒消退和双眼竞争的两种实例(图3a),该模型将意识内容的变化归因于策略驱动的后验信念精度的变化,这种变化是眼跳策略(在特克斯勒消退中)和注意策略(在双眼竞争中)的函数。特克斯勒消退是一种现象,当参与者被要求保持中央注视时,与外周呈现刺激相关的知觉会从意识中消失。双眼竞争发生在向每只眼睛呈现不协调刺激时:参与者体验到的不是刺激知觉的叠加,而是单一知觉之间的离散交替,仅有短暂的混合期。

在主动推理下,这种知觉交替通过将两个表面上平凡的观察结果纳入任务特定的生成模型来解释。首先,在一个变化莫测的世界中,主体对状态转移精度(即 B 矩阵精度)的估计绝不应完全确定(参见 Hohwy et al., 2016)。其次,感官输入的精度取决于中央凹的位置和/或注意力的焦点(通过使 A 矩阵的精度有条件地依赖于眼跳或注意状态来建模)。将这两个简单假设纳入生成模型,会通过期望自由能中的模糊性项产生知识性行为。在缺乏精确感官输入的情况下,关于视觉空间某位置感知内容的不确定性(预测熵)会累积,从而增加了那些能从该视觉空间部分获取信息性感官输入的策略(例如眼跳或注意策略)的知识价值。在特克斯勒消退的情况下,主体被迫保持中央注视,无法获取关于外周的精确保守信息。随着时间的推移,这通过基于不精确的状态转移和感官输入的迭代信念更新,驱使对应于视觉空间外周位置的状态后验趋于均匀分布。假设状态后验与意识内容之间存在对应关系,并将感知与高精度状态的混合相关联,这将导致刺激从意识中消退(我们在第5节讨论区分有意识和无意识状态的相关问题)。类似地,当主体被限制在(隐蔽的)注意策略之间进行选择时,双稳态感知中典型的知觉之间的离散切换从生成模型中涌现出来。这些注意策略会增强被注意刺激的精度(即 A 矩阵映射),但以牺牲未被注意刺激的精度为代价(参见注意的偏置竞争模型;Desimone, 1998)。主体接收到关于被注意刺激的精确信息,从而对被注意刺激的状态产生精确的后验;同时,由于无法获得关于未被注意刺激的精确信息,对未被注意刺激的状态后验则逐渐消散,趋于均匀分布。关键在于,随着不确定性的累积,通过期望自由能中的模糊性降低项,未被注意刺激在知识上变得逐渐有吸引力,从而驱动最终的注意策略切换。再次假设主体的状态后验与意识感知内容之间存在对应关系,这将导致依赖于注意的感知切换。
这种主动形式的双眼竞争模型巧妙地解释了几项实验结果,而这些结果在那些没有为策略选择等主体过程赋予明确角色的被动竞争模型中难以被容纳。具体来说,注意力缺失时竞争速度减慢 (Paffen et al., 2006; Zhang et al., 2011),以及奖励调节主导时长 (综述见 Safavi & Dayan, 2022),都可以被理解为期望自由能最小化的实例。如果知觉切换是由注意策略的切换驱动的,那么干扰任务存在时竞争速度减慢 (Paffen et al., 2006) 就可以解释为感官输入精度的降低——从而增加了主体从每只眼睛采样输入以达到精确状态后验所需的时间。类似地,对其中一个刺激增加奖励将以相加的方式最小化期望自由能的风险项,从而解释了奖励对竞争的偏倚效应 (Marx & Einhauser, 2015; Wilbertz & Sterzer, 2018)。此外,虽然在 Parr et al., (2019) 的原始论文中没有提出,但在附录1和图3b中,我们展示了该模型很容易解释莱维特定律 (Brascamp et al., 2015; Levelt, 1965)——这是一组简洁的命题,概括了刺激属性(例如,亮度对比度)与知觉主导时长之间的规律性关系。重要的是,除了追溯性地解释大量现有现象外,该模型还提供了一个关于奖励驱动下莱维特定律违反的经验预测(附录2),这很容易在人类心理物理学领域进行检验。关于将此建模策略扩展到内克尔立方体错觉——意识科学中另一个常用的双稳态范式——请参见 Novicky et al, (2023)。关于基于强化学习的相关方法,请参见 (Haas, 2021; Martin et al., 2021; Safavi & Dayan, 2022, 2024)。基于强化学习的模型与主动推理模型之间的确切关系将取决于目标函数和推理算法的选择 (Chou et al., 2025; Malekzadeh & Plataniotis, 2024; Tschantz, Millidge, et al., 2020)。原则上,这两种方法可能在形式上等价 (Da Costa et al., 2024; Da Costa, Sajid, et al., 2020)。正如我们在引言中强调的,在特定领域总是有可能推导出形式上等价或至少非常相似的模型。主动推理独特之处在于为策略选择中使用的目标函数(即期望自由能)提供了一个原则性的公式,它将知识驱动和奖励驱动置于一个共同的、信息论的度量标准之下,该度量标准在不同任务的模型之间共享。此外,它提供了一个神经元过程理论,允许人们将信念更新过程与神经元动力学和可塑性联系起来。
从已建立生成模型中模糊性的最小化转向新颖性最大化和参数学习,Parr & Friston (2018b) 提出,偏侧忽略——一种以患者忽略(即未意识到)视觉空间一侧(通常是左侧,在右半球损伤后)为特征的神经综合征——可以通过期望自由能新颖性成分的缺陷来解释。临床上,偏侧忽略通常通过眼动取消任务来评估,该任务要求患者圈出(即取消)一张纸上呈现的所有刺激。此时,有忽略症的患者将无法意识到视觉空间的一侧,并使得被忽略侧的刺激未被取消。为了对此建模,Parr 和 Friston 模拟了一个旨在模拟偏侧忽略临床测试的眼动取消任务。他们的模型使用一个网格来表示可能的眼动位置。在每次模拟开始时,所有位置都是新颖的(即参数确定性低),这驱使主体眼动到每个位置,并在此过程中积累每个位置 A 矩阵上的狄利克雷先验计数(降低了针对视觉空间“已取消”位置的眼动策略的期望自由能新颖性成分)。通过增加空间左侧的浓度参数来损伤隐藏状态与视觉结果之间的 A 矩阵映射,有效地模拟了背侧和腹侧注意网络之间的断开;消除了任何基于新颖性指向空间左侧的眼动策略的能力,从而模拟了视觉忽略的经验现象学(图3E-D)。
为了将主动推理与更广泛的意识神经关联研究联系起来,Whyte and Smith, (2021) 开发了一个两层 POMDP 模型来研究视觉意识。该模型将有意识知觉视为依赖于生成模型中不同层级之间精确后验的双向传播。重要的是,模型的第二层具有足够的时间深度来生成目标导向的行动(例如对视觉场景的主观报告),这些行动必然在比刺激呈现更长的时间尺度上展开。利用这个模型,他们模拟了 Dehaene et al, (2006) 通过经验得出的关于注意力、刺激强度和意识通达之间关系的分类学。通过操纵第一层隐藏状态与观测值之间的 A 矩阵精度(代表刺激强度和注意力之间的相互作用),他们复制了主观报告和神经关联的非线性缩放。与实证发现一致,报告刺激可见度的非线性增加与第二层的高放电率和类似 P3b 的事件相关电位相关联,类似于额顶叶区域的“点火”反应。Whyte and Smith (2021) 扩展了 Dehaene et al, (2006) 的分类学,将期望引入其中,预测在注意力存在且刺激远高于阈值的情况下,有效期望会降低 P3b 振幅,相比中性期望和无效期望条件。这一预测后来由 Schlossmacher et al, (2020) 独立证实。
关于意识神经关联的初步研究(包括构成 Whyte and Smith (2021) 建模的 Dehaene 分类学基础的工作)支持了这样一种观点,即前额叶皮层活动和晚期事件相关电位(例如 P3b)与有意识知觉密切相关,跨多种范式的研究报告了类似的结果 (Bisenius et al., 2015; Sergent et al., 2005)。然而,无报告范式 (Tsuchiya et al., 2015) 的出现挑战了这些发现。在这种条件下,前额叶皮层活动减弱或消失 (Brascamp et al., 2015; Frassle et al., 2014),并且像 P3b 这样的晚期事件相关电位(曾被认为是意识通达的指标)不再出现 (Cohen et al., 2020; Pitts et al., 2014; 另见图 3C)。这样的发现导致一些研究人员拒绝将前额叶皮层参与视为有意识知觉的必要条件 (Boly et al., 2017)。然而,重要的是,证据的钟摆已经开始摆回另一个方向,后续来自非人灵长类电生理学的证据表明,即使在没有报告的情况下,意识的内容也可以从前额叶皮层解码出来 (Kapoor et al., 2020),并且前额叶皮层活动的波动先于知觉切换 (Dwarakanath et al., 2020),这表明了其因果作用。为了调和这些发现,Whyte et al, (2022) 修改了他们先前的意识通达模型,使得报告的工作记忆要求被视为一种通过策略选择达成的心理行动。关于在工作记忆中维持哪些信息的可用策略,同时控制着第二层 A 矩阵(将第一层刺激状态映射到模型第二层)的精度(即对应于信息从视觉皮层选择进入工作记忆),以及第二层 B 矩阵的精度(对应于在工作记忆中自愿维持项目)。
Whyte 及其同事使用这个修改后的模型模拟了一项包含有报告和无报告条件的视觉掩蔽任务。这些模拟重现了报告条件下意识的神经关联,其中“有意识感知”的刺激伴随着模型第二层的高放电率和类似 P3b 的大幅事件相关电位。关键在于,Whyte et al, (2022) 能够通过在广泛的刺激精度(即 A 矩阵精度)范围内模拟任务,来评估模型中无报告情况下的刺激可见度,从而允许他们在模型第二层的后验概率与相应的报告频率之间构建一个映射。在无报告条件下模拟相同任务时,当模型不必提供其自身知觉状态的明确报告(因此不必在工作记忆中维持项目)时,他们发现模型表现出较低的第二层放电率(即前额叶活动减少),并且由于消息传递精度的降低,没有产生类似 P3b 的事件相关电位(图 3C)。然而,重要的是,模型第二层的后验概率仍远高于接近 100% 可报告性的阈值,这重现了关键发现:在没有报告的情况下,意识通达与前额叶活动减少和无晚期事件相关电位相关。
该模型做出了两个关键预测。第一,前额叶活动和晚期事件相关电位应根据报告指令而分离,因为强加报告要求意味着主体必须以目标导向的方式增加感觉皮层和前额叶皮层之间(以及前额叶皮层内部)传递的消息的精度;从而改变意识通达的神经关联。事实上,这正是在一项同时进行的脑电图-功能磁共振成像实验中观察到的结果。也就是说,当刺激是有意识的但与任务无关时,视觉区域有强烈激活,以及大幅 N170,但前额叶激活微弱且无 P3b。相反,当刺激是有意识的且与任务相关时,则有强烈的前额叶激活和大幅 P3b。该模型的第二个预测是,即使在无报告的情况下,前额叶和视觉皮层之间传递的双向消息的前馈成分也应包含关于意识内容的精确信息,这一预测随后被 Rowe et al, (2024) 证实。
4.2 意识自我模型
现在,我们从外感受意识模型转向元意识、内感受和情绪模型。在这些模型中,主体推断其自身的内部认知和身体状态,并据此做出策略决策。由于意识本质上是主观的,与自我相关的处理是意识科学的一个关键领域。它也是临床医生感兴趣的领域,因为对内感受性推断和策略决策的干扰与精神症状和现象学密切相关(例如,抑郁症中对自我效能的异常推断 (Barrett et al., 2016; Ramstead, Wiese, et al., 2023) 或反刍思维中 disrupted 的策略选择 (Hesp et al., 2020))。为了概念清晰,我们按主题而非时间顺序组织讨论。对相关方法感兴趣的读者,可参阅 (Ainley et al., 2016; Allen, 2020; Barrett & Bar, 2009; Barrett & Simmons, 2015; Critchley & Garfinkel, 2017; Theriault et al., 2021)。
基于 Seth (2013) 提出的内感受性推断是情绪内容基础的初步工作,以及后来 Stephan et al, (2016) 将内稳态和应变稳态失调与疲劳和抑郁联系起来的工作,Tschantz et al. (2022) 进行了一系列模拟,探究了不同生成模型结构解释内稳态和应变稳态过程的能力(参见 Corcoran et al., 2020)。对身体状态变化的反应性自主反应由一个预测编码网络建模,并通过将内稳态设定点条件于推断出的外感受状态,将其推广到简单形式的预期行动。关键在于,内感受性预测误差精度的改变影响了对内感受状态变化的敏感性,导致内稳态调节失败。下行本体感觉预测误差与上行内感受性预测误差之间的平衡,决定了主体是调整其对生理状态的先验信念,还是执行自主行动以使生理状态与设定点对齐。当上行感觉预测误差相
对于自主调整占优时——即,与预期的内感受数据相比,当前设定点的先验不够精确——会促使主体改变其对设定点本身的信念。这种自主调节的失败可能解释了自闭症等疾病中的矛盾感觉功能障碍 (Gu & FitzGerald, 2014),在这些疾病中,对感官输入的超敏反应与自主反应减弱和异常的应变稳态共存。最后,采用 POMDP 与预测编码网络接口,使模型能够解释目标导向的内感受控制,其中主体通过预期维持零体温的偏好(偏好的内稳态设定点)与预期体温之间的偏差来做出行动决策。
补充这一原理验证建模方法的见解,最近将主动推理模型拟合到经验数据的研究推断出各种疾病中内感受精度的 disrupted,包括抑郁症、焦虑症、饮食障碍和物质滥用障碍 (Smith et al., 2020)。值得注意的是,在一个心跳敲击任务中,最适合的模型(一个通过最小化变分自由能反转的简单隐马尔可夫模型)在患者样本面对屏气扰动时表现出未能调整内感受精度,而健康对照组成功地增加了他们的内感受精度。这一发现最近在一项预注册的大规模跨诊断样本研究 (Lavalley et al., 2024) 和一组健康对照组 (Smith, Kuplicki, Teed, et al., 2020) 中得到了重复。
在一项检验主动推理相关神经过程理论某些基本预测的重要研究中,Smith et al, (2021) 利用一种新颖的胃肠感知范式,让参与者报告通过可摄入振动胶囊传递到胃中的不同强度振动的存在(或不存在),同时用脑电图记录神经反应。检查最佳拟合模型参数(同样是一个简单的隐马尔可夫模型)发现了支持神经过程理论的证据。具体来说,尽管没有拟合反应时间或神经元反应,但内感受精度(A 矩阵精度)的增加与参与者的反应时间以及感觉(顶枕)电极上诱发反应的幅度呈正相关。
转向更认知的语境,Allen et al, (2022) 构建了一个心-视觉感觉整合模型,该模型在呈现唤醒或非唤醒视觉刺激时推断其心脏周期的相位(舒张期 vs. 收缩期)。根据刺激类型,模型推断其心脏策略,控制心脏周期之间的状态转换。反过来,心脏周期的隐藏状态控制着视觉 A 矩阵的精度。这个最小模型重现了几个原本不相关的经验发现。唤醒刺激导致即时的心率加速(防御性惊跳反射;Graham & Clifton, 1966),而对 A 矩阵映射的合成损伤(对应于内感受精度降低)产生了“心身幻觉”并增加了错误推断或元认知偏差(例如,Allen et al., 2016; Hauser et al., 2017)。支持该模型核心假设(即主体根据呈现的视觉刺激推断其心脏策略)的是,Corcoran et al., (2021) 发现,静息心率和(高频)心率变异性均随感觉模糊性的增加而降低。
将关于内感受、知觉和情境推断与情绪相关的理论和实证工作进行形式化,Smith et al, (2019) 表明,主动推理主体可以在“计算机模拟童年”过程中习得一系列情绪概念。特别是,每个主体从一个平坦的 A 矩阵开始,该矩阵映射隐藏的情绪状态(“情绪概念”)和内感受观察结果,并在数百次试验过程中,观察到唤醒度、效价和行为的内部感受观察结果与情境的外部感受观察结果的 conjunction,主体学会了隐藏情绪状态与内感受观察结果之间的映射。有趣的是,他们发现一个贫乏的“计算机模拟童年”(模型暴露的结果统计偏向于某一种特定情绪,如悲伤)会导致模型在后续的情绪推断任务中准确性降低,即使之后暴露于其他情绪也是如此。在一个类似但更侧重实证的背景下,Smith, Lane, et al. (2019) 使用一个分层模型来模拟情绪工作记忆任务中的推断。主体需要对两个连续的情绪状态进行分类,然后进行比较。引人注目的是,他们表明,即使在他们相对简单的模型中,也至少有七种不同的潜在神经机制能够产生情绪意识降低的表型。例如,当主体对非特征性身体状态有高先验期望时(如在某些形式的焦虑症中),它会可靠地将其自身的悲伤和恐慌内部状态误分类为疾病和心脏病发作。
在上面描述的两个模型中,效价被视为观察结果,而不是本身被推断的东西——鉴于解释目标是情绪推断(而非情感推断),这是一个合理的简化。为了补充这种处理方式,Hesp et al, (2021) 引入了一个情感推断模型,提出效价(部分地)是从其策略先验和后验之间的不匹配推断出来的。策略先验仅基于期望自由能(例如方程14),而后验则基于期望自由能和基于后续观测结果的事后信念。因此,从先验到后验的变化反映了一个预测误差,指示了新观测结果与每个策略下的先验期望之间的一致程度。然后,这个误差的方向被用作更高层模型中推断效价状态的观测结果。在这里,支持策略先验的低层观测结果促进积极效价,而与先验不一致的则促进消极效价。这种(奖励)预测误差或“情感电荷”此前已与相位性多巴胺释放相关联 (Friston et al., 2014; Schwartenbeck et al., 2015)。
同时,这种情感电荷被用来迭代更新期望自由能上的一个精度参数,效价状态充当其先验。在这里,消极效价状态和意外的观测结果都会降低这个精度,从而减少期望自由能后续对策略选择的影响。这种降低扮演了几个互补的角色。首先,它促进了概率匹配行为,如果对关于策略或计划的信念信心不足,这可能是适应性的。其次,如果指定了习得习惯(通常用 E 表示),它允许习惯产生更强的影响。最后,它优化了期望自由能对策略选择的相对影响。即,当策略后验下的期望模型证据高于策略先验下的期望模型证据时,情感电荷(和效价)为正,表明主体对其计划信心增加,从而相对于其他项提高了期望自由能的精度。相反,当策略先验下的期望模型证据高于策略后验下的期望模型证据时,效价会降低期望自由能的权重(即,它减少了风险、模糊性和新颖性对策略选择的贡献)。关键在于,由于两层模型允许效价状态充当关于策略精度的先验信念,主体可以情境化期望自由能对策略选择的贡献,从而提高了在反转学习任务中的表现。换句话说,通过给主体一个对其内部模型(关于行动与其产生的观察结果之间映射)应具有的信心程度的滚动估计,主体可以最优地权衡当前观察结果(变分自由能)和预期的未来观察结果(期望自由能)对策略选择的贡献。
Hesp等人工作中的深层参数推断形式后来被Sandved-Smith等人(2021)扩展,用于模拟一种元意识形式,这种元意识是专注→分心→觉察到分心→专注这一循环现象学的基础,而这在 contemplative 神经科学中常被研究。该模型的关键贡献在于,根据对A矩阵精度的层级控制,来刻画注意力、注意力的控制以及对注意力控制的意识。模型第一层的A矩阵精度(将感觉观察结果映射到隐藏状态)由主体在第二层的注意状态控制,第二层包含两个理想化状态:“专注”和“分心”。主体有一个偏好(对应于任务指令或目标状态)是维持自身处于专注状态,但通过一个不精确的第二层B矩阵,主体偶尔会 transition 到非专注状态。第二层的策略选择——心理行动——使主体能够重新定向其注意状态,一旦主体意识到自身处于非专注状态,便能 transition 回专注状态:这是许多 forms of contemplative practice 的一个关键方面。元意识则由第三层构成,该层反过来控制第二层意识状态的精度。
这第三层的隐藏状态包含两种状态:高元意识,它意味着高精度的第二层A矩阵;以及低元意识,它意味着低精度的第二层A矩阵(通过第二层到第三层的A矩阵映射实现)。作为原理验证,他们模拟了不同第三层注意状态下的简单听觉 oddball 任务,并表明在低元意识条件下,主体处于分心注意状态的时间比在高元意识条件下更长。事实上,与低知觉需求条件下心智游移增加的发现(Lin et al., 2016)一致,在低元意识状态下,主体仅在出现听觉 oddball 时才注意到从专注到分心的切换。换句话说,oddball 诱发了更大的预测误差——并导致更强的上行证据——迫使整个层级结构中关于隐藏状态的近似后验发生大的信念更新。重要的是,与上述旨在统一现有发现并产生新颖预测的模型不同,该模型的解释目标最好被理解为:为处于早期发展阶段、理论主要依靠口头定义且与经验数据充其量只有松散联系的研究领域提供概念清晰性。因此,这种类型的建模最好被视为一种计算概念分析,它是旨在统一现有结果或提供经验预测的建模的先决条件。
4.3 意识状态模型
迄今为止,主动推理模型尚未被应用于操纵意识状态的实验(但关于理论综述,请参见 Hobson and Friston (2012))。然而,重要的是,意识状态的操纵以感觉和运动分离为特征 (Cirelli & Tononi, 2023),这至少从表面上看非常适合用主动推理的语言来解释。例如,对于发生在较长时间尺度上的刺激模式 violation 的神经元反应,在睡眠和麻醉状态下会发生变化,而对于发生在较短时间尺度上的模式 violation 的反应则得以保留 (Boly et al., 2011; Dehaene et al., 2011)。为了强调主动推理的解释普遍性,在本节中,我们对 Smith et al, (2022) 中提出的听觉规律性感知的层级模型进行了简单扩展。我们展示了针对性的精度操纵如何重现以下发现:通常在清醒状态下与检测“全局”(长时间尺度)听觉模式 violation 相关的晚期 P3b 事件相关电位成分 (Bekinschtein et al., 2009),在非快速眼动睡眠和快速眼动睡眠状态下消失,而对“局部” violation 的事件相关电位响应则得以保留 (Strauss et al., 2015)。我们简要概述模型结构以 contextualise 结果,并建议感兴趣的读者参考 Smith et al, (2022) 获取模型的分步描述。
该模型包含两个层级(图 4a);第一层追踪听觉音调的即时变化,第二层追踪第一层的音调模式,推断整体试验类型(即,所有刺激是否具有相同的“标准”音调,或者是否存在“oddball”)。我们允许模型在 10 次试验的过程中在第二层 D 向量中累积浓度参数。在第 10 次试验中,音调要么符合预期试验类型,要么违反它。与实证发现一致,“全局”模式的 violation 在模型第二层诱发了类似 P3b 的大幅事件相关电位,而试验内“局部”期望的 violation 在模型第一层诱发了类似失匹配负波(MMN)的事件相关电位。基于非快速眼动睡眠和快速眼动睡眠是低肾上腺素能状态的发现 (Cirelli & Tononi, 2023),我们利用与主动推理相关的过程理论,对模型进行针对性操纵,旨在通过降低第二层 B 矩阵的精度(通过应用精度参数 𝝎 = 0.9 的 softmax 函数)来重现去甲肾上腺素的缺失,该参数在理论上 (Parr & Friston, 2017a, 2018a) 和实证上 (Vincent et al., 2019) 都与肾上腺素能张力相关。与实证发现一致 (Strauss et al., 2015),B 矩阵精度的降低消除了模型第二层的类似 P3b 的事件相关电位,但第一层的类似 MMN 的事件相关电位保持完好(图 4b)。由于第一层的动力学不依赖于逐步的动力学变化,因此第一层 B 矩阵的损伤对模型任一层级的事件相关电位都没有影响。


如上所述,该模型仅仅是对睡眠状态下晚期事件相关电位缺失的解释,其本身并不解释为什么参与者在睡眠的某些阶段会失去意识。然而,如果我们遵循前一节提出的论点——即意识通达需要一定程度的时间深度,以从感官输入的即时波动中抽象出来 (Friston, 2018; Friston et al., 2012; Whyte & Smith, 2021)——那么这里提供的模型也可能在算法层面解释了为什么非快速眼动睡眠与较少的梦境报告相关,表明意识缺失(我们将在第5节更详细地讨论在主动推理下什么使状态成为有意识而非无意识),以及为什么快速眼动睡眠的特征是更频繁的梦境报告,且现象学内容奇特且看似不连贯 (Hobson, 2009)。
具体来说,非快速眼动睡眠是一种低胆碱能状态,在主动推理下,这将通过降低 A 矩阵精度(即,连续层级之间的似然映射)导致生成模型各层级之间的连接中断。这将有效地使具有时间深度的层级“离线”,并极大地最小化信念更新,这可能对应非快速眼动睡眠中意识的显著减少或丧失。相比之下,快速眼动睡眠是一种高胆碱能状态,这将允许层级间的消息传递发生。关键在于,处于高胆碱能状态——同时感官约束不精确——且去甲肾上腺素能张力低的模型,将显示出隐藏状态之间的不精确转移(通过低 B 矩阵精度),这可能解释了快速眼动睡眠中梦境的奇特现象学。有趣的是,快速眼动睡眠行为障碍——通常被认为是帕金森病的前兆——表现为对这类梦境的 enactment,可能反映了未能平衡层级间的精度,尤其是在做梦期间未能抑制与本体感觉预测误差相关的精度 (Peever et al., 2014)。关于调节性神经递质与大脑中信念更新精度的简要综述,请参见 (Parr & Friston, 2017a)。
这个极简的例子清晰地说明了在主动推理下建模的典型策略:从一个定义足够明确的目标现象开始,以允许构建生成模型,然后基于经验和理论神经生物学的结合,模拟对模型进行旨在模仿实验操纵的针对性操纵。鉴于睡眠和麻醉剂的丰富神经生物学,如上所述,这种策略可以直接应用于对意识状态的实验操纵。当然,这里提出的模型只是跨意识状态神经动力学生成模型的一个例子。理想情况下,未来的工作将构建多个竞争模型并将其与经验数据进行比较。
5. 主动推理作为意识的极简理论
在本文开头,我们介绍了主动推理,并期望以此为基础构建一个意识理论,将针对意识不同方面的主动推理模型作为构建模块。在明确了该框架以及主动推理模型所提供的解释类型之后,我们现在来探讨这一期望。为了使理论结构及其与经验数据的关系尽可能清晰,我们遵循意识科学哲学领域近期的工作 (Negro, 2024),并借鉴拉卡托斯对“科学研究纲领”的阐述 (Lakatos, 1968)。在当代科学哲学家 (Godfrey-Smith, 2003) 中,这普遍被视为波普尔证伪主义纲领的继承者。
根据拉卡托斯 (1968) 的观点,研究纲领有两个组成部分:硬核和保护带。硬核由构成理论基础的一套基本概念组成,这些概念本身不需要直接可检验。相比之下,保护带由较不核心的概念和假设组成,当与硬核结合时,它们产生可检验的预测。如果一个研究纲领要生存下去,只能对其保护带进行修改。重要的是,所做的修改必须是进步的。也就是说,修改必须使理论更精确或扩展其解释范围,以增加其预测能力。然而,如果对理论的修改仅仅旨在解释掉 contradictory 的结果,而没有产生新的预测或贡献其他的解释优点,那么该研究纲领就被称为“退化的”,并可能最终需要被放弃。例如,整合信息理论 (Albantakis et al., 2023; Oizumi et al., 2014; Tononi et al., 2016) 的硬核由导致推导出 Phi 作为意识度量标准的那些公设构成。其外围则由使 Phi 可计算的桥接假设和近似构成。如果 Phi 不能可靠地与意识状态共变,那将是对整合信息理论的严重挑战。然而,重要的是,这并不会对整合信息理论造成致命打击,因为很可能是推导 Phi 的可计算近似值所依据的某个假设导致了失败,而不是理论硬核的失败。然后,研究纲领的健康状况将由整合信息理论以产生额外预测的方式改变保护带的能力来决定。
主动推理框架的核心是必须最小化两个目标函数:期望自由能和变分自由能。因此,这两个目标函数以及极值化它们的必然要求,必须被包含在任何基于主动推理的理论的硬核之中。这意味着所有行为,无论是有意识的还是无意识的,在某种极简意义上,都必须旨在最小化这些量(参见 Hohwy, 2021)。实现这一过程的神经元和计算方法,至少在目前,是理论保护带的一部分。
我们迈向意识理论所需的下一步,是在进入目标函数的量与意识体验之间建立联系。上述所有模型中都隐含的最极简的这种联系,存在于意识内容与被推断出的世界、身体和大脑的隐藏状态(即,状态的近似后验 q(s) )之间。因此,意识内容的所有变化必然源于对世界、身体或大脑推断状态的变化;这包括从没有意识内容到有意识内容的变化,如意识状态模型中的情况;也包括外感受和内感受内容的变化,如知觉、情绪和情感模型中的情况;还包括由大脑自身状态引起的内容变化,如元意识模型中的情况。这是一个极简的联系,因为它仅表明主动推理特有的那种选择性采样是意识内容变化的必要条件,而非充分条件。这个极简联系排除了意识变化可以在状态后验没有变化的情况下发生的可能性(但不排除后验变化可以在没有意识体验变化的情况下发生),并且与无意识生物表现出由主动推理支配的行为这一情况是一致的。
最后,为了使主动推理本身成为一个意识理论,而不仅仅是一个适应性行为理论,我们需要一个标准来区分有意识状态和无意识状态 (Doerig et al., 2021; Seth & Bayne, 2022)。用主动推理的语言来说,我们需要解释是什么使得某些后验信念是有意识的,而其他是无意识的。在此,我们再次审视在主动推理框架下推导出的意识内容计算模型中所作的假设。在上述所有模型中,与意识内容最对应的后验信念是那些驱动策略选择的信念,特别是那些驱动主观报告策略选择的信念。极简地说,主观报告背后的计算需要一个离散生成模型,该模型能够对世界的互斥、不同的状态进行推断。这些离散的备选状态也可以在混合模型内通过连续空间生成轨迹 (Friston et al., 2017)。缺乏这种反事实(离散)元素的连续生成模型可以驱动反射样行动,但主观报告所依赖的计算类型(例如,信心押注,或对存在与否的判断)明确是反事实的。因此,它们需要一个能够考虑一个或多个互斥备选方案的离散生成模型。重要的是,离散生成模型的深层以过慢的时间尺度演化,无法匹配知觉现象学 (Whyte & Smith, 2021)。因此,我们假定,意识/无意识的区分与意识通达的机制相关,并且它发生在离散-连续接口处,在那里,由感官即时变化驱动的连续后验信念被转换为可以驱动行动选择的离散格式。因此,一个后验信念要变得有意识,它必须发生在足够慢的时间尺度上,以便从直接的感官流中抽象出来,使其能够用于为反事实策略选择提供信息,并且还必须足够精确,以便可靠地区分世界的不同反事实状态。这与先前关于主动推理的哲学工作吻合得很好,该工作认为层级生成模型中意识通达的计算作用是迫使主体暂时确定关于世界隐藏状态的特定后验信念,以驱动行动选择 (Hohwy, 2013; Marchi & Hohwy, 2022; Whyte, 2019)。精度要求可以看作是意识体验由分化的、通常是互斥的知觉对象组成这一观察结果的计算模拟 (Canales-Johnson et al., 2017; Oizumi et al., 2014; Seth, 2021; Seth, 2014; Tononi, 1998)。关键在于,这也意味着不存在一个后验信念在哪个点上将可用于报告的硬性阈值。相反,意识通达的阈值将随任务要求和主体需要执行的决策类型而变化。此外,我们希望明确,我们并非声称成为反事实策略选择过程的目标才使得后验信念有意识。相反,是这种后验信念在适当的时间尺度上并以足够的精度为策略选择过程提供信息的(反事实意义上的)能力,才使其具有意识(参见意识的 dispositional 理论;Carruthers, 2003; Prinz, 2012)。我们认为这是人类(以及具有类似神经元架构的非人类动物)内容变得有意识的必要且充分条件,但对于与我们自身 vastly 不同的系统,我们对此条件是否既必要又充分保持不可知论。最能解释主观报告的决策标准的具体细节是一个 ongoing 的经验争论问题,最好将其视为理论保护带的一部分(关于可能的实现,请参见 Whyte et al., 2022)。关于现象学与反事实策略选择深度之间关系的讨论,请参见 (Seth, 2014)。
重要的是,理论硬核中包含的意识过程与主动推理之间的这些极简联系,应被视为发现和构建一个更全面的意识理论的基础构建块,该理论目前隐含在主动推理的外围。理论的前两个组成部分(最小化变分自由能和期望自由能的必然要求,以及意识知觉与状态后验之间的联系)在某种意义上是由主动推理框架的形式化机制逻辑上蕴含的。相比之下,硬核的第三个组成部分(意识通达发生在离散-连续接口处)是基于对研究意识所使用的典型实验范式进行建模所需的生成模型类型而得出的最佳解释推论。换句话说,尽管主动推理的基本设定中有一些暗示,但一个完整的意识理论需要的不仅仅是透过行动和知觉优化内部模型的原理。它必须指定模型本身的属性才能在科学上有用。发现的过程包括整合、测试和舍弃模型(包括上面回顾的那些),以及对现有模型的进一步改进(例如对双眼竞争和层级听觉处理模型所做的修改;见附录1-2)。然后,对这些模型的审视会丰富理论,指出哪些属性在对意识内容、自我和状态的解释中至关重要。
我们在此倡导的方法首先是一种开放式的理论构建和发现过程,只要它仍然是一个进步的研究纲领,并且在与其它意识理论争夺模型证据的竞赛中保持竞争力,理论构建就会不断被扩展和完善 (参见 Corcoran et al., 2023)。未来的关键发展将包括更详细地对更多意识现象进行建模,包括应用结构相似的模型来统一多样化的有意识和无意识现象。这体现在竞争和特克斯勒消退模型 (Parr, Corcoran, et al., 2019);以及用于适应无报告范式的注意力驱动知觉模型的层级扩展 (Whyte et al., 2022)。未来的工作还应研究结合了意识内容、自我和状态模型元素的模型的性能。此外,重要的是要完善针对特定类型现象学的概念模型(例如,情绪和情感、对象性、元认知;Barrett et al., 2016; Nikolova et al., 2022; Pezzulo et al., 2018; Seth, 2014; Seth et al., 2012; Seth & Friston, 2016),以提高计算的特异性并产生可检验的预测。
理论的保护带由允许编写和模拟意识现象的特定模型的形式化方法,以及将模拟结果映射到经验性行为和神经数据的假设所构成。这包括生成模型的结构、将生成模型以及状态和策略推断动力学映射到神经数据的过程理论,以及将模拟得出的量与报告的现象学联系起来的假设(例如,知觉的内容是否对应于后验的众数?和/或分布的精度是否有助于感官现象学?)。
当前的理论框架是刻意极简的,为主动推理理论家在经验或理论上未确定的问题上留下实质性分歧的空间。它也承认绝大部分解释工作将由理论的保护带完成,因此,它在很大程度上是开放给富有成效的修订和完善的(考虑到可能的生成模型结构的全部技能,以及模拟数据与经验数据之间过程理论映射的灵活性)。在单个生成模型的层面上,几乎总是可以制定大量候选模型,这些模型可以或多或少地解释相关的经验数据,在极端情况下甚至可能产生相互矛盾的预测。这是一个特性,而非缺陷,并且与主动推理作为一个建模框架是伴随着一套用于模型拟合和模型比较的变分(贝叶斯)方法一起发展起来的这一事实相辅相成 (Daunizeau, 2011; Friston et al., 2007; Zeidman et al., 2022)。这些方法使得在相互竞争的生成模型家族之间进行裁决成为可能,每个模型家族都体现了关于生成观察到的经验数据的过程的假设。因此,单个生成模型的开发和部署——以及主动推理作为意识理论的发展——是齐头并进的,为理论既能贡献于经验争论,又能与经验争论一起发展留下了空间。
例如,正如我们上面提到的,意识通达知觉状态的各种决策标准是一个 ongoing 讨论的问题,最近的证据指向一种潜在的元认知机制,该机制涉及对刺激存在与否的抽象推断,且独立于知觉空间本身的结构 (Dijkstra et al., 2023)。这种机制与先前提出的一个主动推理架构 (Whyte et al., 2022) 相反,后者通过一个与主体知觉空间结构明确相关的策略空间来模拟意识通达。目前的证据不足以在更普遍的环境中区分这两种假设,但如果意识通达确实依赖于一种独立于知觉状态空间结构的元认知决策,那么这将对此特定的主动推理模型构成重大(可能是无法克服的)挑战。然而,关键在于,模型的这一组成部分是特殊的,并非主动推理下生成模型结构的内在特征,这使得有可能构建尊重新发现的未来模型(并在此过程中,富有成效地将主动推理的解释范围扩展到元认知领域)。我们认为这种灵活性是理论的一个解释优点而非缺陷,并且鉴于意识科学处于早期阶段以及随着方法和数据质量的提高经验发现不断修订,这是完全合适的。
这些考虑因素留下了担忧,即主动推理可能过于灵活,无法作为一个意识理论富有成效地运作(而不仅仅是一个有用的建模框架)。或者,换句话说,理论的硬核与其保护带之间的联系留下了太多的自由度,以至于无法自身导向一个可识别的意识理论。然而,有两个关键考虑因素可以缓解这种担忧。首先,前面提到的对意识通达的主动推理模型进行潜在修订的例子,仅涉及在一个模型中修改关于主体策略空间的假设,因此并不代表对理论保护带的实质性打击。重要的是,并非所有假设都如此。不同模型共享由少量语义上可解释的量(即准确度、复杂度、风险、模糊性、新颖性)组成的目标函数这一事实,限制了可能促成特定行为的参数数量。例如,在对选择性注意进行建模时,刺激的显著性被归因于 A 矩阵的精度——这将通过期望自由能的知识性(最小化模糊性)成分对行为施加影响。这一假设几乎被所有涉及注意和视觉搜索角色的主动推理模型所共享 (Allen et al., 2019; Holmes et al., 2021; Mirza et al., 2018, 2018, 2019; Parr et al., 2021; Parr & Friston, 2017a, 2017b, 2018b; Whyte et al., 2022; Whyte & Smith, 2021)。因此,如果发现一个无法以这种方式建模的注意效应的例子,将对主动推理意识理论构成非常重大的打击,因为修订的影响将波及绝大多数现有模型。
第二个重要的考虑因素是,该理论实际上产生了定量和定性的预测。尽管这些预测并非直接源自硬核,但它们足够接近,以至于如果被发现是错误的,将需要对绝大多数建模研究中使用的桥接假设进行修订——即使是那些看似与意识科学无关的研究。这种修订将使该理论濒临成为退化研究纲领的危险 (Godfrey-Smith, 2003)。主动视觉中存在探索-利用权衡就是此类预测的一个定量例子。我们在(附录2)中给出了一个在双眼竞争背景下的明确例子。如果发现与刺激相关的奖励在与竞争刺激的知识性内容(例如,亮度对比度)在注意策略选择中不存在权衡关系,那么主动推理将受到严重挑战,因为期望自由能中风险与模糊性之间的权衡是理论硬核的基本组成部分。当然,这一预测很难直接检验,因为参与者在学习速率、悲观先验和对奖励关联的敏感性等方面存在个体差异。此外,注意力在早期视觉处理中起作用的程度仍不确定,这意味着在实践中,通常需要跨广泛实验进行最佳解释推断。然而,如果 robustly 的证据表明,跨参与者和实验范式(例如,双眼竞争和特克斯勒消退)的最佳拟合模型在选择注意策略时并不尊重预期的风险与模糊性之间的权衡,那么主动推理意识理论的可信度就会降低。因此,在某种意义上,主动推理建模框架——以及伴随它的模型拟合和比较工具——是严肃检验作为意识理论的主动推理的关键。这是一个有利的位置。模型拟合和比较的工具绝不假定用于推导被拟合模型的理论为真。在特定背景下,最佳拟合模型很可能是一个违反了主动推理意识理论核心原则的模型。
我们还可以从该理论中推导出第二个定性预测。具体来说,我们在上文指出,主动推理作为意识理论的一个核心承诺是,如果意识内容有任何变化,那么身体、大脑或世界的推断状态必须发生变化。该承诺的一个推论是,在缺乏感官(A 矩阵)精度的情况下,关于世界状态的后验信念不应从其先验轨迹上移动(例如,我们在脑海中默数数字的能力意味着我们可以基于从一个数字到下一个数字的转移先验来逐刻改变我们的后验信念,但我们不会期望在缺乏精确感官数据的情况下偏离这个数字轨迹),因此,意识内容不应改变。因此,该理论的一个方便的口号是“看见就是去看”(同样适用于其他感官模态,如“听见就是去听”,“感觉就是去触摸”等)。也就是说,有意识地知觉,就是在外显和内隐行动中,采用某种反事实策略选择过程所特有的精度分配。将感官模态的精度完全分配为零可能过于理想化,难以经验处理;然而,一个与理论核心相关的预测是,精度的降低将减弱信念更新;表现为意识内容的延迟变化。如果我们将精度的内源性分配与内隐和外显的注意政策联系起来 (Hohwy, 2012),这是整个主动视觉的主动推理模型中所做的假设,那么,在注意/眼跳策略选择中被赋予高精度的刺激,将比视网膜匹配但非眼跳目标的刺激更快地进入意识内容。这一预测也是主动推理作为意识理论所独有的,与其他可能更有针对性的意识理论(如全局工作空间理论或整合信息理论)形成对比,这些理论没有为行动赋予明确的角色,而在主动推理下,精度的分配是通过明确选择注意或眼跳策略来实现的。这种经验预测确实是一项对抗性合作的一部分,该合作旨在针对意识内容的被动预测处理理论和主动推理来检验整合信息理论(INTREPID CONSORTIUM, 2021; 项目编号 TWCF0646)。
最后,重要的是要注意,该理论的成功或失败并不完全取决于这两个接近核心的预测的成功与否。有可能这些预测得到验证,但主动推理作为意识理论仍然失败。事实上,该理论可能以各种不那么戏剧性的——我们猜测更有可能的——方式失败。例如,如果关键现象的主动推理模型过于复杂(从它们过度拟合特定的实验结果且不具泛化能力的意义上说),或者如果有意识和无意识知觉的模型看起来无法区分,或者如果不同意识现象的模型未能显示出一致的共性和差异,以至于该理论在统一性或独特解释方面提供的很少,这将表明一个退化的研究纲领。反过来,如果该理论最终被证明是成功的,我们期望最终能够用相对较少的一组模型来重现所有关键的意识和行为的神经关联,这些模型沿着少数维度变化,以反映报告的现象学和神经关联的差异和相似性。这也意味着解释方向的性质。神经和行为变量通过主动推理的解释工具映射到现象学(反之亦然)。
结论
在这里,我们认为,恰恰因为主动推理本身并非一个意识理论,它在当前意识理论方法中处于独特的位置,能够公正地对待以意识科学为旗帜所研究的现象的丰富性和多样性。关键在于,我们认为主动推理不仅仅是一个用于意识建模的框架。在意识科学的背景下,对这些模型的解释中所隐含的假设,蕴含着一套经验预测,如果这些预测被证明是错误的,将需要对在主动推理下构建的大多数模型进行修订。该理论的核心由感知中最小化变分自由能和策略选择中最小化期望自由能的必然要求构成,以及这样的猜想:意识的内容,包括外感受和内感受体验,以及大脑本身的状态,必须——以某种方式——对应于在连续感官计算和离散反事实策略选择过程接口处的世界推断状态。
对意识的科学研究归根结底是一门经验科学。如果主动推理要为我们提供一个有用的意识理论,那么将来之不易的理论见解转化为经验见解必须是优先事项。目前,在旨在概念澄清的抽象模型转化为对经验数据提供定性解释的模型方面,存在明显的瓶颈。反过来,将这些旨在定性解释和预测的更复杂的理论模型转化为可以与数据进行定量比较的极简模型也存在瓶颈。绝大部分解释工作仍有待完成。尽管如此,我们在此论证了理论的轮廓已经开始显现。因此,我们乐观地认为,主动推理作为一种意识理论,有足够的资源最终提供一组极简的模型,以解释和统一对意识内容、自我和状态的研究。
原文链接:https://arxiv.org/pdf/2410.06633