接前面两篇
自由能AI认知框架优点123456
直觉理解变分自由能的目标函数
第三章从高层角度分析了主动推理

首先生命是无法用强化学习试错的,成本太高太高了。
我们从统计物理学的第一原则和有机体必须维持其存在的核心要求开始——也就是说,避免令人惊讶的状态——然后引入自由能的最小化作为这个问题的计算上易处理的解决方案。本章揭示了近似贝叶斯推理中变分自由能的最小化和模型证据(或自证)的最大化之间的形式等价,揭示了自由能和自适应系统的贝叶斯观点之间的联系。
通往积极推理的捷径始于这样一个前提:为了生存,任何生物都必须将自身维持在一组合适的偏好状态,同时避开环境中其他的非偏好状态。这些偏好状态首先是由特定生态位的进化适应定义的。然而,正如我们将在后面看到的,在高级生物中,这些也可以延伸到习得的认知目标。例如,为了生存,一条鱼必须呆在一个舒适区,这个舒适区对应于宇宙所有可能状态的一个小子集:它必须呆在水中。类似地,人类必须确保他们的内部状态(例如,体温和心率等生理变量)始终保持在可接受的范围内——否则他们会死亡(或者更准确地说,会变成其他东西,比如尸体)。这个可接受的范围或舒适区规定性地定义了某个事物必须处于的特征状态。
活生物体通过在许多层面上对其状态(例如体温)施加主动控制来解决这一基本生物学问题,这些层面包括从出汗(生理学)等自动调节机制到购买和消费饮料(心理学)等认知机制,再到分配空调系统(社会科学)等文化实践。
马尔可夫毯将适应系统的内部状态(即大脑活动)与环境的外部状态区分开来。此外,它确定了两个附加状态,标记为感觉状态和活动状态,它们形成了(统计上)分隔内部和外部状态的毯子。统计分离意味着,如果我们知道活动和感觉状态,外部状态不会提供关于内部状态的额外信息(反之亦然)。在动态环境中,这通常被解释为内部状态不能直接改变外部状态,但可以通过改变活动状态来替代。同样,外部状态不能直接改变内部状态,但可以通过改变感觉状态来间接改变内部状态。
这是对经典的行动-感知循环的重述,其中适应性系统及其环境可以(仅)通过行动和观察进行交互, 分别是。这种重新制定有两个主要好处。首先,它形式化了这样一个事实,即自适应系统的内部状态是独立于环境动态的,因此可以抵抗它们的影响。第二,它构建了自适应系统最小化其惊奇的方式:它突出了它们可以进入的内部、感觉和活动状态。具体来说,惊奇是相对于感觉状态来定义的,而内部和活动状态动力学是可以最小化感觉状态的惊奇的手段。
这里需要注意的关键点是,自适应系统的内部状态与外部状态有着形式上的联系。这是由于马尔科夫毯上的一种对称性,因为毯状态既影响也受毯状态的影响。这样做的结果是,在给定毯态的情况下,我们可以为内部和外部状态构造条件概率分布。因为这些都以相同的毯式状态为条件,我们可以将预期的内部和外部状态彼此关联起来。换句话说,平均来说,内部和外部状态获得了一种(广义的)同步性——就像我们预期的在木梁的两端各装一个钟摆一样。随着时间的推移,当它们同步时,通过光束的间接影响,每个钟摆都成为另一个钟摆的预测(惠更斯1673)。这意味着,如果我们可以写下外部和内部状态的独立分布,给定它们的马尔可夫毯,那么这两个状态就可以通过这个马尔可夫毯相互提供信息。
重要的是,主体的生成模型不能简单地模仿外部动力学(否则主体将简单地遵循外部耗散动力学)。相反,该模型还必须具体说明行为体存在的首选条件,或行为体为维持其存在而必须访问的状态区域,或在占领特征状态方面满足其存在的标准。这些偏好的状态(或观察)可以被指定为模型的先验——这意味着模型隐含地假设,如果它满足存在的标准,它的偏好(先验)感觉更有可能发生(即,不那么令人惊讶)。这意味着它有一种隐含的乐观偏见。这种乐观偏见对于主体来说是必要的,它超越了外部动力的简单复制,规定了支持其偏好或特征状态的活动状态。
一种更简洁地重新表述上述论点的方法是,任何适应系统都参与“自证”(Hohwy 2016)。这里的自证是指收集与内部模型一致(即提供证据)的感觉数据,从而最大化模型证据。
作为最小作用的哈密尔顿原则的意外最小化
生物——有着马尔科夫毯子——会随着时间的推移而持续存在,抵抗环境波动的分散效应。马尔科夫毯的持久性意味着毯状态的分布随时间保持不变。简而言之,这意味着任何感觉(或活动)状态与在这种分布下极有可能出现的区域的偏差,都必须通过状态的平均流动(这只是图3.1中流动的确定性部分)进行修正。用物理学家的话来表达,稳态下的随机(random)系统从事的动力学(平均而言)下降了一个能量函数(或哈密顿量),该能量函数可被解释为负对数证据或惊喜。这就像一个球从山顶的高引力势能滚下山坡,到盆地中的低能量。
保证小比例的感官状态被大概率占据,就相当于维持一个特定的熵。这是自组织系统的一个决定性特征,这一点早就被控制论所承认。
从生理学家的角度来看,惊奇最小化使体内平衡的概念正式化。当传感器值离开其最佳范围时,负反馈机制开始逆转这些偏差。从控制的角度来看,我们可以解释与一些期望的稳态概率密度相关的最优行为。换句话说,如果我们定义了一个偏好结果的分布,那么最优行为将涉及到系统向该分布的进化——以及维持该分布。
用控制论的说法只有一个设定点,不能学习或计划。主动推理旨在使用相同的解释装置来覆盖更复杂和适应性更强的系统。在这里,最简单和更复杂系统之间的差异可以归结为它们吸引子的不同形状——从固定点到日益复杂和流动的动力学。从这个角度来看,人们可以将活生物体理解为不断在过度稳定和过度分散之间寻求妥协——而主动推理旨在解释这种妥协是如何实现的。
推理、认知和随机动力学之间的关系
物理学家E. T. Jaynes有一个著名的观点,即推理、信息论和统计物理学是对同一事物的不同观点(Jaynes 1957)。

主动推理:理解行为和认知的新基础
在最优控制、强化学习和经济学等领域,行为的优化来自状态的价值函数,遵循贝尔曼方程(萨顿和巴尔托1998)。本质上,每个状态(或状态-动作对)都被赋予一个值,该值表示代理所处的状态有多好。状态(或状态-动作对)的值通常是通过反复试验来学习的,通过计算多少次——以及多少时间后——一个人从那些状态开始获得奖励。行为在于通过达到高价值状态来优化奖赏获取,从而利用历史学习。 相反,在主动推理中,行为是推理的结果,其优化是信念的函数。这个公式统一了(先验)信念和偏好的概念。如上所述,使用期望自由能的概念相当于赋予代理一个隐含的先验信念,即它将实现其偏好。因此,代理人对行动过程的偏好就变成了一种信念,即关于它期望在未来做什么和遇到什么——或者关于它将访问的状态的未来轨迹的信念。这用(先验)信念的概念取代了价值的概念。这显然是一个奇怪的举动,如果一个人有强化学习(价值和信念是分开的)或贝叶斯统计(信念不需要任何价值)的背景。然而,这是一个强有力的举措,至少有三个原因。
首先,它自动需要一个自洽的目的性(或目的论)行为过程模型,这类似于控制论公式。
第二,将行为视为信念(概率分布)的函数,会自动产生诸如信念程度和不确定性等概念。这些概念加强了适应行动的重要方面,但在贝尔曼公式中并不直接可用。出于同样的原因,这种公式在模拟顺序动态和流动行为方面提供了更多的灵活性,而这些行为很难根据状态的价值函数进行模拟(Friston、Daunizeau和Kiebel 2009)。
第三,在这个公式中,最优行为遵循统计物理中的最小作用量的哈密尔顿原理。事实上,主动推理这一观点更进了一步:行为是信念的函数:它还假设行为是一种能量函数——而主动推理者最有可能采取的行动是使自由能最小化的行动。一个深刻的结果是,生命体的行为符合汉密尔顿的最小作用原理:它们沿着阻力最小的路径前进,直到达到稳态(或状态轨迹),随机动力系统的行为就是例证(如图3.3所示)。这是一个基本假设,它将主动推理与基于贝尔曼公式的其他行为和认知理论区分开来。
简单概述一下我们在哈密顿物理和主动推理之间进行类比的意义是值得的。主动推理给行为科学和生命科学带来的进步,可以与牛顿力学中的拉格朗日和哈密顿公式相媲美。
在主动推理下创造论、控制论和预测论的调和
通过强调自由能最小化,主动推理统一并扩展了三个明显不相关的理论观点。
首先,主动推理与生命和认知的生成理论相一致,这些理论强调行为的自组织和与环境的自我生成相互作用,这确保了活生物体保持在可接受的范围内(Maturana和Varela 1980)。主动推理提供了一个正式的框架,解释了生物如何通过自组织一个统计结构(马尔科夫毯)来抵抗其状态的分散,这种统计结构提供了生物和环境之间的互惠交换,同时也分离(在某种意义上保护了生物和环境的完整性) 来自外部环境动力的有机体状态。
第二,主动推理与控制论是一致的,控制论将行为描述为目的性和目的论的。目的论意味着行为由一种机制进行内部调节,这种机制不断测试目标是否实现,如果没有实现,则引导纠正行动(Rosenblueth等人1943年,Wiener 1948年,Ashby 1952年,G. Miller等人1960年,Powers 1973年)。类似地,主动推理代理使用感知和动作来最小化首选状态和感知状态之间的差异。主动推理通过指定实际最小化的是主体可以测量的统计量——变化的自由能——提供了最小化过程的规范和可行的描述,该统计量在特定条件下对应于预测误差,或者预期和感知之间的差异。这意味着控制论控制的公式作为一个前瞻性的过程——这导致我们下一点。
第三,主动推理与将控制描述为基于环境模型的预期过程的理论相一致——可能在大脑中物理实现(Craik 1943)。主动推理假设主体使用(生成)模型来构建引导感知和行动的预测,并评估他们未来(和反事实)行动的可能性。这一假设与良好调节器定理(Conant和Ashby 1970年)是一致的,该定理认为,任何控制器都应该具有——或者是——一个良好的环境模型。主动推理根据(近似)贝叶斯推理和(变化的和预期的)自由能最小化,在严格的表征下调和这些基于模型的对大脑和行为的观点。此外,主动推理在很大程度上与观念运动理论一致,该理论认为行动始于想象过程,并且它是触发行动的(行动结果的)预测性表征——而不是像刺激-反应理论中那样的刺激(Skinner 1938)。
主动推理,从生命的出现到能动作用
主动推理从第一原则出发,展开它们来解释从最简单到最复杂形式的适应性和生命系统所表达的行为和认知。
自证代理(Hohwy 2016)。这些系统能够避免耗散,自我调节,并通过实现基本稳态过程提供的设定点而生存。这些系统可以产生复杂多样的行为形式,也可以有非常高的适应水平(就像在病毒的情况下已经很明显了)。一些可能具有分级生成模型,该模型允许推断在不同时间尺度上从更快(在较低分级级别)到更慢(在较高级别)变化的事件 —因此可以发展复杂的策略来处理他们所经历的事情。
熵侵蚀是永无止境的威胁,但生命体仍努力保持相对秩序(或负熵)、可控性和可预测性。这种主动追求秩序的最基本表现是生理动态平衡,关键的生理参数需要保持在可行的范围内。
预期自由能最小化的过程中,有趣的是,其中有两个符号相反的熵。 这些包括必须最大化的后验预测熵(给定一个选择,我对我会遇到什么结果有多不确定)——就像变分自由能中关于状态的信念一样——以及必须最小化的给定状态结果的条件熵(策略带来的模糊性)。在变分自由能最小化期间,当务之急是最大化(当前)信念的熵,而在期望自由能最大化期间,当务之急是选择最小化(未来)信念的模糊性的动作。这产生了认知、好奇、寻求新奇和信息搜寻行为,这些行为支持不确定性的解决或生成模型的改进——从长远来看,这反过来最小化了惊奇。
理论已经完善,欢迎一起开发。
参考:
生命主动推理的数学描述
回答薛定谔问题: 生命是什么?自由能公式
强化学习缺陷:如何用贝叶斯从错误中学习-安全及效率
新概率书 Structured Probabilistic Reasoning
用数学范畴定义生命的尝试
神经网络的一个底层结构缺陷
how we learn 第二章 人脑比机器强在哪?(长文)
自由能AI认知框架优点123456