Expected Free Energy-based Planning as Variational Inference
期望自由能规划:像变分推理那样思考
https://arxiv.org/pdf/2504.14898


摘要:
我们探讨了在不确定性条件下的规划问题,其中智能体必须选择不仅能够实现期望结果,还能减少不确定性的行动。传统方法通常将探索与利用视为独立的目标,缺乏统一的推理基础。基于自由能原理的主动推理提供了这样的基础,通过最小化预期自由能(EFE)——一种将效用与认知驱动力(如消除歧义和寻求新奇性)相结合的成本函数。然而,EFE最小化的计算负担一直是其可扩展性的重大障碍。本文中,我们表明,基于EFE的规划自然地源于对一个生成模型进行变分自由能泛函的最小化,该生成模型被扩展了偏好先验和认知先验。这一结果通过将不确定性条件下的规划本身视为一种变分推理形式,进一步强化了与自由能原理的理论一致性。我们的公式产生能够同时支持目标达成与信息获取的策略,并包含一个复杂性项,用以考虑有限的计算资源。这一统一框架连接并扩展了现有方法,使得主动推理智能体能够实现可扩展、资源感知的实现。
关键词:主动推理,有限理性,认知不确定性,预期自由能,自由能原理,规划即推理,策略优化,变分推理
1 引言
在不确定性条件下的规划是人工智能与认知神经科学中的一个基本挑战。智能体必须选择既能实现期望结果,又能减少环境不确定性的行动。经典方法——植根于强化学习与最优控制——通常通过价值函数估计或策略学习来优化长期效用(Sutton 和 Barto [2018],Bertsekas [2012])。然而,这些方法通常将奖励最大化(利用)与不确定性减少(探索)视为独立目标,依赖启发式方法在二者之间寻求平衡。此外,由于误差累积和维度灾难,它们在高维或长时程规划场景中往往表现不佳。
主动推理(Active Inference)提供了一种原则性的替代方案。它基于自由能原理(Free Energy Principle, FEP)¹,将感知、学习和动作选择视为推断过程,旨在最小化对“意外”(surprise)的变分上界(Friston [2010],Parr 等 [2022])。该框架的核心是预期自由能(Expected Free Energy, EFE),一种统一的目标函数,融合了工具性(目标导向)与认知性(信息寻求)成分(Friston 等 [2015])。最小化 EFE 所产生的行为能够同时追求偏好结果并解决不确定性,从而为探索–利用权衡提供理论基础的解决方案。
尽管前景广阔,基于 EFE 的规划在实际实现中仍面临巨大的计算负担(Kappen 等 [2012],Palmieri 等 [2022],van de Laar 等 [2024],Friston 等 [2021],Paul 等 [2024])。现有方法常诉诸近似手段,却削弱了其与 FEP 的一致性,尤其是 FEP 的核心主张——所有认知过程均源于变分自由能最小化。在本研究中,我们致力于解决这些局限。我们证明,基于 EFE 的规划可以被严格地表述为对一个扩展了偏好先验与认知先验的生成模型所进行的变分推断。我们的核心成果表明,最小化一个明确定义的变分自由能泛函,自然可导出同时整合目标导向行为、信息寻求探索与有限理性的策略。该表述增强了与 FEP 的完整理论一致性,并将主动推理与更广泛的“规划即推断”范式统一起来,为不确定性条件下的决策提供了一个可扩展且原则性的框架。
下一节将介绍 EFE 的形式化定义,并阐明其在不确定性规划中的理想特性。第 3 节回顾先前关于 EFE 最小化的研究,并指出当前方法的若干局限。本文的核心贡献——展示如何将 EFE 最小化重新表述为标准变分推断——将在第 4 节以形式化定理的形式呈现。文章最后讨论该定理的意义及其对构建可扩展主动推理智能体的相关性。
2 预期自由能成本函数
考虑一个由生成模型 p(y∣xθu)描述的智能体。² 在本文中,我们仅关注规划问题,因此我们将假设该模型预测的是未来观测序列。这种模型的一个典型例子是状态空间模型的展开(rollout),例如

其中 t表示当前时间步。在此模型中,y表示未来观测的序列,x表示(潜在)状态,θ包含模型参数,而 u指代策略,即一系列未来的动作(控制变量)。由于所有这些变量都是作为模型对未来进行展开(rollout)的一部分所定义的,因此它们都被视为未观测变量。由于公式 (1) 的设计目的是预测未来预期如何展开,我们称其为预测模型。
在模型 (1) 中,先验分布 p(u)可以理解为基于上下文数据得到的允许策略的经验分布。假设我们额外获得一个分布:

该分布描述了期望的未来状态,有时也被称为目标状态。规划的目标是推断出一个策略后验分布 q(u),使得若执行该策略,能够高效地引导智能体到达这些期望状态。³
在主动推理文献中,候选策略通过一个成本函数 G(u)进行评估,该函数称为预期自由能(Expected Free Energy),其定义如下:



3 相关工作
我们简要回顾近期为高效寻找最小化预期自由能(EFE)的策略所做出的努力。
在 Friston 等 [2021] 提出的复杂推理(Sophisticated Inference, SI)框架中,向 EFE 的表述中引入了一层递归信念建模。这使得智能体能够进行更深层次的规划,不仅考虑“如果我这么做会发生什么?”,还考虑“如果我这么做,我会相信会发生什么?”——从而实现对未来结果更丰富的内省式评估。
尽管这一概念上极具吸引力,但 SI 的计算实现依赖于对候选策略进行显式的树形搜索。随着规划时间跨度的增加,可能的策略序列数量呈组合式增长,导致对 EFE 的穷举评估变得越来越不可行。
为了解决这一可扩展性问题,Paul 等人提出了动态规划预期自由能(Dynamic Programming Expected Free Energy, DPEFE)框架(Paul 等 [2024])。该方法利用动态规划原理,递归地计算预期自由能,从而降低了长时程规划的计算成本。这种重构使主动推理智能体能够在更复杂的环境中高效规划,同时不牺牲理论严谨性。
然而,诸如复杂推理和基于动态规划的策略选择等方法存在一个概念上的局限:它们依赖于显式设计、人工构造的算法来完成策略选择。这与自由能原理(FEP)的理念相冲突,FEP 主张所有认知和行为过程都应源于变分自由能的自动、事件驱动的最小化。从这个角度来看,策略选择理想情况下应完全通过推理过程产生,而不是通过外部强加的算法程序。
采用“规划即推理”(Planning-as-Inference, PAI)视角的动机不仅在于其与 FEP 的哲学一致性,也源于实际考量。具体而言,策略选择应具备可中断性——即在任意时刻都能生成有效的近似结果——并且应能随可用计算资源的变化而平滑扩展。这些特性自然地体现在将策略选择嵌入因子图上的反应式消息传递机制中,其中每个局部消息逐步降低自由能(Bagaev 和 de Vries, 2023)。在这种框架下,计算具有内在的灵活性和分布式特性,中间解仍保持语义一致性。相比之下,基于过程代码(包含嵌套循环和条件判断)的算法方法缺乏这种可中断性和适应性,因此不适合实时或资源受限的场景。
PAI 框架最初由 Attias [2003] 提出,后由 Toussaint [2009] 和 Solway 与 Botvinick [2012] 进一步扩展,它将规划重新解释为一个概率推理问题:目标是推断出与先验偏好最一致的动作轨迹。这一视角使得可以使用近似推理技术(如变分推理和消息传递)来开发计算高效的规划算法。
然而,上述提到的 PAI 方法主要关注最大化期望效用,并未明确纳入认知价值,即减少不确定性的驱动力——这是基于 EFE 方法的一个关键特征。因此,它们在高度不确定或部分可观测环境中的适用性有限,因为缺乏一种原则性的信息寻求行为机制。
Palmieri 等 [2022] 提出了一种综合框架,通过因子图上的信念传播统一了估计与控制,特别强调路径规划应用。在此基础上,van de Laar 等 [2024] 扩展了 PAI 框架,将认知价值整合进策略评估过程,使智能体在规划过程中同时考虑期望效用和信息增益。具体而言,他们提出在对因子图未来(即计划)段进行推理时,通过减去一个互信息项来修改变分自由能(VFE)。这一调整使得反应式消息传递能够自然地同时考虑工具性价值和认知价值,从而提供一种可中断且完全局部的推理过程,用于评估候选策略。
与上述 PAI 方法相比,Van de Laar 和 Koudahl 提出的方法虽然其结果与 EFE 最小化一致,但也引入了一些概念和实践上的挑战。在概念上,根据因子图中计算位置的不同,在不同成本函数之间切换显得有些不优雅。这种二元划分破坏了所有自然推理过程背后统一目标函数的原则。在实践中,这增加了推理工具包的设计与实现复杂度:开发者现在必须为每个节点考虑两种不同的消息计算——一种用于标准推理,另一种用于规划——从而显著增加实现复杂度并降低模块性。
最后,在 FEP 社区之外、更多在强化学习文献中,Lázaro-Gredilla 等 [2024] 的近期工作为规划与推理之间的关系提供了引人注目的视角。与我们的方法类似,他们的研究突出了熵和信息寻求行为在规划中的作用。关键区别在于推理目标的表述方式:虽然 Lázaro-Gredilla 等 [2024] 展示了规划对应于在一个通用变分目标中对熵项进行特定加权,但我们引入了一个针对扩展了认知先验的生成模型的变分自由能泛函,从而自然地导出基于 EFE 的规划。
在下一节中,我们将发展一个不仅与 FEP 一致,而且解决了上述方法所存在的部分概念与实践局限性的 PAI 框架。
4 基于预期自由能的规划作为变分推理
本文的主要贡献由一个定理描述,我们将其方便地命名为“预期自由能定理”。

5 讨论 5.1 通过变分推理实现最优规划
从公式 (16c) 出发(见附录 A 中的证明),我们可以通过以下方式计算最优策略后验:

公式 (13) 并非新提出。在 Friston 等人 [2021] 的论文中,公式 2.1 已给出了一个类似的最优策略表达式。本文的主要贡献在于证明:由公式 (13) 给出的(先前已建立的)最优策略,可以通过对一个适当定义的自由能泛函 F[q] 进行标准的变分最小化而获得。
5.2 认知先验的解释

5.3 关于复杂性项 C(u)
在公式 (13) 中,P(u)和 G(u)分别反映了关于策略后验 q(u)的过去和未来信息。复杂性项 C(u)表示(推断出的)变分后验 q(yxθ∣u)与(理想的)贝叶斯后验 p(yxθ∣u)之间的差异(以 KL 散度形式表达)。
那么,C(u)是否仅仅是一个无法避免、且无益处的成本?因为与 P(u)和 G(u)不同,它并不提供关于有效策略的信息?并非如此。对 q的推理必须在特定情境下的具体平台上执行,该平台仅能访问有限的计算资源集合。例如,用于追踪交通中某辆特定汽车的可用资源可能因整体交通状况的复杂程度而异。有限计算资源的存在可被视为对推理过程的一种约束。
典型的推理约束包括对 q的平均场假设,以及对后验形式的假设(例如,即使 p(u)不是高斯分布,q(u)也必须是高斯分布)。延迟假设同样适用;例如,无论推理过程的状态如何,q(u)可能需要在 5 毫秒内完成计算。
尽管这些推理约束并未显式包含在目标函数 F[q]中(如公式 (8) 所示),但 C(u)项可以被理解为一种驱动力,旨在最小化这些推理约束带来的不可避免影响。换句话说,由于公式 (13) 中的复杂性项 C(u),最小化公式 (8) 的主动推理智能体是在给定一组约束条件下实现贝叶斯最优的规划者。我们建议读者参考 Şenöz 等 [2021],以了解如何在目标函数中明确表达推理约束。
5.4 合成主动推理智能体中的规划即推理(PAI)
我们在此讨论主动推理智能体内部的推理过程如何进行。考虑由以下公式给出的动态系统的生成模型:




5.5 朝着可扩展的合成主动推理迈进
本文所呈现的结果也可能为可扩展且节能的主动推理智能体铺平道路。特别是,我们探讨了如何将本文的主要定理扩展,以支持在因子图中单个节点层面进行消息计算。本节讨论勾勒出未来研究的一个有前景的方向。
在 De Vries [2023] 中,我们提出合成主动推理智能体的实现应遵循算法1中概述的流程。其核心思想是:推理过程不应依赖于任何人工设计的算法,而只需遵循一条指令——每当有机会最小化(变分)自由能时就做出响应,前提条件是智能体的能量预算允许。该过程应通过因子图中的反应式消息传递来实现,从而建立一个完全自主且分布式的推理机制。

图2:实现合成主动推理智能体的伪代码。详见第5.5节。
此处一个关键词是“响应任何机会”,它强调智能体(或在更细粒度的抽象层面上,因子图中的任意节点)仅应在存在可操作机会以最小化自由能时才进行计算。如果我们把“计算(并发送)一个变分消息”与“不计算(保持静默)”之间的选择解释为一种动作选择,那么这些选项对应的预期自由能(EFE)便可作为决策标准:只有当执行计算所对应的 EFE 低于不执行时的 EFE,消息才应被计算并发送。
“预期自由能定理”为此类动作选择的 EFE 评估打开了大门——通过在适当扩展的生成模型内执行标准的变分自由能最小化即可实现。因此,我们预见一种节能且完全自主的主动推理过程,其驱动力仅来自局部化的变分自由能最小化。在这一框架下,基于人工设计的树搜索剪枝算法将被一种自主运行的、贝叶斯最优的反应式推理过程所取代。原则上,像 RxInfer 这样的工具箱能够自动化实现这一过程(Bagaev 等 [2023])。
5.6 局限性
本研究也引出若干尚未解决的问题。虽然从理论上讲,可以通过在配备定制认知先验的生成模型上进行变分自由能(VFE)最小化,从而依据预期自由能(EFE)对策略备选方案进行排序,但目前的结果仍停留在概念层面:缺乏具体的实现细节,也尚未通过仿真实验进行验证。为简化数学表述,我们在变量中省略了时间索引;然而,在完整动态系统建模中显式引入时间维度,可能会带来额外的复杂性,值得进一步详细探讨。
此外,尽管公式(9)中的认知先验以闭式表达给出,但其实际实现与在线更新过程并不简单。例如,在因子图框架中,通过代表这些认知先验的节点进行消息传递,很可能需要预计算或近似策略。
总之,我们认为本文所提出的贡献,为一系列旨在在主动推理智能体中实现“规划即推理”(PAI)的研究提供了概念基础。
6 结论
我们提出了一种原则性的不确定性规划表述,即将预期自由能(EFE)最小化视为一个变分推理问题。我们的核心成果表明,基于 EFE 的策略优化自然地源于对一个扩展了偏好先验与认知先验的生成模型所定义的变分自由能泛函的最小化。这一表述恢复了与自由能原理(FEP)的理论一致性,解决了以往将规划与推理视为概念上独立操作所带来的挑战。
通过将所有推理过程(包括策略选择)都视为因子图中的消息传递,我们的框架支持可扩展、可中断且完全分布式的规划。这一视角不仅强化了主动推理的理论基础,也为利用反应式消息传递工具包实现实际应用打开了大门。这些成果为设计完全自组织、能够执行贝叶斯最优规划且无需依赖人工设计算法的合成主动推理智能体铺平了道路。




原文链接:https://arxiv.org/pdf/2504.14898