前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >主动推理中的预测性规划与反事实学习

主动推理中的预测性规划与反事实学习

作者头像
CreateAMind
发布2024-07-05 11:11:46
发布2024-07-05 11:11:46
1370
举报
文章被收录于专栏:CreateAMind

On Predictive planning and counterfactual learning in active inference

在主动推理中的预测性规划与反事实学习

https://arxiv.org/abs/2403.12417

https://github.com/aswinpaul/aimmppcl_2023

摘要

在人工智能迅速发展的背景下,理解智能行为的基础变得越来越重要。主动推理被视为一种普遍的行为理论,提供了一种原则性的方法来探究规划和决策的复杂性基础。本文探讨了主动推理中基于“规划”和“从经验中学习”的两种决策制定方案。此外,我们还引入了一种混合模型,它在这些策略之间的数据复杂性权衡中导航,利用两者的优势来促进平衡的决策制定。我们在一个要求代理人适应性的挑战性网格世界场景中评估了我们提出的模型。此外,我们的模型提供了分析各种参数演变的机会,提供了宝贵的见解,并为智能决策提供了一个可解释的框架。

关键词:主动推理·决策制定·数据复杂性权衡·混合模型

相关基础两篇:

一个框架整合大脑理论 4.9 主动推理:快速计算实现有意义的行为

规范神经网络是执行主动推理

1 引言 定义并区分智能“代理人”与其体现的“环境”,然后环境向代理人提供反馈,对于建模智能行为至关重要。流行的方法,如强化学习(RL),大量使用包含代理人-环境循环的模型,这将问题归结为代理人在给定不确定环境中最大化奖励。

主动推理在神经科学中作为一个生物上合理的框架出现,与RL等其他当代方法相比,采用了不同的方法来建模智能行为。在主动推理框架中,代理在其一生中积累并最大化模型证据,以感知、学习和做出决策。然而,当代理人遇到与其生成(世界)模型相关的高“熵”观察(即意外观察)时,最大化模型证据变得具有挑战性。通过最小化观察熵的上限,即变分自由能量,可以实现最大化模型证据(或最小化遇到的观察的熵)这一看似难以解决的目标。鉴于这一一般基础,主动推理提供了在给定问题中定义生成模型结构的极好灵活性,并在各个领域引起了广泛关注

在本工作中,我们开发了一个基于主动推理的有效决策制定方案,通过结合“规划”和“从经验中学习”。在下一节对生成世界模型的一般介绍之后,我们将更仔细地审视主动推理中的决策制定方面。然后,我们总结了主动推理文献中的两种主导方法:第一种基于规划(第2.3.1节),第二种基于反事实学习(cf. 第2.3.2节)。我们比较了这两种现有主动推理方案的计算复杂性和数据效率(cf. 第3.2节),并提出了平衡这两种互补方案的混合或混合模型(第3.3节)。我们提出的混合模型不仅在要求适应性的环境中表现出色(见第3.5节),而且还提供了关于使用模型参数解释决策制定的见解(见第4.1节)。

2 方法

2.1 主动推理中的代理人-环境循环

生成模型是建立主动推理模型中的代理人-环境循环的核心。假设代理人持有对外部世界的缩小模型,使代理人能够预测外部动态和未来的观察。然后,代理人可以使用其可用的动作来追求未来的成果,确保生存。在本文中,我们坚持使用基于部分观察马尔可夫决策过程(POMDP)的生成模型。POMDP是马尔可夫决策过程(MDP)的一般情况,适用于在离散状态空间中建模随机系统。在下一节中,我们将提供基于POMDP的生成模型的具体细节。

2.2 基于POMDP的生成模型

在主动推理中,代理人学习外部状态的生成模型,并通过最小化变分自由能量来优化其决策。POMDP是建模离散状态空间环境的通用框架,在其中,似然和状态转移被表示为可处理的分类分布。因此,我们采用POMDP作为代理人的生成模型。基于POMDP的生成模型正式定义为一个有限集合的元组(S,O,B,A,D,E),其中:

变分F给出了关于状态和参数的适当后验期望。一些可选参数,取决于所使用的特定决策制定方案,包括:

这些用于参数化动作u的分布,并通过变分自由能量最小化来优化动作。更多细节将在后续章节中解释。

2.3主动推理中的决策方案

在主动推理中,决策制定被表述为最小化未来时间步的(预期)变分自由能量。这使得代理人能够部署规划观察,以最小化预期自由能量(EFE)。经典上,主动推理优化策略——即时间中的动作序列——而不是像Q学习那样的RL方法中的状态-动作映射,以选择最小化EFE的策略。然而,这种表述限制了代理人只能解决只有低维状态空间的环境。

随后对框架的改进包括最近的复杂推理方案,它使用递归形式的自由能量来减轻策略搜索的计算复杂性。提出的线性化规划方法称为动态规划在预期自由能量(DPEFE)中。这个DPEFE算法在类似于网格世界任务的环境中与基准强化学习方法如Dyna-Q相媲美。最近提出了一种DPEFE算法的一般化,称为“归纳推理”,以模拟代理人的“有意行为”。

另一项近期工作偏离了这种经典的预测规划方法,采用“从经验中学习”来确定最优决策。这项方案在数学上等同于伴随某些神经调节的突触可塑性的特定类神经网络。它使用反事实学习(本文中的CL方法)来基于环境反馈随时间累积“风险”的度量。最近出现的使用体外神经网络实验验证这项方案的工作。

以下是两种方案的关键算法细节:DPEFE方案在Sec.2.3.1中,CL方案在Sec.2.3.2中。这两种方案都是基于传统的POMDP提出的。

2.3.1 DPEFE方案和动作精度

本文中的DPEFE方案基于Paul等人[2021]的工作。该方案在Paul等人[2023]的论文中被推广到POMDP环境。使用的模型参数如第2.2节所述。DPEFE方案中的行动感知循环包括感知(即识别导致观察的状态)、规划、行动选择和学习模型参数。在本文中,所有环境都是完全可观察的,因为我们的重点是决策而不是感知,因此O = S。DPEFE方案中的动作选择实现如下:在使用动态规划(参见Paul等人[2023])评估未来观察的预期自由能(EFE,G)之后,代理评估选择动作u的概率分布:

这里,σ是经典的softmax函数,使得具有较小EFE的动作被选中的概率更大。动作精度参数(α)可以调整以提高/降低代理的动作选择置信度。有关EFE(G)的评估和DPEFE算法的详细描述,请参考Paul等人[2023](第5节)。2.3.2 CL方法和风险参数

在反事实学习(CL)方法中,代理不是直接尝试最小化EFE,而是学习一个状态-动作映射CL。这个状态-动作映射是通过一个由“风险”项Γt介导的更新方程学习的,如Isomura等人[2022]中所定义:

论文中定义的所有更新规则都可以从代理试图最小化(变分)自由能(等式3)相对于生成模型Paul等人[2023],Isomura等人[2022]的假设中推导出来。在本文的其余部分,我们将研究这两种方案——即DPEFE和CL方法——的性能,并考虑一种结合它们的方案。下一节将探讨这两种方案在给定环境中的表现。

3 结果

我们现在测试两种决策方案(DPEFE和CL)在基准环境中的性能,例如OpenAIGym的Cart Pole - v1(图1)。

3.1 Cart Pole - v1(OpenAI Gym任务)

在Cart Pole - v1环境中,代理通过横向移动小车来奖励平衡杆直立(在可接受的范围内)(图1(A))。当杆子或小车越过可接受的范围(杆子为±12度,小车为±2.4单位帧大小,图1(B))时,一个回合结束。这个问题本质上是自发的,不需要控制器的规划,代理必须对当前的小车和杆子的情况做出反应。然后,我们在一个变异的设置中测试主动推理,其中环境变异为一个更具挑战性的版本,杆和小车位置的接受范围减半(杆为±6度,小车为±1.2单位帧大小)。具有不同规划的主动推理代理的性能总结在图2(A)中。

正如预期的那样,CL方法代理优于其他主动推理方案(由于问题需要自发控制,支持状态-动作映射而非规划)。代理很快学会必要的状态-动作映射,并比其他基于规划的方案更有效地平衡杆子。我们在第100集环境变异后也观察到了这一点。CL方法代理在变异后的性能提升值得进一步研究;然而,这可以归因于变异后失败率增加导致的反馈频率增加。

在图2(B)中,我们看到了风险项(Γ)的演变。随着代理对环境了解得更多,风险Γ稳定在一个小于0.5的值。有趣的是,如图2(B)所示,当面临环境变异时,Γ的增加是预期的。风险降低行为与第100集后性能的提升相关,突出了主动推理框架的可解释性。接下来,我们在一个根本不同的环境中测试代理——迷宫任务——这需要对未来的规划。3.2 复杂迷宫任务和数据复杂性权衡为了比较两种代理在策略任务中的性能,我们模拟了标准网格世界任务中的性能,如图3(A)所示。这个网格问题的最优解决方案如图3(B)所示。这是一个复杂的网格世界,与过去文献中用于解决Sajid等人[2021]的网格世界任务相比,它并不简单,因为如果代理随机采取行动,而不是采取长度为47的最优路线,那么代理需要大约九千步才能到达目标状态。

性能是根据代理完成一个回合的速度来评估的(即,达到目标状态的回合长度(越低越好))。显示DPEFE和CL代理性能的模拟结果绘制在图4(A)中。这些结果表明,基于预测规划的DPEFE代理可以快速学习(即在十个回合内)导航这个网格。在模拟中,DPEFE代理使用的动作精度是α = 1,代入(4)。对于更高的动作精度(σ),代理倾向于以更低的步数导航,始终坚持最优动作。此外,我们观察到CL方法代理需要更长的时间来学习最优路径。这个结果(图4(A))表明,CL代理需要更多的环境经验(即更多的数据)来解决它。

在图4(B)中,我们比较了主要主动推理算法与决策规划相关的计算复杂性。与其他流行的主动推理方案Sajid等人[2021],Friston等人[2021]相比,DPEFE算法在计算上是高效的。请注意,该图还强调了CL方法没有与规划相关的计算复杂性。因此,很明显,CL方法代理在计算上比DPEFE代理更便宜,因为它没有规划组件。DPEFE代理的计算复杂性与支持规划深度(规划的时间范围,T)相关,如图4(B)所示。这展示了这两种方案之间的数据复杂性权衡。

这一认识促使我们走向一个混合模型,我们提议开发一个可以根据代理可用资源平衡这两种方案的代理。从神经生物学角度来看,这非常有意义,因为生物代理不断尝试平衡资源,以便根据他们已有的经验学习和规划未来。这个想法也与强化学习中经典的探索-利用困境Triche等人[2022]有关。

3.3 综合两种决策方法

为了使代理能够平衡其预测未来结果的能力和利用以往经验,我们在模型中引入了一个随经验演变的状态依赖偏差参数(β(s, t) ∈ [0, 1])。这一添加是基于这样一种假设:代理保持一种偏差感,量化其在特定状态下过去决策经验的信心。

当暴露于新环境中时,代理开始时对DEEFE(预测规划)和CL方案具有相等的偏差,由一个先验偏差参数βprior = 0.5表示。

在多个回合中,代理将获得两种决策模型的概率分布。这些分布使得代理能够在给定当前状态(s)下进行决策。在完全可观测的环境(MDP)中,s是已知的(即O = S,或A = I,即恒等映射)。在部分可观测情况下(POMDP),代理通过最小化变分自由能来从观测(o)中推断(隐藏的)状态(s)【Da Costa等人,2020;Sajid等人,2021】。

在状态估计的基础上,P(u|s)DPEFE和P(u|s)CL分别是用于DPEFE方案和CL方法决策采样的分布(详情见第2.3.1节和第2.3.2节)。

基于这些分布,代理现在可以利用它们的Shannon熵(H(X))来评估它们的“有用性”。这种度量是有益的,因为它代表了该分布在该状态(s)下对某一决策的“确信”程度。具体而言,如果代理对某一特定行动有信心,行动分布往往倾向于有利于这个自信行动的单一向量;因此,与不偏向任何行动的最大熵的均匀分布相比,这种分布的熵趋近于零。因而,通过比较这种量可以从不同方案中选择最有信心的策略。

基于这一观察,随着时间的推移,代理可以使用这一熵度量来更新β(s, t)的值如下:

3.4从变分自由能导出混合模型的更新方程

等式8和9可以从POMDP生成模型下的变分自由能最小化导出。混合模型的变分自由能定义为:

3.5混合模型在变异迷宫环境中的性能

现在,我们在类似环境中检验所提出的混合方案,该方案适用于具有不同规划能力的智能体(即不同的规划深度,N^3)。DPEFE方案的计算复杂度与规划时间范围(规划深度)成线性关系,即T,并且也适用于混合模型智能体(见图4)。因此,一个规划深度为N=50的智能体在规划时占用的计算资源是N=25智能体的两倍。

我们使用一个变化的网格环境来测试基于混合模型的智能体的性能。这种变化网格方案在图6中进行了说明。智能体从一个更容易访问的网格版本开始,最优路径为四步(图6,(A))。在300集数后,环境变化为前一节中显示的复杂网格版本(见图6 (B))。这种设置还使我们能够研究智能体对新环境变化的适应性。

性能总结在图7中。我们观察到,所有三个混合模型智能体(具有不同规划能力的智能体)在前十个集数内学会了导航更容易访问的网格(图7:A)。然而,当环境在第300集数变化为刚性网格时,智能体的学习表现与我们观察到的仅导航该网格时的表现相似,图7:B,(即,具有900个状态的复杂网格)。

我们还观察到,具有较高规划能力的智能体比其他两个智能体更快、更自信地学会了导航网格。这个结果表明,所提出的混合模型使智能体能够在主动推理框架中平衡两种决策方法。

人们认为生物体的大脑也采用机制来切换多种策略。我们的模型可能有助于揭示大脑中高效的决策机制及其神经基础,并开发计算效率高的仿生智能体。

4 讨论

4.1 主动推理模型的可解释性

所提出的混合模型(以及基于POMDP的生成模型)的额外优势在于,我们可以探测模型参数以理解智能体通过主动推理视角展示的智能行为的基础。依赖人工神经网络(ANNs)来扩展模型的Fountas等人[2020]在智能体如何做决策方面,尤其是面对不确定性时,具有有限的可解释性。

在图8:(A)中,我们可以探测模型中风险(Γt)的演变(与Isomura等人[2022]中定义的CL方法方案相关)。我们可以观察到,当简单网格呈现并解决时,模型的风险迅速趋向于零;然而,当面临环境变异时,风险又急剧上升。

同样,在图8:(B)中展示了平衡混合模型中DPEFE和CL方法的偏置参数的演变。在这里,我们也观察到智能体在具有更高规划能力时如何持续保持对DPEFE模型的更高偏置(即,与N = 25和N = 5的智能体相比,具有规划深度N = 50的智能体的偏置)。

我们应该注意到,即使在DPEFE智能体以T = 50进行规划时,偏置参数的值也永远不会超过0.5。在模拟中,我们从偏置β = 0.5开始,并根据(8)更新β。这表明智能体最终学会依赖混合模型的CL方案(即经验)。尽管如此,DPEFE组件(即规划)加速了学习并提高了性能,以助于决策制定。通过模型参数对智能体行为的这种可解释性洞察有助于研究自然/合成智能的基础。

4 结论

本文比较和对比了主动推理框架中的两种决策方案。观察了两种方法的优缺点后,我们在需要自发决策(倒立摆-v1)和战略决策(迷宫)的任务上检验了它们,从而测试了混合方法。这项工作中观察到的见解将有助于改进用于控制的算法,鉴于使用主动推理方案的兴奋情绪,Da Costa等人[2022]。

我们将对行为对参数的依赖性和在更具挑战性环境中模型扩展的详细分析留作未来的工作。与Fountas等人[2020]的结果中所辅助的ANNs(人工神经网络)模型进行系统比较也是一个有希望追求的方向。

5 软件说明

网格环境和智能体(DPEFE、CL和混合模型方案)是用Python自定义编写的。所有脚本可在以下链接获取:https://github.com/aswinpaul/aimmppcl_2023。

从机器人到AGI,从具身到可解释,从入门到应用实现的最全自由能原理资料

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CreateAMind 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档