前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >系统比较RL与AIF

系统比较RL与AIF

作者头像
CreateAMind
发布2024-01-17 17:15:00
1430
发布2024-01-17 17:15:00
举报
文章被收录于专栏:CreateAMind

通过离散主动推理实现奖励最大化

摘要

主动推理是一种建模生物和人工智能代理行为的概率框架,源于最小化自由能的原则。近年来,该框架已成功应用于多种旨在最大化奖励的情境中,提供了与替代方法相媲美甚至有时更好的性能。在本文中,我们通过展示主动推理代理如何以及何时执行最大化奖励的最优操作,澄清了奖励最大化与主动推理之间的联系。确切地说,我们展示了在何种条件下主动推理产生贝尔曼方程的最优解,该方程是模型驱动的强化学习和控制的几种方法的基础。在部分观察到的马尔可夫决策过程中,标准的主动推理方案可以产生规划时域为1时的贝尔曼最优操作,但不能超越。相反,最近开发的递归主动推理方案(精细推理)可以在任何有限的时间范围内产生贝尔曼最优操作。我们通过讨论主动推理与强化学习之间更广泛的关系,补充了这一分析

关键词:生成模型;控制即推理;动态规划;贝尔曼最优性;基于模型的强化学习;离散时间随机最优控制;贝叶斯推理;马尔可夫决策过程

附录 A. 主动推理与强化学习 (正文在后面)

这篇论文探讨了主动推理如何解决随机控制问题。在这个附录中,我们讨论了主动推理和强化学习之间更广泛的关系。

粗略地说,强化学习是一组从数据中学习最大化奖励操作并在长期内寻求最大化奖励的方法和算法领域。由于强化学习是一个数据驱动的领域,算法是基于它们在基准问题上的表现而选择的。这产生了大量不同的算法,许多设计用于解决特定问题,每个算法都有其自己的优势和局限性。这使得强化学习很难作为一个整体进行表征。值得庆幸的是,许多基于模型的强化学习和控制方法可以追溯到对贝尔曼方程(Bellman and Dreyfus, 2015; Bertsekas and Shreve, 1996)的最优解的近似(尽管在高维度情况下这可能变得计算困难(Barto and Sutton, 1992))。我们的研究结果展示了在主动推理和强化学习方法下决策何时何地相似。

这个附录讨论了主动推理和强化学习更一般地关系和区别。他们的关系变得越来越重要,因为越来越多的研究已经开始:

1) 在模拟环境中比较主动推理和强化学习模型的性能(Cullen et al., 2018; Millidge, 2020; Sajid et al., 2021a),

2) 将主动推理应用于模拟人类在奖励学习任务中的行为(Smith et al., 2020d, 2021b,c, 2022b),

3) 在计算神经科学、心理学和精神病学中考虑它们各自提供的互补预测和解释(Cullen et al., 2018; Huys et al., 2012; Schwartenbeck et al., 2015a, 2019; Tschantz et al., 2020b)。

A.1 主动推理和强化学习的主要区别

哲学基础.

主动推理和强化学习在其哲学基础上存在明显差异。强化学习源于最大化奖励的规范原则(Barto and Sutton, 1992),而主动推理描述了系统如何随时间保持其结构完整性(Barp et al., 2022; Friston et al., 2022)。尽管存在这种差异,这些框架之间存在许多实际上的相似之处。例如,要记住,在主动推理中,行为完全由代理的偏好决定,这些偏好在其生成模型中作为先验确定。关键的是,对数先验可以解释为奖励函数,反之亦然,这就是强化学习和主动推理下的行为之间可以建立关系的方式

基于模型和无模型。主动推理代理始终体现其环境的生成(即前向)模型,而强化学习包括基于模型的算法和较简单的无模型算法。简而言之,“无模型”意味着代理学习一个基于更新缓存的状态-动作对值的最大化奖励映射,通过最初的不考虑未来状态转换的随机动作。相反,基于模型的强化学习算法尝试通过从数据中学习动态和奖励函数来扩展随机控制方法。要记住,随机控制借助于对在动态的手工制作的前向模型(即已知转移概率)上评估不同动作的策略,最终执行最大化奖励的动作。根据这个术语,所有的主动推理代理都是基于模型的。

建模探索.

探索行为——从长远来看可以提高奖励最大化——在两种方法中的实施方式不同。在大多数情况下,强化学习通过在决策中纳入随机性来实现简单的探索形式(Tokic & Palm, 2011;Wilson et al., 2014),其中随机性水平可能会或可能不会随着时间的推移而变化,作为不确定性的函数。在其他情况下,强化学习在奖励函数或其他决策目标中纳入临时信息奖励,以构建定向探索驱动(例如置信上限算法或汤普森采样)。相比之下,通过预期自由能中风险项和模糊项之间的相互作用,定向探索自然地出现在主动推理中(Da Costa 等人,2020;Schwartenbeck 等人,2019)。这解决了探索-利用困境,并赋予智能体人为的好奇心(Friston, Lin, et al., 2017;Schmidhuber, 2010;Schwartenbeck et al., 2019;Still & Precup, 2012),而不是需要添加特别信息奖励条款(Tokic & Palm,2011)。我们在附录 A.3 中详细阐述了这种关系。

控制和学习作为推理.

主动推理整合了状态估计、学习、决策制定和运动控制,其单一目标是最小化自由能(Da Costa et al., 2020)。实际上,主动推理扩展了先前关于推理和控制之间二元性的工作(Kappen et al., 2012; Rawlik et al., 2013; Todorov, 2008; Toussaint, 2009),通过近似推理(即规划作为推理)来解决运动控制问题(Attias, 2003; Botvinick and Toussaint, 2012; Friston et al., 2012, 2009; Millidge et al., 2020b)。因此,与主动推理最接近的一些强化学习方法是作为推理的控制,也称为最大熵强化学习(Levine, 2018b; Millidge et al., 2020b; Ziebart, 2010),尽管一个主要的区别在于决策制定目标的选择。泛泛而言,这些前述方法最小化期望自由能的风险术语,而主动推理还最小化模糊性。

主动推理的有用特性:

1. 主动推理在建模行为时具有很大的灵活性和透明度。它提供了可解释的决策制定,作为在生成模型中作为先验明确编码(并在期望自由能方面进行评估)的信息和寻求奖励的策略的混合,这些先验由用户指定(Da Costa et al., 2022a)。正如我们所见,可以产生的行为包括对贝尔曼方程的最优解。

2. 主动推理适应深层次的分层生成模型,结合离散和连续状态空间(Friston et al., 2017c, 2018; Parr et al., 2021)。

3. 在规划期间优化的期望自由能目标包含许多用于描述和模拟在物理、工程和生命科学中制定决策的方法,从而使其具有多种有趣的特性(图3和(Friston et al., 2021))。例如,探索性和开发性行为被规范性地集成在一起,这避免了在奖励函数中手动加入特定的探索奖励的需求(Da Costa et al., 2022b)。

4. 主动推理超越了传统强化学习中占主导地位的状态-动作策略,转向了顺序策略优化。在顺序策略优化中,放宽了在特定状态下相同动作是最优的假设,并承认动作的顺序可能很重要。这类似于(Todorov, 2007, 2009)提出的线性可解的MDP公式,其中转移概率直接确定动作,而最优策略指定了最小化某些离散成本的转移。这种方法处理策略的方式在探索方面可能是最明显的。简而言之,探索然后利用明显比相反的情况更好。因为期望自由能是信念的一个功能,所以探索成为决策制定的一个组成部分,与传统的强化学习方法相反,后者试图优化状态的奖励函数。换句话说,主动推理代理将进行探索,直到足够的不确定性被解决,以便开始占主导地位的奖励最大化和寻求目标的需要。

这些优势应激发未来的研究,以更好地表征这些特性提供有用优势的环境,比如在学习和规划多个时间尺度的性能受益的情境,并从选择解决状态和参数不确定性的策略中受益。

A.3 解决勘探-开发困境

Active inference和强化学习方案之间的一个重要区别是它们如何解决探索-开发困境。

探索-开发困境(Berger-Tal et al.,2014)在代理对其环境具有不完全信息时出现,例如当环境部分可观察时,或者必须学习生成模型时。困境在于决定是执行旨在基于对环境的不完全信息收集奖励的行动,还是执行旨在收集更多信息的行动,从而使代理在未来获得更多奖励。直觉上,总是最好先探索,然后再开发,但优化这种权衡可能很困难。Active inference通过最小化围绕最小化期望自由能的固有风险和不确定性来平衡探索和开发。这种平衡是依赖于上下文的,并且可以通过修改代理的偏好进行调整(Da Costa et al.,2022a)。反过来,期望自由能是从源自物理学的生物系统代理描述中获得的(Barp et al.,2022; Friston et al.,2022)。

现代强化学习算法以许多不同的方式集成了探索性和开发性行为。一种选择是通过好奇心驱动的奖励来鼓励探索。最大熵强化学习和控制即推理通过将决策最小化到目标分布的KL散度来做决策(Eysenbach和Levine,2019; Haarnoja等人,2017, 2018; Levine,2018a; Todorov,2008; Ziebart等人,2008),这将奖励最大化与对状态的最大熵相结合。这与MDP上的active inference相似(Millidge等人,2020b)。同样,无模型的SAC(Haarnoja等人,2018)算法最大化了预期奖励和熵。在连续控制环境中,这优于其他最先进的算法,并且已被证明比其最大化奖励的对应物更具样本效率(Haarnoja等人,2018)。Hyper Zintgraf等人(2021)提出了同时最大化奖励和最小化对外部状态和模型参数的不确定性。Bayes-adaptive RL(Guez等人,2013a,b; Ross等人,2008; Zintgraf等人,2020)提供了平衡探索和开发的策略,旨在最大化奖励。汤普森抽样提供了一种平衡利用当前知识以最大化即时性能和积累新信息以提高未来性能的方法(Russo等人,2017)。这归结为优化双重目标,即最大化奖励和信息增益,类似于POMDP上的active inference。在实证上,Sajid等人(2021a)证明了使用Thompson抽样的active inference代理和贝叶斯模型基RL代理在定义了对结果的偏好时表现出类似的行为。他们还强调,当从环境中完全删除奖励信号时,这两个代理都选择最大化某种信息增益的策略。

总的来说,这些方法在理论上和实践中在探索-开发困境中的差异仍然大多未被探讨。

A.2 奖励学习

鉴于将主动推理与最大化奖励的目标联系起来,值得简要说明主动推理如何从数据中学习奖励函数及其与代表性强化学习方法的潜在关系。主动推理学习奖励函数的一种常见方法(Smith et al., 2020d, 2022b)是对观测结果而不是状态进行偏好设定,这相当于假设对给定结果的状态推理是准确的。

即,每当达到自由能量最小值时,等式成立(16)。然后,设置偏好分布,使指定为奖励的观察结果最受偏好。在零温度极限(9)下,偏好只分配到最大化奖励的观察结果。这样表述时,奖励信号被视为感觉数据,而不是来自环境的单独信号。当将可行动作(可控状态转换)设置为完全确定性,以使每个动作的选择将确定地将代理转移到给定状态时,新出现的动态是这样的:代理选择动作以消除关于在每个状态下观察奖励的概率的不确定性。因此,学习可用动作的奖励概率相当于学习似然矩阵

其中A是随机矩阵。这是通过在A上设置先验a来完成的,即,一个非负分量的矩阵,其列是A列上的狄利克雷先验。然后,代理通过累积狄利克雷参数进行学习。明确地说,在试验或情节结束时,设置(Da Costa et al., 2020; Friston et al., 2016)

在(18)中,Q(sτ | o0:T)被视为状态空间S上的概率向量,对应于在整个试验期间收集观察后在时间τ处于一个或另一个状态的概率。这个规则简单地等同于计算观察到的状态-结果对数,当观察模态对应于奖励时,等同于状态-奖励对。

不应将这种方法与在似然矩阵中累积状态-观察计数的更新规则混淆。

并在计算概率时将其列归一化为总和为一。后者简单地通过累积观察到的状态-结果对数来近似似然矩阵A。这与上述方法不同,该方法对矩阵A的不确定性进行编码,作为对可能的分布P(ot | st)的概率分布。代理一开始对A非常不自信,这意味着它不会在P(ot | st)的任何规范上放置高概率质量。通过观察状态-观察(或状态-奖励)对,逐渐解决了这种不确定性。在计算上,Dirichlet先验的一般事实是,增加a的元素会导致P(ot | st)的熵减小。由于在(18)中添加的项始终为正,因此选择最能匹配可用数据和先验信念的P(ot | st)分布最终被确定下来。换句话说,学到了似然映射

累积状态-观察计数的更新规则(19)(即不包含Dirichlet先验)与Q-learning等离策略学习算法有些相似。在Q-learning中,目标是在给定当前观察到的状态的情况下找到最佳动作。为此,Q-learning代理累积对具有重复观察奖励/惩罚动作结果的状态-动作对的值 - 就像状态-观察计数一样。这使其能够学习定义奖励最大化策略的Q值函数。

在部分观察的环境中,我们不能保证实际上会学到真实的似然映射。有关在不同情况下学习似然性可能更多或更少成功的示例,请参见(Smith et al。,2019)。在状态推断不准确的情况下,例如使用过于严格的平均场逼近自由能(Blei et al。,2017; Parr et al。,2019; Tanaka, 1999),导致代理错误地推断状态,从而在错误的位置累积Dirichlet参数。直观地说,这相当于过于迅速得出结论。

备注19:如果需要,active inference中的奖励学习也可以等效地制定为学习转移概率P(st+1 | st, at)。在这种替代设置中(如(Sales et al。,2019)中所示),在A中奖励状态与奖励结果之间的映射被设置为身份矩阵,代理将学习过渡到在每个动作序列的选择下确定性生成首选(有奖励的)观察的状态的概率。每个动作下的转移概率以与上述相似的方式学习(18),通过在P(st+1 | st, at)上积累Dirichlet先验的计数。有关详细信息,请参见(Da Costa et al.,2020,附录)。

鉴于active inference的基于模型的贝叶斯公式,可以在上述描述的奖励学习的active inference方法和其他基于贝叶斯模型的RL方法之间建立更直接的联系。为了实现这样的联系,贝叶斯RL代理需要对先验(例如,对奖励函数先验或转移函数先验的先验)进行建模。通过汤普森抽样(Thompson sampling)(Ghavamzadeh et al。,2016; Russo and Van Roy, 2014, 2016; Russo et al。,2017)可以隐式地将这个过程纳入其中。虽然这不是本文的重点,但未来的工作可以进一步研究active inference中的奖励学习与基于模型的贝叶斯RL方案之间的联系。

简介:

引言

1.1 主动推理 主动推理是对生物和人工智能智能行为建模的规范框架。它通过数值积分运动方程来模拟行为,这些方程被认为描述了生物系统的行为,这是基于自由能原理的描述(Barp等,2022;Friston,2010;Friston等,2022;Ramstead等,2022)。主动推理包括一系列用于在连续和离散状态空间中建模感知、学习和决策的算法(Barp等,2022;Buckley等,2017;Da Costa等,2020;Friston等,2021、2010、2017c)。简而言之,构建主动推理代理包括:1)为代理装备一个(生成的)环境模型,2)通过近似贝叶斯推断通过最小化变分自由能来将模型拟合到观察中(即优化证据下界(Beal,2003;Bishop,2006;Blei等,2017;Jordan等,1998))和3)选择最小化期望自由能的动作,这是一种可以分解为风险(即预测路径与首选路径之间的分歧)和模糊性的数量,导致探索和利用行为的上下文特定组合(Millidge,2021;Schwartenbeck等,2019)。

这一框架已被用于模拟和解释神经科学(Adams等,2013;Parr,2019;Parr等,2021;Sajid等,2022)、心理学和精神病学(Smith等,2020a,b,d, 2021a,b,c,d, 2022b)、机器学习(Çatal等,2020;Fountas等,2020;Mazzaglia等,2021;Millidge,2020;Tschantz等,2019,2020a)和机器人学(Çatal等,2021;Lanillos等,2020;Oliver等,2021;Pezzato等,2020;Pio-Lopez等,2016;Sancaktar等,2020;Schneider等,2022)中的智能行为。

1.2 通过主动推理实现奖励最大化?相比之下,传统的模拟和解释智能行为的方法——随机最优控制(Bellman,1957;Bertsekas和Shreve,1996)和强化学习(RL;Barto和Sutton(1992))——源自执行动作以最大化奖励的规范原理,即评估世界每个状态提供的效用。这一思想可以追溯到期望效用理论(Von Neumann和Morgenstern,1944),这是对理性选择行为的经济模型,也支持博弈论(Von Neumann和Morgenstern,1944)和决策理论(Berger,1985;Dayan和Daw,2008)。一些实证研究表明,主动推理可以成功执行涉及奖励收集的任务,通常(但并非总是)显示出与强化学习相比的或优越的性能(Cullen等,2018;Marković等,2021;Mazzaglia等,2021;Millidge,2020;Paul等,2021;Sajid等,2021a;Smith等,2020d, 2021b,c, 2022b;van der Himst和Lanillos,2020),在与不稳定环境交互时表现出显著的改进(Marković等,2021;Sajid等,2021a)。鉴于奖励最大化的普遍性和历史渊源,我们提出一个问题:主动推理代理何时以及如何执行在奖励最大化方面的最优动作?

1.3 论文组织 在本文中,我们解释(并证明)主动推理代理何时以及如何表现出(Bellman)最优的奖励最大化行为。为此,我们首先将自己限制在最简单的问题上:在已知转移概率的有限时间马尔可夫决策过程(MDP)上最大化奖励——一个具有完整信息的顺序决策任务。在这种情况下,我们回顾了动态规划中的反向归纳算法,它是许多最优控制和基于模型的强化学习算法的核心。该算法提供了一个Bellman最优的状态-动作映射,这意味着它从奖励最大化的角度提供了经过证明的最优决策(第2节)。

然后,我们引入了有限时间MDP上的主动推理(第3节)——这是一个由感知作为推断组成的方案,然后是规划作为推断,它选择使未来状态最符合首选状态的动作。

在第4节中,我们展示了主动推理何时以及如何在MDP中最大化奖励。具体来说,当首选分布是对最大化奖励轨迹的(均匀混合的)Dirac分布时,根据主动推理选择动作序列最大化奖励(第4.1节)。然而,在它们的标准实现中,主动推理代理只能在计划一步之前选择最大化奖励的动作(第4.2节)。要在任何有限的时间范围内选择最大化奖励的动作,需要递归的、复杂的主动推理形式(第4.3节)。

在第5节中,我们介绍了部分可观察的有限时间马尔可夫决策过程上的主动推理,其中需要从观察中推断状态——并解释了从MDP设置到这种设置的结果的泛化。

我们的研究结果总结在第7节。

我们所有的分析都假设代理知道环境动态(即转移概率)和奖励函数。在附录A中,我们讨论了当这些最初未知时,主动推理代理如何学习他们的世界模型和有奖状态——以及主动推理与强化学习之间的更广泛关系。

。。。。。。。

6总结:

  1. 讨论 在本文中,我们研究了一种特定的最优性概念,即贝尔曼最优性;它被定义为选择行动以最大化未来期望奖励。我们演示了在已知转移概率和奖励函数的有限时间POMDPs上,主动推理何时以及如何实现贝尔曼最优。

这些结果突显了主动推理、随机控制和强化学习之间的重要关系,以及它们在何种条件下可能或不可能表现相似(例如,存在多条最大化奖励轨迹的环境,提供模糊观察等)。我们建议读者查阅附录A,以更广泛地讨论主动推理与强化学习之间的关系。

6.1 超越奖励最大化的决策 更广泛地,重要的是要问奖励最大化是否是支持智能决策的正确目标?这是决策神经科学的一个重要问题。也就是说,人类是否优化奖励信号、期望自由能或其他规划目标。通过基于经验数据对这些竞争假设的证据进行比较,可以解决这个问题(例如,参见(Smith et al., 2020d, 2021b,c, 2022b))。目前的经验证据表明,人类不是纯粹追求最大奖励的代理:他们还进行随机和有目的的探索(Daw et al., 2006; Gershman, 2018; Mirza et al., 2018; Schulz and Gershman, 2019; Wilson et al., 2014, 16 2021; Xu et al., 2021)并保持选择的开放性(Schwartenbeck et al., 2015b)。正如我们所阐述的,通过最小化期望自由能,主动推理实现了一种明确的有目的的探索形式。尽管在这里没有详细介绍,主动推理还可以通过从动作序列的后验信念中对动作进行采样来适应随机探索,而不是选择最有可能的动作,如表1和表2中所示。

需要注意的是,在奖励最大化任务中,有关支持并非仅仅追求最大奖励的模型的行为证据并不矛盾。相反,获取有关环境的信息(探索)通常有助于在长期内获取更多的奖励,而不是基于不完善知识贪婪地最大化奖励(Cullen et al., 2018; Sajid et al., 2021a)。这一观察结果并非新鲜,今天许多用于模拟适应性代理的方法与它们最大化奖励的前身有很大的不同(附录A.3)。

6.2 学习 当转移概率或奖励函数对代理未知时,问题就变成了强化学习(RL)的问题(Shoham et al., 2003),而不是随机控制。虽然我们在上面没有明确考虑它,但这种情况可以通过在生成模型中简单地添加一个先验并通过变分贝叶斯推断更新模型以最佳拟合观察到的数据来适应主动推理。根据具体的学习问题和生成模型结构,这可能涉及更新转移概率和/或目标分布 C。在POMDPs中,它还可以涉及在每个状态下更新观察的概率。有关通过主动推理进行奖励学习并与代表性RL方法的关联的讨论,请参阅附录A.2,以及(Da Costa et al., 2020; Friston et al., 2016)关于通过主动推理学习转移概率。

6.3 主动推理的扩展 在总体上比较RL和主动推理方法时,主动推理面临的一个突出问题是是否可以扩展到解决机器学习上当前由RL处理的更复杂的问题(Çatal et al., 2020, 2021; Fountas et al., 2020; Mazzaglia et al., 2021; Millidge, 2020; Tschantz et al., 2019)。这是一个积极研究的领域。在这方面的一个重要问题是通过评估所有或许多可能的动作序列来提前规划在许多应用中在计算上是禁止的。已经出现的三种互补解决方案是:1)使用将决策分解为多个级别并将决策树的大小降低数个数量级的分层生成模型(Çatal et al., 2021; Friston et al., 2018; Parr et al., 2021),2)使用蒙特卡洛树搜索等算法高效地搜索决策树(Champion et al., 2021a,b; Fountas et al., 2020; Maisto et al., 2021; Silver et al., 2016),以及3)使用人工神经网络分期规划(Çatal et al., 2020; Fountas et al., 2020; Sajid et al., 2021b)。另一个问题涉及学习生成模型。主动推理可能很容易学习生成模型的参数;然而,需要进一步努力制定用于学习生成模型结构的算法(Friston et al., 2017b; Smith et al., 2020c)。这是生成建模中的一个重要研究问题,称为贝叶斯模型选择或结构学习(Gershman and Niv, 2010; Tervo et al., 2016)。请注意,这些问题并不是主动推理独有的。当评估决策树时,基于模型的RL算法面临相同的组合爆炸问题,这是开发高效的无模型RL算法的主要动机之一。然而,在基于模型的RL中,还开发了其他启发式方法来高效地搜索和修剪决策树,例如(Huys et al., 2012; Lally et al., 2017)。此外,基于模型的RL在学习生成模型结构方面也存在相同的限制。然而,相对于更复杂的应用,RL可能在有效实现和扩展方法的识别方面为主动推理提供很多帮助(Fountas et al., 2020; Mazzaglia et al., 2021)

7 结论 总体而言,我们展示了在假设主动推断代理更倾向于最大化奖励的前提下(9):

  1. 在已知转移概率的有限视野POMDPs中,针对主动推断中的行动选择进行优化的目标(即期望自由能量)在状态估计准确时生成最大化奖励的行动序列。在存在多个最大化奖励候选的情况下,此选择会优先考虑最大化未来状态熵的序列,从而保持各种选择,并最小化未来观测的不确定性,使其尽可能具有最大信息性。总体而言,行动序列在最大化奖励方面的有效性取决于状态估计的准确性。
  2. 标准的主动推断方案(例如,(Barp等,2022))在状态估计准确时为规划视野为1的情况生成贝尔曼最优行动,但在更长的视野下则不是。
  3. 先进的主动推断方案(例如,(Friston等,2021))在状态估计准确时为任何有限规划视野生成贝尔曼最优行动。此外,该方案将动态规划中著名的反向归纳算法推广到了部分可观测环境。需要注意的是,出于计算效率的考虑,(Friston等,2021)中提出的方案通常不执行精确的状态估计;因此,其在实践中最大化奖励的能力将取决于推断的准确性。尽管如此,我们的结果表明,与标准的主动推断相比,先进的主动推断在大多数奖励最大化任务中表现得更为出色。

请注意,为了计算上的可行性,(Friston et al., 2021)中提出的复杂的主动推理方案通常不执行精确的推理;因此,实际上它将在实践中最大化奖励的程度将取决于其推理的准确性。然而,从这些结果中可以清楚地看出,复杂的主动推理在大多数最大化奖励任务中将远远超过标准的主动推理。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-01-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CreateAMind 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档