前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >ASI 8年计划 paper4 The FEP for Perception and Action: 深度学习视角

ASI 8年计划 paper4 The FEP for Perception and Action: 深度学习视角

作者头像
CreateAMind
发布2024-02-26 17:15:09
820
发布2024-02-26 17:15:09
举报
文章被收录于专栏:CreateAMindCreateAMind

The Free Energy Principle for Perception and Action: A Deep Learning Perspective

Abstract摘要:

自由能原理及其必然结果主动推理构成了一种生物启发理论,该理论假设生物保持在世界上一组有限的优选状态中,即它们使其自由能最小化。根据这一原则,生物学习世界的生成模型,并计划未来的行动,以保持agents处于满足其偏好的稳态。这个框架有助于在计算机上实现,因为它包含了使其在计算上负担得起的重要方面,例如变分推断和分期偿还规划。在这项工作中,我们研究了深度学习工具,以设计和实现基于主动推理的人工智能体,展示了面向深度学习的自由能原理演示,调查了与机器学习和主动推理领域相关的工作,并讨论了实施过程中涉及的设计选择。这篇手稿探索了主动推理框架的新观点,将其理论方面融入更实用的事务中,为主动推理新人提供了实用指南,并为希望研究自由能原理实现的深度学习实践者提供了起点。

关键词:自由能原理;主动推理;深度学习;机器学习

1. Introduction简介

理解有感知力和推理能力的生物为了感知他们生活和行动的世界而在心理上发挥的过程,既复杂又引人注目。自由能原理假设所有大脑过程都可以被理解为遵循一个独特的命令:自由能的最小化[1,2]。这一原则及其推论的积极推论active inference假设,主体采取行动来对抗来自环境的力量,这些力量阻碍他们留在世界上一组有限的首选状态中。在此假设下,生物主体发展出各种技能,例如感知、行动、计划和学习,这些技能在其一生中不断适应。主动推理和自由能原理已被用来解释和模拟不同环境下的几个复杂过程学科。在心理学中,它们已被用来为神经心理综合症的计算解释奠定基础 [3] 并开发情绪识别设备,通过交互和学习来解决情绪状态的不确定性[4]。在经济学中,自由能原理已被用来根据代理的信念重新制定优化过程[5]。基于自由能原理,变分方法已被用来解释利基构建niche construction[6,7]。主动推理已用于对平滑和扫视建模眼球运动 [8,9] 并概念化注意力 [10]、显着性和记忆 [11]。在场景构建的背景下,主动推理提供了代理如何通过视觉搜寻推断场景的高阶视觉模式的解释[12,13]

在某些假设集[14,15]的情况下,自由能原理还可以用来解释所有支持感知和行动的生物体和过程如何自然地出现,并通过自然模型选择过程不断调整。在较短的(体内)时间尺度上,最小化自由能导致单个生物体的大脑发育,产生学习和记忆功能。在较长的(进化)时间尺度上,自由能最小化促进了物种的演化过程[16,17]。通过为地球气候系统建立统计边界,这也可以解释为一个执行主动推理的自我生成系统[18]。能够自我生成的系统,即通过创建自己的部件来不断生成和维持自己的系统,被称为自我生成autopoietic[19]。可以证明,自生成过程最小化自由能,因为为了维持自身模型和环境模型,生物体必须最小化自我生成所需的组件,以执行保持其生成模型的过程[20]。

在主动推理中,代理通过与过去经验最小化一个变分自由能目标,导致其学习世界的生成模型,从而预测未来会发生什么,以避免令人惊讶的状态。变分推断[21]产生了变分自由能泛函,使得将感知过程视为优化过程成为可能,其中涵盖了一系列建模和学习选择,如状态分布的选择或模型处理不确定性的方式。然后将生成世界模型用于未来规划动作,以维持代理处于满足其偏好的稳态。代理对动作进行(摊销)贝叶斯选择,使其与其首选状态相比具有最少的惊讶。这个决策过程考虑了学习的几个方面,如认知学习、习惯学习和偏好学习

深度学习的最新发展为研究和实验不同的感知和行为理论打开了新的领域;使得可以对人工实现进行实际分析,无论是在模拟环境中还是在真实环境中。在这方面的一个流行的例子是强化学习(RL)[22],这是一个将大脑中的多巴胺信号与奖励信号联系起来的理论,可以用来加强正确行为的奖励信号[23,24],并描述如何通过奖励最大化来学习智能行为[25]。将RL与用于函数估计的深度学习模型相结合[26]已经取得了几个实证成功,使得可以训练人工代理玩视频游戏[27,28]、掌握棋盘游戏[29]或执行机器人任务[30]。类似地,深度学习技术也开始出现在主动推理的背景下[31–33]。本文旨在调查当前用于主动推理的深度学习模型的最新技术。与此同时,我们希望为机器学习从业者提供一个参考和起点,使其了解主动推理,并将主动推理与强化学习的最新进展进行对比。以前已经有关于主动推理的综述,用于在连续空间[34]或离散空间[35]中表达生成模型;然而,我们的工作背景、所呈现的实践和范围与它们有着很大的不同,我们专注于将基于深度学习的技术应用于大型连续状态和动作空间或高维度设置中,如机器人学和视觉控制。与我们的工作同时进行,已经发布了一份关于机器人学中主动推理的综述[36],其中提到了用于主动推理的深度学习方法。我们的工作与他们的不同之处在于,他们专注于能够在机器人学中应用主动推理的方法,而我们更广泛地讨论了可以用来开发主动推理人工代理的主动推理技术,详细解释了每个组件的实现方式,突出了需要克服的挑战,并建立了不同机器学习领域之间方法之间的联系。

图1展示了学习感知和行动的主动推理框架考虑的方面的非全面总结。我们一方面进行了模型学习,另一方面进行了行动选择。前者包括通过最小化变分自由能来学习基于过去经验的生成模型,建模信念状态和先验,学习状态表示和不确定性,而后者涉及选择未来的行动,这些行动在认知搜索和实现偏好之间进行权衡,可以通过规划或学习习惯来实现。主动推理中的两个重复模式是变分推断和贝叶斯选择的摊销。变分推断允许将推断视为优化问题,即找到最接近实际分布的分布。摊销允许通过重复利用以前的计算来加速推断过程[37]。在主动推理中,摊销推断被应用于变分参数的选择,在模型学习过程中,以及在行动选择过程中形成习惯。将这两种技术结合起来可以大大降低主动推理的计算需求,并使框架在硅中的实现变得有希望然而,如果没有足够的模型,就无法在复杂的场景中,尤其是连续和/或高维状态/动作空间中扩展主动推理是不可行的。

图1. 主动推理最小化的自由能泛函采用两种形式:对于过去经验的变分自由能和选择未来行为的期望自由能。对于这两种情况,都需要遵循一个(摊销)贝叶斯优化方案,需要考虑几个方面,如图中所总结的。编号表示讨论每个方面的论文部分。

在深度学习领域,生成模型已经得到了广泛的研究,在多个领域取得了杰出的成果,例如图像生成[38–40]、文本预测[41–43]和视频建模[44–47]。特别是,允许预测系统动态的时间深度生成模型,即环境或世界的动态,已经被用于控制[48–50]、好奇心和探索[51–53]以及异常检测[54]。其中一些模型已经在类似于主动推理的设置中使用,并且甚至与主动推理的目标最小化变分自由能有一些相似之处。至于行动选择,一些利用深度学习的工作已经改进了更经典的方法(例如α − β修剪、A*、波束搜索),从而可以搜索更大的状态和动作空间。一些例子是强化学习中与动态规划相关的技术[26]、进化策略[55]和蒙特卡洛树搜索(MCTS)[29,56]。所有这些方法都将更一般和经典的规划策略与深度学习结合起来进行函数估计,实现了在复杂环境中行为学习和动作选择的扩展。

本文的其余部分安排如下:在第2节中,我们介绍自由能原理,并解释了在感知和行动方面最小化自由能的含义;在第3节中,我们建立了根据主动推理进行模型学习与深度生成模型之间的联系,分析了所涉及的不同要素。在第4节中,我们讨论了行动选择过程的实现和设计选择,将现有的关于习惯学习、探索和基于模型的控制的工作联系起来。最后,我们总结了我们的讨论,强调了到目前为止所进行的工作,讨论了深度学习学习的影响,并提出了一些未来的展望。

2. The Free Energy Principle and Active Inference自由能原理和主动推理

可略过

自由能原理是主动推理框架的核心,因为它将具身感知的发展理念化为最小化自由能目标的结果。正如我们在本节中所展示的,自由能是关于代理人对环境的信念的一个函数,代表了对感知刺激的惊讶(变分)的一个上界。这意味着减少自由能还会减少代理人的模型惊讶,将其存在限制在一个有限的渴望信念集合中。自由能原理起源于冯·赫尔姆霍兹关于“无意识推理”的研究[57],提出人类不可避免地进行推理以进行感知。这意味着人类感知系统会以无意识的方式持续调整对世界隐藏状态的信念。自由能的变分形式[1,58],以及将行动引入推理过程的介绍,扩展了最初的自由能原理,从而导致了主动推理的发展

在图2中,我们阐明了描述主动推理中的具身感知过程的主要因素之间的相互作用。在任何时候,环境处于某种状态η,这是外部于代理人的,并且不直接可观察到。代理人通过两种方式与环境进行交互:通过(被动的)感知感知,其特征是观察感觉状态o,或者通过行动,可以将其视为代理人对环境施加的一组主动状态a。根据自由能原理,为了最小化自由能,代理人学习了关于环境潜在状态的内部模型。关键是,这些内部状态不需要与外部状态同构,因为它们的目的是根据主动状态解释感觉状态,而不是复制环境的确切动态。在这种情况下,同构指的是考虑状态空间的保结构映射。根据主动推理,内部和环境状态不一定相等,即使必须处理相似的概念/观察/感觉状态,内部状态的组织方式甚至可能因代理人而异。从生物学的角度来看,这在于不同的生物系统在其进化过程中发展出了不同的器官/组织[16]。事实上,内部状态表示的作用是提供足够的统计信息,以便对代理人观察的原因进行“最佳猜测”,并选择适应性行动策略[59]。

图2。外部环境状态 η 是感觉状态 o(观察结果)的隐藏原因。环境试图通过其内部模型状态 s 来表示这些隐藏原因。关键是,内部状态可能与外部状态相对应,也可能不相对应,这意味着大脑中的隐藏原因不需要以与环境相同的方式表示。根据内部状态发展而来的主动状态 a(行动)允许代理人对环境状态进行条件化。

由于自由能最小化,智能体不仅对产生结果的过程拥有信念,而且对导致产生这些结果的行动政策也拥有信念[60]。这对应于感觉如何引起和如何产生的概率模型应如何主动对状态进行采样以驱动环境感知数据的生成。由于这些假设,主动推理中的“奖励”概念与强化学习中的奖励非常不同,因为奖励不是用于吸引轨迹的信号,而是智能体旨在频繁访问的感觉状态,以最小化其自由能 [61]。 从工程的角度来看,这种差异反映在强化学习中的奖励是环境的一部分,因此每个环境应提供其独特的奖励信号,而在主动推理中,“奖励”是代理的固有属性,代理会在任何环境中追求其偏好,并发展出一组最常访问的状态。

在本节的其余部分,我们将讨论通过最小化自由能量来学习代理的感知和行动的概率模型,提供一个数学综合。我们将环境视为一个部分可观察的马尔可夫决策过程(POMDP),如图3所示。我们使用下标来指定离散时间步长,表示时间 t 的观察结果或结果为 ot。为了表示跨越未定义数量的时间步长的序列,我们使用上标∼,即对于结果

。状态的连续

受到一系列行动或策略的影响,我们用

来表示。状态-结果似然映射的参数化用θ表示。精度参数 ζ 影响行动选择,作为策略的逆温度。

本节分为两个部分:第一部分解释了如何针对过去的经验学习内部模型,通过最小化一个变分自由能函数来解释环境结果的动态,给定一系列动作。在第二部分中,我们讨论了关于未来的期望自由能的最小化,在选择动作以减少对代理首选结果的惊讶时。重要的是,我们的处理涉及到主动推理的离散时间实例。有关连续时间的讨论,读者可以参考 [34]。

2.1. Variational Free Energy变分自由能

为了最小化来自外部世界观察的负对数证据(也称为“惊讶”或“意外”),代理利用其过去的感觉经验,使用变分推断来学习环境的生成模型。根据自由能原理 [62,63],建立了对惊讶的上界:

从左到右,执行以下操作:(i) 对观察序列的惊讶进行边缘化(即,针对生成模型的其他因素进行求和/积分),这些因素包括状态序列、行动策略、模型参数和策略精度参数,sequence of states, the policy of actions, the model parameters, and the policy precision parameter (ii) 引入状态和策略的变分后验

用于变分推断 [21],(iii) 应用 Jensen 不等式将对数推入期望运算符内。变分自由能 F 可以重新表述为:

当针对过去最小化变分自由能时,通常采用第二个方程,因为第一个方程中的两个Kullback-Leibler(KL)散度项可以忽略不计。前一个KL散度,涉及到策略和精度参数,可以被忽略,因为过去的策略是已知的。后一个KL散度,涉及到模型参数,可以通过正则化技术后续考虑在模型之上,例如,类似于睡眠,其中消除冗余的突触参数以最小化模型复杂性

为了简洁起见,省略对π和θ的条件,可以将自由能的表达式表示为其两种典型形式:

一方面,最小化自由能意味着最大化似然模型

的准确性,同时降低后验分布的复杂性。另一方面,它意味着优化变分证据上界,提醒KL散度始终是非负的,即对于任何分布都有

。当代理模型与环境动态完全匹配时,KL散度为零,对应于最佳情况。

虽然过去经验中没有期望运算符(出于简洁起见,并且遵守典型的表达方式),但应清楚地指出,代理最小化变分自由能与环境中已知的过去观测序列和策略有关。正如我们在接下来的段落中讨论的那样,这是至关重要的,也是将变分自由能与过去环境状态相关联的主要方面,与考虑未来状态和未观察数据的预期自由能有所区别。

2.2. Expected Free Energy预期自由能

为了在未来最小化自由能,代理应该调整其行为,即活跃状态,以限制其存在于有限的状态集中。这些状态对应于代理的偏好,或者根据上下文而言,是首选的观察结果/结果/状态。代理的目标是利用其通过内部模型获得的对环境的知识,持续满足未来偏好感知。在最小化关于未来序列的自由能时,代理会想象未来会是什么样子,考虑到某种行动序列或策略。这反映在对模型生成的未来状态和观察的期望上,利用了内部状态模型和来自环境的似然映射,即

基于这一假设,期望自由能 G 可以表达为:

因此,最小化期望自由能意味着代理程序:(i) 最大化认识价值,即隐藏状态与感知数据之间的互信息, (ii) 最大化参数信息增益,即参数与状态之间的互信息,以及 (iii) 最大化外在价值,即在首选先验分布下,结果的对数似然

或奖励。

同样,为简洁起见,省略了对策略的条件,可以将期望自由能重新表达为风险和歧义的最小化:

在这里,我们假设界限很紧,并且近似后验是真实后验的良好近似,以表达结果方面的风险;然而,智能体也可以根据内部状态而不是其感官知觉来表达其稳态偏好,并根据状态控制制定预期的自由能。

尽管可以考虑预期自由能的各种目标,但通过改变一些假设或重新排序其因素,函数的必要性保持不变。代理的目标是将自己限制在其首选的状态/感官知觉集合中,同时最大限度地减少其内部模型的模糊性。

对于方程(4)来说,最大化认知价值和/或参数信息增益也隐含地遵循这一假设,因为在环境中找到信息状态将最大限度地减少未来模型的不确定性[63,65]。

3. Variational World Models 变分世界模型

在主动推理中,最小化内部模型对感官输入的意外的目标会引发大脑内部发生的连续模型学习过程。这假设了大脑的预测编码解释,其中内部模型用于生成与实际情况进行比较的感觉输入的预测感觉输入。内部模型试图解释世界的动态,因此,正如相关工作[50,66]中所执行的那样,我们也将其称为“世界模型”。内部模型的反应倾向于最小化相对于感觉输入的自由能,解释了代理的感知,代理学习预测感觉输入及其生成的因果结构。

在机器学习中,这样的学习过程, 不需要人类监督或标签,通常被称为自我监督或无监督学习。相比之下对于生物代理,深度学习系统通常使用批量学习方案,其中收集过去轨迹的数据集,并将模型参数化为深度神经网络通过对从该数据集中采样的批量数据进行训练来优化网络。

这样的数据集(由 Denv 表示)可以看作是一组有序的三元组,其中包含环境观察、代理的动作和后续观察(由行动),即三元组(ot,at,ot+1)。然后,训练模型通常与通过与环境交互收集新数据交替进行,使用模型进行规划[49],或使用摊销(习惯)政策[33,67]。在实践中,人们还可以使用从随机代理 [68] 或专家 [32] 收集的轨迹数据集来预先训练模型。后者在与代理人在线收集经验可能昂贵或不安全的情况下尤其相关[69]。

要最小化一个时间步的自由能损失,即

,可以在重放缓冲区的数据(观测和动作)的期望下编写如下:

根据上述损失函数,需要实例化三个分布或模型:(i) 一个似然模型

,允许从模型的内部状态生成(也称为重构)感知数据,(ii) 一个先验模型

,它编码关于内部状态动态转移概率的信息,(iii) 一个后验模型

,选择它是为了最小化对意外的上限,根据变分推断 [21]。在机器学习中,这种表述更为人所知为(负)证据下界(ELBO),它与用于训练变分自动编码器(VAE)[70,71]的损失相同,并且被证明优化了变分信息瓶颈,平衡了总结内部状态表示中感官信息的准确性和复杂性[72,73]。由于假设外部状态不被代理观察到,并且环境的动态是未知的,因此无法确保所学到的表示与外部状态相同;然而,与信息压缩技术的关系确保了最小化自由能涉及优化内部状态关于感官状态的信息[62,74]。

理论上,深度学习模型可以用来近似任何函数,并具有任意程度的准确性[75],这意味着我们可以用任意程度的准确性来预测内部状态和感官数据的分布。然而,在实践中,获得一个高度准确的模型是困难的,虽然神经模型可以找到这些模型的有用近似,但如果其中一个模型已经在先验中被很好地知道,直接使用它并相应地调整其他模型可能会导致更令人满意的结果。例如,如果对于某个状态空间已知实际的似然模型,则可以相应地调整先验和后验模型的状态空间。这对于可微分模拟器来说是适用的,其中环境的观察结果是可微分的生成过程的结果,可以集成到世界模型中[76,77]。或者,如果环境的动态已知,可以将其用作先验,强制模型的内部状态和环境的外部状态具有相同的结构。当环境被表示为POMDP时,了解动态是确保可以找到最优行为的唯一情况[22,78];然而,即使预先了解动态,解决POMDP问题仍然是计算上难以处理的。函数逼近技术和构建改进的状态表示的程序,正如我们在这里描述的模型学习方法,经常被用来以更高效的方式找到近似最优策略[79–81]。

在一般情况下,所有分布都是未知的,必须由代理学习或根据某些设计选择假定具有某种形式。确实有许多选项可供考虑,当实例化不同的模型时,其中一些选项对于进行稳定的优化和/或深思熟虑的贝叶斯推断过程的摊销是重要的。其他设计选择涉及到生成模型的不同方面(见图3),例如似然映射的参数 θ 和模型的敏感性,这些方面确实是相关的,但通常可以假定为固定并忽略。

3.1. Models模型

为了实例化代理的生成模型的深度神经网络,首先重要的是考虑所涉及变量的性质。对于隐藏状态,主动推理假设一个概率模型。除非环境状态空间的性质是已知的,否则内部状态分布可能没有预定义的结构,神经网络可以被训练输出不同种类的分布;然而,为了计算期望,如公式(7)中所示,重要的是分布的采样过程是可微分的,因为目标需要通过模型进行反向传播以计算更新模型的梯度[82]。由于采样过程通常是不可微的,样本的梯度应该用专门的技术来估计。一些广为人知的例子包括高斯分布的重新参数化技巧[70,71]、直通梯度法[83]、似然比方法[84],也被称为REINFORCE梯度[85],用于伯努利和分类变量。

在主动推理文献中,多变量高斯(也称为正态)分布与对角协方差矩阵已经被广泛采用,自VAE的初期工作以来[32,33,68,86]。同样,许多潜在状态空间模型采用了其潜在空间的高斯结构[48,49,87,88],但也提出了更复杂的混合模型[50]。对于伯努利和分类分布,已经有了一般用途的生成模型,比如离散VAE[38,89],用于规划的潜在动态模型[66,90],最近它们也被用于主动推理设置[91]。一些其他替代上述方法的选择,尚未被探索用于训练世界模型的方法是:分段分布[92]、马尔可夫链[93]和归一化流[94]。

后验模型.对于后验模型的选择尤为重要,因为它是变分分布。理论上,可以为环境的每个转换/观察搜索最佳参数分布,尽管这是一个缓慢而困难的过程。为了加速训练,但也为了确保后验的合法选择,可以摊销后验参数的选择,就像最初的VAE工作中所展示的那样。自编码摊销方案利用与特定状态对应的观察来推断变分分布的参数

。这允许优化后验的参数以最优地压缩信息,因为后验可以访问似然模型想要生成的观察。在VAE术语中,后验模型通常被称为“编码器”,而似然模型则被称为“解码器”。

编码器架构的选择,它允许从观察到后验的信息流动,取决于环境。例如,对于二维数据矩阵,如图像,卷积神经网络(CNN)[95],或者计算机视觉中的其他架构,比如视觉变换器[96]是常见的选择。对于向量结构化数据,多层感知器(MLP)[97]或图结构化数据的图神经网络可能是其他潜在有用的模型。同样,似然模型的选择取决于观察数据的格式,例如,在视觉数据的情况下,转置CNN可能是有用的。

先验模型。先验模型可以是已知的或学习得到的。为了学习先验模型,可以采用递归神经网络架构,即使用记忆单元,如长短期记忆(LSTM)[99]或门控循环单元(GRU)[100]。在其他情况下,环境动态是提前已知的,或者可以假设有关先验的先验知识,例如假设先验是均匀概率分布。例如,一个各向同性多元高斯分布N(0,I),其中零均值和单位协方差矩阵I,可以作为固定先验使用,就像在标准VAE架构中执行的那样[70,71]。或者,假设已知控制动态的规律(例如物理定律),可以将环境的物理学作为强先验加以利用[101]。类似地,在[102]中,作者利用了机器人的内部状态,将已知的先验结构强加于后验中。最后,先验也可以被忽略/视为恒定,将模型视为熵正则化的自编码器[103]。

3.2. Uncertainty不确定

在主动推理感知模型中,精度或灵敏度[104,105]通常与先验隐藏状态之间转换的不确定性(信念精度)或从隐藏状态到可能性结果的映射(感觉精度)相关, 可以表示为分布的逆方差[106]。活跃中在推理实现中,精度已被用作一种注意力形式,来决定模型应重点学习哪些转换[33],尽管文献中对这方面的研究普遍较少。VAE 模型已采用类似的精度机制来控制潜在状态空间的解开[107] 或后塌陷[108]。

模型中不确定性的另一个来源是参数的不确定性。在深度学习社区中,已经使用贝叶斯神经网络[109]、dropout[110]或集成[111]来研究模型参数的不确定性,并使用在 RL 中研究探索问题 [53,112,113]。在主动推理中,考虑图 3 中的生成模型,根据似然模型参数的分布来处理不确定性。与 RL 类似,主动推理文献中已经研究了 dropout [33] 和 ensembles [114],尽管迄今为止的几种实现都忽略了这一方面,假设对一组参数有信心。

3.3. Representation表示

根据方程(7)中的变分自由能公式,假设代理的生成模型能够通过似然模型生成与感觉感知紧密匹配的虚拟结果。这在图4左侧呈现,对于具有视觉感觉数据(即图像)的环境。所示的模型采用了类似顺序VAE的设置,后验从状态中的观察(红色)编码信息,似然模型使用解码器(蓝色)从状态中生成观察。

然而,从高维感知观察数据(例如基于像素的环境)中学习一个似然模型并不是一个简单的问题。在这种情况下,似然模型需要生成与原始观察数据一一对应的图像,这需要一个高容量的模型和相当高的准确性,尤其是对于高分辨率图像。通常,图像的概率分布被表示为每个像素上固定标准差的独立高斯分布的乘积,其中方程(7)中的对数似然损失变为两个图像之间的像素级均方误差;然而,这可能会导致模型忽视环境中的小但重要的特征(因为像素级损失较低),并浪费大量的容量来编码潜在的无关信息(例如,墙壁的精确纹理)。

一种潜在的解决方案(a)是根据未来要完成的任务来训练模型,仅考虑与完成代理目标相关的状态,即奖励。寻找隐藏状态表示允许预测此类信息,而不必生成观察结果,这大大减轻了模型的表示负担,尽管它会使内部动态信息更少。图 4a 中展示了一个示例。类似的表示已用于 RL [29],并且也许也适用于主动推理。

另一个提出的解决方案(b)是用状态一致性损失替换损失的可能性组件。这些种类的表示方法,在状态和其对应的感知观察之间强制实施某种形式的一致性,已经在深度学习中日益受到欢迎,作为自监督学习方法,如对比学习[115],聚类/原型方法[116],蒸馏/自一致性方法[117,118],以及冗余减少/概念美白[119,120]。, such as contrastive learning [115], clustering/prototypical methods [116], distillation/self-consistency methods [117,118], and redundancy reduction/concept whitening [119,120]. 这些表示技术如图4b所示,已经在RL的动态模型训练中取得了成功[121,122],最近也在主动推理中取得了成功[123]。

与替换可能性模型不同,另一些方法(c-d)更多地专注于提高模型的能力。这就是装备记忆的模型(图4c)和分层模型(图4d)的情况。使用记忆允许保留更多关于其他(过去的)观察的信息,并且已经在训练具有深度学习记忆模型的潜在动态模型(如LSTM和GRU)方面取得了令人鼓舞的结果[47-49,124]。记忆增加了模型的容量,并且允许对远期状态进行更准确的预测,特别是当先验模型未知且必须学习时。

Hierarchical models,也被称为深度主动推理模型[13,125](遗憾的是,“深度主动推理”这个术语被用来指代在生成模型中使用深度神经网络的主动推理方法[31,32,102,126],在主动推理社区中也使用了这个术语,导致了一些混淆),它们使用模型的隐藏状态的多层结构,有助于对部分-整体或时间层次进行建模。类似于使用记忆,状态的层次结构可以增加模型的表示能力,并且允许更准确的预测。一些深度学习示例已经实现了这一点[127,128],以及一些用于长期导航的主动推理实现[69]。

3.4. Summary概括

设计变分世界模型时需要考虑几种选择。在本节中,我们解释了其中一些选择,并提供了一系列研究的参考文献,这些研究考虑了在更大的深度学习文献以及在主动推理上下文中的贡献。设计选择的摘要见表1。

未来,继续研究这些设计选择并分析它们的相互作用将很重要。我们相信,深度学习社区的进步和积极推理采用者之间的协同作用对于进一步发展生成性至关重要适用于各种用例的模型。我们还期待模型学习的新颖方面,例如时间的表示[133]或睡眠期间发生的模型缩减[134]。

同样重要的是要注意,讨论的一些设计选择(例如内部状态表示)不仅对模型学习部分有影响,而且对代理的动作选择也有影响。例如,如果没有似然模型,代理应如何识别首选结果是否得到满足?或者,再说一次,如果代理人模型是分层的,粒度动作应该如何与分层状态结构相关?在下一节中,我们概述了采用生成模型进行动作选择的技术,并详细说明了这些问题。

4. Bayesian Action Selection贝叶斯动作选择

为了在主动推理中选择未来的行动,代理利用学习到的模型,通过最小化预期自由能来匹配其首选结果。更正式地,代理对应该遵循哪种策略或行动序列的信念如下所示:

其中 σ 是 softmax 函数, ζ是精度参数。因此,当精度较高时,智能体最有可能采用预期自由能最低的策略,而对于(非常)低的精度,智能体将相当随机地探索。正如第 2 节中所讨论的,预期自由能 Gπ 是通过模型预测中对未来结果的期望来计算的。因此,智能体在实际部署行动之前,通过根据首选分布评估预测结果来最小化预期自由能。

而生成模型经过训练以匹配世界的真实结果根据过去的经验,代理尚无法获得未来的结果。当主动推理主体采用达到首选结果的先验期望时,人们可以解释这是因为未来的生成模型对一个人的偏好有偏见。出现的不证自明的行为就像一个“不诚实的科学家”[7],寻找活跃的状态,为其有偏见的假设提供证据。

从生物学的角度来看,我们可以假设每个代理人都拥有一套独特的偏好,即维持体内平衡[135]。例如,这些偏好可以:将体温、饥饿、幸福和满足等内部信号与世界上首选的状态联系起来。于人工代理来说,定义正确的偏好集可能会出现问题。第一小节介绍了解决此问题的不同方法。我们还分析了处理代理不确定性的问题以及如何学习和/或摊销动作选择过程。

4.1. Preferences Modeling偏好建模

正如第 2 节所总结的,预期的自由能目标可以通过多种方式来考虑,每种方式都强调代理行为的不同涌现属性(方程(4)-(6))。虽然主动推理的这一方面一直是批评者的目标[136],但这使得设计代理选择过程具有更大的灵活性。

观察偏好.如果代理的目标是匹配一组首选结果,则首选分布位于环境的观察结果 p(o) 上。匹配结果可以看作是一种目标导向的行为形式,代理计划其行动以从环境中实现特定的结果。目标导向的行为在RL的背景下已被广泛研究,无论是在低维度[137]还是视觉领域[138,139]。在观察空间中定义的偏好可能很方便,因为它们只需要来自环境处于正确状态的“快照”的观察结果。然而,人工主动推理实现很少使用它们,因为它们通常很难在高维设置中匹配。克服这些限制的策略[123]可能是未来研究的课题。

内部状态偏好.与在观察空间中定义偏好不同,这些偏好可以直接在代理的内部状态空间中实例化。这种状态匹配形式[140]假设代理事先知道首选状态分布 p(s) 和模型,或者像RL中一样,传感器状态被用作内部状态。或者,如果存在一组首选结果,可以使用推断模型 p(s|o). 从中推断首选状态。这种方法已经应用于机器人模拟和现实设置中[32,68]。

奖励作为偏好. 另一种规避定义偏好问题的方法是使用代理观察首选结果的概率的奖励函数。RL问题可以被构造为概率推断,通过引入一个优化变量 Ot,它表示时间步 t 是否最优[141]。优化变量的分布以奖励的形式定义为

.正如[142]中所讨论的,RL与主动推断类似,但它将效用值编码在最优性似然中,而不是观察先验中。假设

,环境奖励也可以用于主动推断。这种可能性使一些主动推断工作[33,114]能够重用RL环境中的奖励函数[22]。具体地,可以将奖励视为环境可观察方面的一部分,并将其最大值定义为首选观察结果[143]。然而,定义奖励函数也存在问题[144],因为它们并不是自然存在的,而且这种设置仅对设计良好的环境有效。

4.2. Epistemics, Exploration, and Ambiguity 认知、探索和歧义

虽然主动推理代理试图实现它们的偏好,但它们也旨在减少模型的不确定性。例如,如果一个代理必须在黑暗的房间里操作一些物体,它会首先寻找开关以增加对模型的信心并减少其行动结果的模糊性。正如在第2节中所示,代理的模糊性的原因可能是双重的:一方面,它可能是由于无法确定地推断其状态,这指的是状态-观察映射中的不确定性,例如,似然熵或互信息;另一方面,不确定性可能是由于代理对模型参数的信心不足而引起的。如方程(4)所示,代理对认知觅食的驱动力是通过最大化两个信息增益项实现的:模型参数上的信息增益和隐藏状态上的信息增益。

参数驱动的探索。最大化参数空间中的互信息已经在RL中作为一种鼓励探索的方式进行了研究,计算给定参数分布的信息增益,使用集成[112,113,147]或贝叶斯神经网络[53]。特别是在[113]中,他们使用模型来评估要探索的状态/动作,并规划探索行为,这与主动推理中设想的接近。集成方法也已经在一些主动推理作品中被使用[114,129],同时还有使用了丢弃法[33]。

状态驱动的探索。在RL中,为了进行探索,已经研究了最大化状态和观察之间的互信息,使用由模型的(自编码)后验和先验之间的DKL距离给出的贝叶斯惊喜信号作为奖励[51]。另外,还在RL中使用了与未来观察相关的惊喜,以产生奖励探索的内在动机信号[52,148,149]。

在主动推理中,大多数研究更多地专注于使用来自似然模型的多个样本[32,33]。

不确定性权衡。值得一提的是,在训练的不同阶段,与参数相关的不确定性和与感知/内部状态相关的不确定性可能会重叠。特别是,考虑到代表代理状态的分布是通过使用模型参数推断的,模型的不确定性强烈影响与状态相关的不确定性。这突显了考虑两种不确定性的重要性,特别是当模型不完美或其学习过程不完整时。

从工程角度来看,必须处理主动推理目标中的多个信号会带来额外的优化问题。不同部分的目标可能提供不同尺度的值,这取决于不同的模型、分布以及代理处理的感知数据。在强化学习领域,如何将环境的奖励与探索奖励相结合以获得最佳性能是一个持续的研究问题。虽然可以考虑使用“原始”目标,即不对不同组件进行加权,但加权可能会导致不同的行为,这些行为可能对实际目的有所帮助,例如,减少对探索/歧义项的权重可能会导致在环境中没有歧义/需要探索时更快地收敛。

4.3. Plans, Habits, and Search Optimization计划、习惯和搜索优化

从计算的角度来看,最复杂的部分是最小化预期自由能的过程,其中包括选择将实现代理信念的行动。实际上,优化 Gπ 变成了一种树搜索,可以选择剪枝掉搜索范围之外的所有策略,这些策略的后验概率非常低。然而,根据策略的定义方式,搜索仍然可能非常昂贵,特别是在高维和连续行动领域。

我们区分了建立行动选择的三种方式,总结如图5所示。第一种是典型的主动推理定义,其中策略是一系列行动

,我们将这些策略称为计划以区分(图5a)。每个计划都通过其预期自由能进行评估,根据方程(8)从最佳计划中选择下一个行动。定义策略的第二种方式是通过学习状态-动作映射 π(st) 来实现策略选择的摊销,找到每个状态的预期最佳动作的最优惯例策略(图5b)。这也是典型RL设置中习惯的策略概念。最后,可以通过首先估计给定状态和行动的预期自由能,然后在减少的搜索空间中执行搜索来结合两个世界(图5c)。

基于计划的策略.假设对所有潜在的行动序列进行完整搜索,基于计划的方法应该产生最优策略。不幸的是,在大多数领域中,考虑所有行动序列都是一个棘手的问题,更多工程化的随机射击方法用于仅搜索最有前途的行动序列,例如[55]。类似的方法已经被用于RL [49]和主动推理[32,68]。特别是当针对策略的搜索考虑到对未来的递归信念时,此方案被称为复杂推理[74]。复杂性描述了一个代理对信念的信念程度。当评估一系列行动时,复杂的代理不是直接考虑结果序列,而是根据应用序列中的每个行动时的信念来递归地评估结果。

惯例策略。对于惯例策略,我们考虑一个预期自由能 G 的单行动版本,可以通过考虑所有时间步长的单行动计划 π = at 来获得:

图5. 选择行动的不同方法。蓝色圆圈代表代理选择的路径。(a) 通过行动计划进行深度搜索:选择的路径具有最低的自由能。(b) 通过状态-动作策略进行惯例学习:代理始终从相同的条件分布中采样。(c) 基于价值和策略的树搜索:代理根据先验和预期自由能选择行动。

然后,可以训练状态-动作策略 π(st) 来最大化上述信号,这通常是在策略梯度方法中执行的 [150,151]。为了规划更长的时间跨度,深度强化学习方法采用值函数,允许估计随着时间的推移,潜在无限的奖励总和。对于这些长期估计,值函数利用动态规划方法,其中值不断更新,通过使用实际数据与当前估计进行引导。从主动推理的角度来看,也可以通过应用动态规划来估计更长时间跨度的预期自由能,类似于[126]中所研究的内容。然后,可以按照以下方式递归地重新编写和优化预期自由能:

其中,Gπ代表遵循策略π的预期自由能的估计,对π的期望意味着从状态-动作策略分布中抽样动作。上述方程类似于强化学习中的贝尔曼方程,其中gamma是一个(可选的)折现因子,用于避免无限总和。这种优化方案导致了一个习惯策略,当环境的不确定性来源是静止的时,可以实现最优行为;然而,在现实场景中,习惯性学习可能不足,因为罕见和意外事件是常见的。在此动作选择方案中,精度参数ζ控制状态-动作策略分布的熵,类似于最大熵控制方法[151,152]。

混合搜索策略.最后,混合搜索方案(c)结合了学习先验与计算动作序列的预期自由能。使用先验大大限制了搜索空间,这影响了选择要选择和扩展的节点。这些方法在强化学习中的最流行的应用之一是采用蒙特卡洛树搜索(MCTS)的变体[29,153],它们同时使用动作的先验和对长时间跨度的预期效用的估计,就像方程(10)中的一样。类似的方法最近也被应用于主动推理[33,154]。虽然这些方法通常只适用于离散动作空间,但也已经开发了连续域的MCTS扩展[56]。在这些方法中,精度参数ζ可以用来控制先验对预期自由能的影响(相对于某个动作/计划,以后验的方式计算)。

4.4. Summary概括

与设计代理模型时类似,以主动推理方式实现动作选择也有几个方面需要考虑。在本节中,我们涵盖了许多重要方面,并提供了现有实现的参考资料,无论是在主动推理还是深度强化学习领域。这些方法的摘要列在表2中。

除了到目前为止的讨论之外,还有几个挑战需要克服。例如,为人工智能代理定义偏好在许多实际应用中仍未解决。未来的工作还应该解决用于动作选择的分层实现,以配合分层模型[133],进一步摊销和抽象动作选择。另一个有趣的研究方向是调查情节控制(目前在主动推理文献中研究较少),因为这在提高RL性能方面起到了重要作用 [156]。

5. Discussion and Perspectives讨论与观点

开发人工智能是一个复杂而引人入胜的问题。在人工智能代理应该具备的能力中,感知和行动的一致性至关重要。智能代理应该能够展示他们的智能,根据他们的意愿或目的操纵环境,并理解其行动的后果,以便向其行动系统提供闭环反馈,并认识到他们的愿望的实现。

主动推理是一个受神经启发的框架,它包括感知过程,通过学习变分世界模型,以及贝叶斯动作选择过程,考虑环境和代理模型中的偏好满足和不确定性。变分推理优化方案和推理的摊销,在学习模型参数和选择动作时,使得这个框架在实际实现中具有很大的潜力,然而,如果没有可扩展的模型,就不可能将主动推理应用于复杂的场景,其中包括连续和/或高维状态/动作空间。我们展示了如何将主动推理与深度学习模型相结合,用于函数逼近,从而提供适用于更复杂环境的实现,并有可能将其应用于现实场景。

正如第3节所述,神经网络可以学习以任意精度逼近任何函数。考虑到多层感知器模型,通过使用具有两个隐藏层和足够容量的浅层网络理论上应该是可行的;然而,经验证据表明,深度神经网络往往比浅层网络更容易收敛到更准确的模型,并且过参数化的神经网络通常会导致更准确的预测。深度学习的主要问题之一可能归因于其基于梯度的学习规则。虽然确实有证据表明,可以存在一个任意精确的神经网络,但对于如何在给定一组数据的情况下找到准确的模型,目前还没有确定的方法,因此学习问题可能是不可判定的。尽管如此,我们相信,通过使用深度神经网络获得的强有力的实证结果证明了它们在实现主动推理中的实际效用。此外,本文讨论的几种建模选择,例如内部状态分布的定义或摊销动作选择过程的方式,也可能在其他学习/建模框架中有用。

本文的目的之一是介绍主动推理,并为深度学习研究人员提供指南,以利用两个领域之间共通的概念快速入门特定领域。与此同时,本文也可作为科学家们解决一些妨碍人工实现主动推理框架的问题的参考。

我们提出了需要解决的几个设计选择,以利用深度学习模型实例化人工主动推理代理,并试图将它们与两个领域中的成熟研究联系起来。特别是,我们发现主动推理的一些方面在深度学习的某些领域中得到了很好的体现,例如无监督学习、表示学习和强化学习,这些发现可以推动主动推理的边界进一步拓展。反过来,主动推理提供了一个感知和行动的框架,从中个别方法可以获得洞见,以扩大其范围或从更大的视角理解其工作的影响。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-02-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CreateAMind 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档