前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >意图、假设、行动、证据 Dynamic inference by model reduction

意图、假设、行动、证据 Dynamic inference by model reduction

作者头像
用户1908973
发布2024-04-11 14:22:12
840
发布2024-04-11 14:22:12
举报
文章被收录于专栏:CreateAMindCreateAMind

Dynamic inference by model reduction 2023.09.10.557043v1.full

贝叶斯模型缩减是一种强大的技术,其用途广泛,可以将连续信号可以假设的无限量值缩小为一小组假设,而这些假设又可以与一些离散类别相关联,以进行高级决策 -制作。然而,如果想要在现实世界等高度动态的环境中对具有规划能力的智能体进行建模,那么如何定义这些假设就至关重要。

ABSTRACT

我们如何推断另一个代理正在跟踪几个目标中的哪一个?我们如何能够动态抓取物体?将与周围动态环境一样复杂的模型简化为一小组更简单的假设是一种合理的认知解决方案,但大脑如何在动态假设中进行比较和选择呢?贝叶斯模型简化的最新进展带来了创新的解决方案,可以主动推断世界的事态并使用连续信号执行离散规划,但处理高度动态的环境是一件困难的事情。我们提出,通过使用从生成模型的动态中采样的简化先验,可以在灵活的假设中进行选择。每个减少的先验对应于从当前观察中不断生成的替代未来世界,代理可以使用它来积累离散假设的证据。我们在两项日常任务中测试了该方法:推断动态轨迹和抓取移动物体,模型以高精度解决了这些问题。因此,我们的研究可能揭示智能体如何顺利地生成和推断导致动态行为的静态意图,以及意图精度在运动学习中的具体作用。

1 Introduction

生物有机体如何动态地推断出允许高层规划和决策的世界表征?最近的一种称为主动推理的理论提出,为了生存,所有生物体都不断地减少称为自由能的数量[1,2,3,4 ] 。为了限制允许我们生存的可能状态,神经系统应该维护一个关于隐藏状态如何生成观察以及这些状态如何演化的内部生成模型。将所得预测与观察结果进行比较,形成预测误差,并且根据如何最小化该误差,产生控制的两个基本组成部分中的一个或另一个,即感知和行动 [5, 6]。

通过用广义坐标(例如,位置、速度、加速度等)表达隐藏状态,可以处理连续环境,从而可以高保真度地表示环境动态[7, 8]。然而,这种动态只能通过当前状态和观察的自由能来最小化,因此代理无法做出任何类型的决策。后者可以通过使用环境的离散表示来增强连续模型:在这种情况下,高级隐藏状态并不表示瞬时轨迹,而是表示离散的未来状态。当未来的观察被视为隐藏状态时 一种称为规划即推理的方法[9,10,11 ] 并且当后者通过智能体期望在未来感知的自由能最小化时[12,13 , 14]。然而,使用离散模型进行规划会带来如何从离散观察中生成连续原因的问题。这通常是通过贝叶斯模型缩减( BMR) [15]来完成的,这是多年来在多个领域使用的基本技术[ 16,17,18,19,20,21,22,23 ] 。该技术包括将复杂的分布简化为一组更小、更简单的假设,这些假设具有相同的可能性,仅先验不同。

通过 BMR 将离散和连续计算相结合的模型称为混合模型,在模拟阅读中的认知觅食[24, 25]、神经系统疾病中的多步到达运动[1]、眼跳和视觉方面的文献中可以找到一些应用,及采样[26, 27]、主动倾听[28]和内感受控制[29]。

然而,用于与完整复杂分布进行比较的简化模型通常是在推理过程之前确定的。因此,代理人只能在一组固定的假设中推断出离散的原因;尽管这种简化模型可能具有适应性,但该过程通常会很慢并且无法有效地处理高度动态的环境。在这里,我们提出了一个替代解决方案在不同层面上结合这两个框架,从而产生进一步的影响和并行性。这种方法可以在多种动态环境中使用,我们在两个常见且重要的任务中展示了它的功能:推断另一个想要跟随许多移动目标之一的智能体的轨迹,并抓住一个移动物体。

3 Discussion

贝叶斯模型缩减是一种强大的技术,其用途广泛,可以将连续信号可以假设的无限量值缩小为一小组假设,而这些假设又可以与一些离散类别相关联,以进行高级决策 -制作。然而,如果想要在现实世界等高度动态的环境中对具有规划能力的智能体进行建模,那么如何定义这些假设就至关重要

使用先验定义的假设可能适用于静态环境,例如,在代理需要到达多个固定位置的情况下[1]。在这种情况下,由离散代理生成的预期观察结果与简化模型相结合,以计算下面隐藏原因的连续先验。然后使用贝叶斯模型简化将隐藏原因的后验与定义的简化模型进行比较,以便找到离散代理最可能的观察结果。例如,这种方法可用于模拟象形文字阅读[24],其中代理的注视中心由解释当前上下文的句子确定,并通过该句子积累有关象形文字的证据。

尽管这种方法具有多种功能,但处理动态环境(例如,如果必须到达或抓住移动物体)却更具挑战性。[30]提出了一种关于如何在动态环境中有效实现目标导向行为的建议,其中代理的动态函数被分解为独立的意图,每个意图将信念拉向特定的状态。同时保持这样的意图——例如,到达不同的物体——允许两种高级行为:(i)执行由不同意图组合产生的目标导向的运动[31];(ii)实现一种固定的多步骤行为,例如,跟踪由触觉触发切换事件的两个对象[33],或执行动态拾取和放置操作[32]。这些灵活的行为是通过相同的方法实现的,即通过动态调节嵌入意图的动态函数的精度。尽管它具有有趣的含义(正如我们在这里也提到的)并且是人工智能体的一种便捷方法,但从生物学角度来看,尚不清楚这种精度的学习能够在多大程度上足够快地解释高度动态环境中的复杂行为。

[32] 中提出了一种更强大的动态多步骤任务解决方案,该解决方案还提供高效的规划。这种替代方法利用传统的混合模型,它与最先进的模型(例如上面提到的模型)类似。在这种情况下,动态行为是通过在每个离散步骤中根据连续隐藏状态不断更新离散模型的简化先验来实现的。然而,在这个简化的模型中,更新是通过直接函数执行的,而更现实的设置将涉及从生成的预测误差中推断和学习减少的先验。

在这里,我们建议,如果我们将隐藏原因视为对分类分布进行编码,则可以实现更高效、流畅且生物学上合理的行为,而不是使用具有静态先验的简化模型并使用隐藏原因的后验执行 BMR 如果 BMR 在隐藏状态的时间顺序之间执行。因此,减少的先验将取决于动态函数,该函数指定隐藏状态在未来如何演化,而后者则通过感官证据不断更新。如果我们将隐藏的原因视为对代理意图的编码,那么离散模型的策略就会出现有趣的并行性。自上而下的BMA将代表智能体想要实现的平均意图,而自下而上的BMC将传达最有可能生成当前轨迹的意图,即它会表明意图是否已实现或是否已实现。已经达到了未来的状态。

通过我们的新颖方法,可以轻松积累动态证据并将其与固定意图相关联,这在呈现动态元素的各种上下文中都非常有用,例如,如果需要推断另一个代理的轨迹,或者解决多步骤问题 任务,例如拾取、移动和释放对象。在后一种情况下,动态证据积累是在较低层内部进行的,因此高层只需要接收离散的自下而上的消息,推断最可能的状态,执行规划操作,最后将意图预测发送回高层。低水平,从而同步他们的行为。

我们表明,关于简化的动力学函数出现了两种推理过程。一个快速过程,涉及通过相对于隐藏状态的完整先验的梯度推断当前轨迹,以及推断隐藏原因中编码的代理意图。但也存在一个缓慢的过程:动态函数精度的推断(或者更好的是学习)。我们认为这种精度可能与感觉域的置信度分配机制有类似的解释:如果一个意图对于最小化给定上下文的预测误差没有用处,那么它的精度将随着时间的推移逐渐降低,因为智能体对 不再使用它——无论是为了实现其目标还是为了了解世界的事态。

总的来说,我们提出的模型可以解释减少的先验在哪里以及如何以生物学上合理的方式编码。但它也可以解释如何将意图分配给特定任务以及它们如何从高级计算中产生。如图 7b 所示,尽管我们使用了基本的离散动作(到达和抓握),但由于动态降低的先验之间的 BMR,出现了平滑的接近过渡。这种新颖的行为可以映射到连续动力学中,并由离散模型在单个动作中调用,从而产生高度灵活和流畅的行为,如[32]中模拟的那样。

需要未来的分析来模拟这些任务专业化和转换机制。这项研究的一个局限性是我们在所有模拟中保持动力学精度固定。让它们适应并依赖于自由能(至于隐藏状态和原因)将是一个有前途的研究方向,以模拟智能体如何从离散模型中学习不同的连续意图。对于这个问题,[34]中实现了一种有趣的方法,该方法使用多个连续生成模型,然后使用“切换器”。虽然没有使用标准的混合模型,但这种方法与此处介绍的模型有一些相似之处,即代理(在这种情况下是一只学生鸟)可以维护教师如何生成可能的感官信号演化的模型,并通过切换器 可以执行在线模型选择,以推断可能产生其感知的最可能的原因。

2 Results

2.1 Dynamic Reduced Models

图 1a 显示了传统混合模型的因子图。为简单起见,我们不考虑还包括离散隐藏状态之间的转换的整个离散模型;相反,我们假设离散状态 s 是从分类分布中采样的

其中 D 编码初始状态。连续模型应该学习由随机微分方程组建模的环境的动态表示:

最后一个分布告诉我们,隐藏原因是通过均值为 η 的高斯分布从离散隐藏状态 s 生成的;这被认为是一组复杂假设的完整模型。我们可以通过假设智能体维护 M 个简化模型来推断当前离散状态下最可能的隐藏原因:

与完整模型具有相同的可能性,但先验不同。 如图 1b 中突出显示的,离散表示和连续表示之间自上而下和自下而上的消息交换遵循 BMR 技术的推导(更多详细信息,请参阅方法部分):

在定义了适当的近似后验后,前者是 通过简化先验和离散状态模型之间的贝叶斯模型平均值 (BMA) 计算:

相反,后者是通过隐藏原因的简化先验和后验之间的贝叶斯模型比较(BMC)找到的:

其中

分别是第 m 个简化模型的自由能和对数证据,r 是通过 softmax 函数 σ 以获得适当概率的自下而上消息。

等式 4 表示代理对可能产生当前感知的可能原因有一些先前的假设。因此,它通过组合这些连续假设并用各自的离散概率对它们进行加权,对较低水平做出最佳猜测(参见公式 5 和图 2a)。流程的另一端以镜面方式工作:通过首先在一定时间内维护真实后验的分数(即对数证据 Lm),可以找到最能解释当前情况的真实假设,与代理可以选择的假设集相关的隐藏原因。然后,它将分数与惊喜中编码的先前期望进行比较 - ln sm(见图 2b)。

一如既往,期望和证据之间存在着微妙的平衡。除此之外,还有一个很大的问题是代理的假设集是先验确定的,因此只能用固定连续状态的平均值来解释观察结果。考虑到引言中提到的两个例子,让我们假设一个智能体的目标是在每次试验中随机选择多个目标之一并达到它,而第二个智能体的目标是推断另一个智能体的轨迹,具体取决于 同一套假设通过将目标位置视为简化的先验并将其与通过观察推断出的隐藏原因进行比较,可以轻松解决该问题。然而,如果目标不断移动,代理就会推理失败,因为它无法快速更新其简化模型。类似的行为出现在第二个示例中:在这种情况下,需要一个离散模型来推断抓住物体所需的正确动作序列,即到达然后抓住。同样,如果物体在第一个动作期间没有移动,那么任务就很容易;然而,在后一种情况下,代理会将旧对象的位置分配给相同的离散状态,从而导致任务失败。此外,物体不仅可能在第一次到达运动期间移动,而且可能在抓取阶段移动,因此智能体必须根据物体在每个连续时刻的位置仔细平衡这两个动作。方程 6 的累积周期实际上限制了模型更改必须实现的完整先验或将不断变化的证据与其固定的简化假设集进行比较的频率。

简而言之,隐藏原因和简化模型之间的比较只能处理静态条件,如果环境包含动态元素,则需要更新代理用于对其离散概率进行评分的简化连续信号。那么如何利用动态表示进行规划和推理呢?

首先,我们可以将隐藏原因 v 视为直接从分类分布生成:

此时,我们定义了 V 个简化先验概率分布和关于隐藏状态的完整先验模型:

请注意,

不是隐藏原因的后验概率,后验概率用

表示,而是第 v 个动力学函数的隐藏状态的后验概率。从图 3 可以更好地理解方程 8 和 9 的含义,该图突出显示了离散和连续表示之间的三种不同类型的消息交换。

在前向传递过程中,每个时间顺序的离散隐藏原因用于执行 BMA,其中动态生成的轨迹与其模型一样多:

结果是,尽管离散模型编码与以前相同的状态,但后者在每个连续步骤与隐藏状态的不同轨迹相关联。换句话说,智能体不会维持对环境原因的固定先验,而是根据当前感知的轨迹定义可能的未来轨迹的动态先验。通过这种方式,离散模型可以施加高级操作,从而在整个连续的证据积累期间产生动态行为。

对于后者,隐藏原因的每个模型都像以前一样进行评分,但现在将当前轨迹的后验与隐藏状态的动态函数生成的后验进行比较:

以精度

表示。此时,对于每个时间顺序,在先前的意外(在本例中为

的元素)和时间 T 内积累的日志证据之间执行 BMC:

自下而上的消息

传达了最有可能产生当前轨迹的原因

。但由于后者不断产生减少的先验,因此可以推断出与整个证据积累期间的动态路径相对应的原因。

关于另一个反向传播,实际轨迹与完整先验之间的动态预测误差:

通过完整先验相对于隐藏状态后验的梯度进行反向传播:

该梯度编码了平均未来轨迹如何映射回当前轨迹。具体来说,对于每个时间顺序,推断从前一个顺序生成的最可能的连续状态。

该架构有两个镜面结果,与前面的两个示例相关。另一个目标是到达多个移动目标之一的智能体的意图可以通过根据另一个智能体的手和每个目标的位置生成和比较动态轨迹来发现,这两者都是从感官观察中不断推断出来的。类似地,抓取移动物体分为以下步骤:(i)离散模型预测与到达动作相对应的隐藏原因;(ii) 隐藏原因通过基于当前轨迹生成平均轨迹来引导较低级别的动态;(iii)有偏差的轨迹在动态预测误差方面反向传播,最终生成运动所需的本体感觉预测;(iv) 经过一段时间 T 后,离散后向传递根据积累的证据推断出最可能的隐藏原因,即表明原因是否已实现,离散模型最终预测下一个(抓取)动作。

此外,离散框架会产生并行性:如果

设置为 1,所有其他设置为 0,则隐藏状态将仅受原因 v 影响;如果多个隐藏原因处于活动状态,则隐藏状态将被拉向它们的组合,就像高级策略为下面的离散隐藏状态生成转换一样。换句话说,我们可以将隐藏的原因视为对代理人的意图及其假设进行编码。尤其,方程 11 的精度

可以用与传感精度

镜像的透视来解释。如果动力学函数具有很强的精度,则意味着它是最小化当前上下文中的自由能的一个不错的选择,或者更明确地说,对于推断当前智能体的轨迹和实现其期望的目标来说,它是一个不错的选择。相反,低精度意味着智能体对使用该轨迹执行所考虑的任务没有信心——例如,当物体超出范围时的抓取动作——或者它对理解世界事态没有帮助—— 例如,远离另一个特工手的目标。

总之,存在两个并发过程:一个快速过程,根据高级期望和低级证据推断并强加一条轨迹;一个缓慢的过程,对每个轨迹进行评分并学习最适合给定上下文的轨迹。

2.2 Two examples of Dynamic Inference

在这里,我们简要描述动态推理的两个例子。在第一个中,我们infer the intention of an agent based on the trajectories of its arm and two targets。第二个例子描述了智能体旨在到达并抓住移动物体的控制过程。

2.2.1 Trajectory Inference

我们首先考虑这样一种情况:代理正在到达两个移动目标之一,并且我们想要推断它正在跟随哪一个。任务的动态性质可以通过意图的定义来解决[30, 31],定义为从当前连续信念生成可能的未来状态的函数。在主动推理中,信念不仅可以通过推断感官信号的原因来更新,还可以通过定义其随时间演变的先验来更新。隐藏状态的动态不一定需要与真实的生成过程相同:实际上 , 它是这个使代理人能够满足先前期望的差异。信念动态可以被视为两个组成部分的组合(尽管这种区别纯粹是形式上的,因为从代理的角度来看,只有一个动态):(i)从过去的经验中学习并基于 对环境的合理假设——例如,如果我看到一个球在移动,我可能有一个先验,它会遵循线性轨迹;(ii) 这种动力的扭曲愿景取决于代理人的愿望——例如,我可以认为我的手被拉向球,即使外部世界不存在这样的力量,它也会推动我的信念 我的期望,最终影响了我手的动作。

图 4 显示了可以执行所呈现任务的模型的图形表示。这是一项基本任务,不涉及高层规划,因此我们没有包含离散模型,并且我们考虑了隐藏原因的无信息先验。该代理由具有单一自由度 (DoF) 的手臂组成。其感觉模式是:(i)手臂关节角度的本体感觉观察操作op;(ii) 对手和两个目标的笛卡尔位置进行编码的视觉观察ov。

由于外在信念对于这项任务并不是严格必要的,因此我们仅在内在坐标(例如关节角度)中表达对隐藏状态 µ 的信念,从而生成并整合两种感觉模态。这种信念编码了有关环境所有三个要素的信息:

本体感受预测(推断身体主体的运动学配置所需)是通过函数 gp 生成的,该函数简单地从信念中提取手臂的关节角度:

相反,视觉预测是通过隐藏状态组件的正向运动学 J 生成的:

其中

是臂长,而

是角度的正弦和余弦。换句话说,视觉似然

对每个元素执行从关节角度到笛卡尔位置的正向运动学。虽然隐藏状态的第一个组件(即代理的身体)的解释是直观的,但其他组件可以被视为编码可能生成对象位置的推断配置。简而言之,它们可以被视为维持代理对特定对象的可供性的状态。

然后通过将预测与相应的观测值进行比较来计算预测误差:

另一方面,对隐藏原因 ν 的信念(由具有统一先验的分类分布生成)只有两个元素,代表智能体遵循第一个或第二个目标的意图:

信念动态可能非常复杂,并考虑到许多因素,包括多个时间顺序——摩擦、重力等——但在下文中,我们假设它取决于这些意图的组合,并且代理是速度控制的。因此,我们定义了两个函数,将手臂的关节角度设置为等于推断的目标配置:

接下来,我们为每个意图定义一个简化的动态函数,充当与当前信念和期望信念之间的误差成比例的吸引力:

其中 λ 是吸引子增益。

总之,如果每个对象 fv 的简化动力学函数编码了智能体到达它的意图(这意味着将身体的组件设置为等于推断的对象配置),这将生成一条指向该对象的轨迹(即,智能体认为 它的手臂将被拉向推断的目标位置)。平均速度是通过对简化的动力学函数与相应的隐藏原因进行加权得出的(如公式 10 所示),然后用于计算动力学预测误差:

最后,我们可以表达隐藏状态的更新:

另一方面,轨迹推断是通过方程 11 和 12 完成的,其中简化模型的后验通过方程 42 计算。然后,相应的简化对数证据

将评估未来可能的轨迹在多大程度上可以解释以下轨迹:代理人目前正在感知和实现。在无信息先验的情况下,隐藏原因 v 将积累物体移动的整个时期的证据,并推断出每个智能体意图的正确概率。

最后请注意,在图 4 所示的模型中,隐藏状态的两个顺序都依赖于相同的隐藏原因:因此,如果定义了二阶动力学和本体感受观察,智能体还可以考虑物体的加速度,以通过自由能

推断相同的意图。

图 5 说明了该模型的实际应用。手臂和两个目标以恒定角速度移动。但是,红色圆圈和灰色方块分别比手臂移动得慢和快(见图 5a)。如图 5b 所示,两个隐藏原因都以相同的概率初始化,但当手臂接近第一个目标位置时,第一个原因缓慢增加。然后,它达到最大值,之后开始缓慢下降,直到第二个原因接管。总的来说,这个简单的任务表明该模型可以区分生成动态轨迹的原因。

2.2.2 Object Grasping

抓取移动物体(其图形模型如图 6 所示)需要更复杂的计算。在这种情况下,高级模型使用离散状态编码执行规划:(i)手是否位于物体的位置;(ii) 手是张还是合;(iii) 手是否抓住了物体。总的来说,这些因素组合成 8 种可能的过程状态。这些状态通过似然矩阵 Ai 和 Ae 同时生成对内在和外在模态的隐藏原因的离散预测。正如[31]中所解释的,保持对外部信息 xe 的信念极大地简化了计算,因为它允许表达笛卡尔动力学而无需担心到关节角度的逆映射,这是通过通过推理反转正向运动模型 ge 来实现的。通过这种架构,我们可以轻松地分别通过内在(对应于手的张开或闭合状态)和外在(对应于手的位置)动态来表达抓取和到达意图。尽管如此,更高级的动作——例如通过特定的手腕旋转抓取物体——可以通过也在内在模态中表达到达意图来实现[32]。最后,矩阵 At 返回离散的触觉观察 ot – 由伯努利分布编码 – 表示目标是否被抓住。总之:

对于离散模型,其动作u对应于任务的三个步骤,加上一个停留动作:(i)张开手;(ii) 达到目标;(iii) 握紧手。请注意,在这个简单的实现中,隐藏的原因对应于离散的操作,因此为了简单起见,我们使用相同的符号。然而,由于它们是从离散状态生成的,因此它们通常对应于更抽象的连续轨迹。最后,定义转移矩阵B,使得只有当手和物体处于同一位置时才能抓取物体。

代理的身体是一个 8-DoF 手臂,其中最后四个关节对应于手指,并且具有相同的连续对前一个例子的观察:

视觉特征用笛卡尔坐标近似,但可以从丰富的视觉输入中推断出[30]。代理维持内在和外在模式的潜在状态:

包括与手臂和物体相对应的组件,反映视觉感官信号的分解:

由于我们对伸手任务期间手指的位置不感兴趣,因此这些函数仅计算两个手指中间的笛卡尔位置。现在,我们为每个隐藏原因定义一个意图——如何定义这些意图在[31]中进行了解释。因此,对于内在模态:

是闭合/打开角度。请注意,如前所述,这里没有使用内在信念

的对象分量。相应地,对于外在模态:

请注意,即,

预测相同的信念,并且可以被视为维持世界当前状态的意图。

和以前一样,我们现在将简化的动态函数(取决于定义的意图)与两种模式的隐藏原因相关联, 这是由离散模型预测的。隐藏状态的更新遵循前面示例的推导:

至于隐藏的原因,它们通过平均高层期望和低层证据来更新:

这些消息最终被离散模型与离散观察一起使用,以推断时间 τ 处最可能的离散隐藏状态,并以策略 π 为条件:

请注意,证据积累是在低级别内执行的,因此较高级别的模型只需计算每种模态的离散预测,并通过对来自两个较低级别模型的信息进行加权来检索证据。

与第一个例子不同,减少的自由能 Ei,v 和 Ee,v 将取决于低水平的证据:表明是否已经实现了达到或掌握的意图,以及强加下一个离散步骤的高层期望,并最终由顶部预期自由能的计算产生。因此,如果由于物体移动太快而导致抓取动作失败,从隐藏原因到离散隐藏状态的自下而上的消息将通知离散模型手离开了物体,并让它重新计算 伸手的动作。

这种行为可以在图 7b 中看到,显示了离散隐藏状态 s 和内在隐藏原因 vi 的轨迹。一旦手接近物体(t=200),模型就会第一次尝试抓取,导致跟踪状态逐渐减少,闭手状态逐渐增加。这些状态在两种模态中产生隐藏的原因,使得开放和封闭的连续意图会相应地改变。然而,由于物体距离手仍然太远,离散状态很快转变为跟踪。在大约 t=400 时,物体离手足够近,导致离散状态和连续原因发生更陡峭的变化。最终,物体被正确地抓住。

4 Methods

4.1 Bayesian Model Reduction

考虑一个带有参数 θ 和数据 y 的生成模型 p(θ, y):

然后考虑一个附加分布

,它是第一个模型的简化版本,如果某些数据的可能性在两个模型下相同,并且唯一的区别取决于先验

的规范 )。我们可以用完整模型的后验以及先验与证据的比率来表示简化模型的后验:

计算缩减后验的过程如下:首先,我们对参数进行积分以获得两个模型的证据比:

然后,我们定义一个近似的后验 q(θ),并根据以下公式计算减少的变分自由能 (VFE)完整模型:

换句话说,这个量充当了简化表示如何很好地解释完整模型的提示。类似地,简化模型的近似后验可以用完整模型的后验来编写:

拉普拉斯近似[35]导致近似后验和减少的自由能的简单形式。假设以下高斯分布:

减少的自由能变为:

以先验 P 和后验

的精度表示。降低的后验平均值和精度通过公式 39 计算:

4.2 Active Inference in Continuous Time

主动推理的假设是,生物体通过采用内部生成模型来感知环境,推断外部原因如何在真实生成过程中产生感官信号 [4, 2]。在连续域内,该过程通常被分解为包含隐藏原因

、隐藏状态

和可观察结果

的概率分布:

这些分布通过高斯函数近似:

这些对应于随后描述环境演化的非线性随机方程:

这里,D 是微分移位算子,而符号 ∼ 表示以广义坐标编码的变量,代表其瞬时轨迹。

直接计算后验

是不可行的,因为它涉及到不可访问的边际

的计算。变分方法涉及用可管理的分布(例如高斯分布)来近似后验:

其中参数

分别称为关于隐藏状态和隐藏原因的信念。感知推理的过程变成了最小化,旨在减少近似后验与实际后验之间的差异。这可以用 KL 散度来描述——相当于两个对数概率之间的差异在近似后验上的期望:

由于分母

仍然取决于边际

,KL 散度以对数证据和变分自由能 (VFE) 表示,后者被最小化。鉴于 KL 散度是非负的(由于 Jensen 不等式),VFE 充当对数证据的上限。因此,最小化 VFE 可以增强证据和模型拟合:

在给定的近似值内,自由能的最小化涉及通过以下表达式迭代更新参数:

这里

,分别代表感觉、动力学和先验信息的预测误差:

这个过程有利于代理选择与当前世界表示相对应的感觉,这体现了主动推理。这个序列进一步减少了 VFE,从而能够实现目标导向的行为,并将代理维持在可预测和更安全的空间内 [4]。

4.3 Active Inference in Discrete Time

虽然连续时间内的主动推理可以通过跟踪连续环境生成的瞬时轨迹来解决现实世界的挑战,但它确实存在一些局限性,限制了其适用性,因为它难以适应更广泛的行动,包括决策。VFE 最小化只能根据当前或过去的观察来调整近似后验,无法纳入未来可能的状态和结果。为了赋予代理这种能力,引入了一个称为预期自由能(EFE)的概念[12, 13]。第一步涉及使用策略 π 增强生成模型:

这里,s 和 o 表示离散状态和结果。值得注意的是,这些政策不仅仅是像强化学习方案中那样的刺激-反应映射;相反,它们包含一系列动作。鉴于行动规划需要选择导致期望先验的政策,还必须考虑尚未观察到的未来结果。因此,EFE 是通过对这些未观察到的结果进行调节来制定的,将它们视为隐藏状态:

这里,概率分布 p(o|C) 代表首选结果。最后两个术语分别称为认知(减少不确定性)和实用(寻求目标)术语。实际上,这个量是通过最初分解代理的生成模型来使用的,类似于 POMDP:

每个元素都可以使用分类分布来表示:

这里,D 捕获关于初始状态的信念,E 对策略的先验进行编码,A 表示似然矩阵,

是转移矩阵。假设平均场近似,其中近似后验因式分解为独立分布,该方法继续:

然后可以采用变分消息传递来推断每个后验

并将它们组合成全局后验

。为了更新隐藏状态的后验,该方法结合了来自过去和未来状态的消息以及结果。这需要表达每个项与其足够统计量的关系,然后应用 softmax 函数来实现有效的概率分布:

同样,为了更新 q(π),该方法涉及将来自策略的先验信息(由矩阵 E 表示)和来自以策略为条件的未来观察的消息组合起来。后者可以通过特定时间 τ 条件下的 EFE 来近似:

最终,选择所有策略下最可能的操作:

https://www.biorxiv.org/content/10.1101/2023.09.10.557043.abstract

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-03-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CreateAMind 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档