不教导导航的情况下进行导航

CreateAMind

发布于 2024-03-06 07:18:33

1750

文章被收录于专栏：CreateAMindCreateAMind

Spatial and Temporal Hierarchy for Autonomous Navigation using Active Inference in Minigrid Environment

不教导代理如何导航的情况下进行导航

我们从对策略的信念过渡到对策略信念的信念。这对于高层次的认知过程，如推理、规划和决策[25, 47]是必要的。

主要贡献，并讨论了未来可能的工作方向。

分层主动推理模型。我们的提案引入了一个三层次的分层主动推理模型：

认知地图统一了空间表示并记忆位置特征。
客观模型创建离散的空间表示。
自我中心模型评估策略的合理性，考虑动态限制。

这些层在不同的时间尺度上协同工作：高层通过位置监视整个环境，客观模型随着位置的变化细化位置表示，而自我中心模型则想象行动后果。

低计算需求。我们的分层主动推理模型在环境规模不同的情况下都具有较低的计算需求。这种效率在环境规模扩大时特别有价值，使我们的方法成为实际应用的潜在解决方案。

可扩展性。我们的模型有效地学习了空间布局及其连接性。通过将多样化的环境纳入学习过程，我们的方法有望适应新的场景，从而扩展客观表示。此外，引入更多的高层可能促进更大的抽象，从房间级别的学习过渡到更广泛的结构洞察。

任务无关。该系统不需要特定任务的训练，促进了对各种导航场景的适应性。它学习了环境结构并推广到新的场景，展示了对各种目标的适用性。

基于视觉的导航。利用视觉线索应该提高我们模型在实际应用中的适用性

抗混淆。我们展示了对混淆的抵抗力，能够区分相似的地方，从而在相似的地方实现了强大的导航。

虽然我们的方法提供了一些优势，但也重要承认它的局限性：

环境适应：我们的模型需要在全新环境中进行适应以实现最佳性能。在房间特定数据上训练allocentric模型限制了导航范围仅限于熟悉的环境。为了缓解这一点，并且实现对任意环境的泛化,我们可以考虑通过无监督聚类[63]或使用模型的预测误差将数据分成不同空间[64]。

识别环境变化：我们的提案可能难以检测环境变化，比如颜色改变的瓦片，尽管这可能对导航性能的影响不大，因为新的地方将在认知图中替换或添加到先前的地方，但这仍然是一个需要改进的方面。

鉴于这些贡献和局限性，我们的工作提供了一种自主导航的原则性方法。分层主动推理和世界建模的整合使我们的代理能够有效地导航和探索环境。

摘要

强有力的证据表明，人类在探索环境时使用拓扑地标和粗粒度路径积分的组合。这种方法依赖于可识别的环境特征（拓扑地标），与距离和方向的估计（粗粒度路径积分）一起，构建对周围环境的认知地图。认为这个认知地图具有分层结构，允许在解决复杂导航任务时进行有效的规划。受到人类行为的启发，本文提出了一个可扩展的分层主动推理模型，用于自主导航、探索和目标导向行为。该模型利用视觉观察和运动感知，将以好奇心驱动的探索与以目标为导向的行为相结合。运动规划使用不同层次的推理，即从上下文到地点到运动。这允许在新空间中进行高效导航，并迅速朝向目标前进。通过整合这些人类导航策略及其对环境的分层表示，该模型提出了自主导航和探索的新解决方案。该方法通过在小型网格环境中进行模拟进行验证。

主动推理；自主导航；空间层次结构，时间层次结构；预测编码

1 引言

能够在其环境中导航的自主系统的开发是迈向构建能够与现实世界互动的智能代理。就像动物拥有导航能力一样他们的环境，发展人工智能体的导航技能一直是该领域的一个热门话题机器人和人工智能[1,2,3]。这导致了各种方法的探索，包括从动物导航策略(例如构建认知地图[4])以及最新技术中获得灵感使用神经网络的技术[5]。然而，尽管取得了重大进展，但在非神经网络和基于神经网络的导航方法以下方面仍有局限性[2，3]。

在动物界，认知地图在导航中起着至关重要的作用。认知地图让动物理解他们周围的空间布局[6，7，8]，记住关键位置，解决歧义感谢上下文[9]并计划有效的路线[9，10]。通过利用认知映射策略，动物可以成功地在复杂的环境中导航，适应变化，并回到以前去过的地方。

在机器人领域，已经探索了传统的方法来开发导航系统。这些方法通常依赖于明确的映射和规划技术，如基于网格的[11,12]和/或topological地图[13,14]，以指导代理移动。虽然这些方法已经显示出一些成功，但是它们受到在处理复杂的空间关系、动态环境以及可伸缩性问题方面的限制环境变得更大[3,15,2]。

为了克服这些非神经网络方法的局限性，最近的进展集中在利用神经网络进行导航[16,5,17,18]。基于神经网络的模型，在大型数据集在直接从原始感觉输入中学习导航策略方面显示出了前景。这些models可以捕捉复杂的空间关系，并根据学习到的表达做出决定。然而，当前基于神经网络的导航方法也面临着挑战，包括需要大量的training数据、推广到看不见的环境的限制、区分混叠区域以及处理动态和变化的环境[2]。为了应对这些挑战，我们提出基于主动推理构建世界模型。主动推理是一个结合了感知、行动和学习的框架，使代理能够主动探索和理解他们的环境[19，20]。世界模型形成了世界的内部表示，有助于推理和使用主动推理框架的决策过程[21，22]。

主动推理为主体与环境的相互作用提供了一种原则性的方法。通过将导航公式化为一个主动推理问题，智能体可以不断更新他们对环境的信念通过互动积极收集信息。这使他们能够有效地做出明智的决策在世界上导航[23]。

注意到生物代理正在构建分层结构的模型，我们构建多级世界模型作为分层主动推理。分层主动推理使智能体能够利用世界的不同层次模型，促进了更高级别的空间抽象和时间粗粒度化。它能够学习环境中的复杂关系，并允许更有效的决策过程和稳健的导航能力[24]。通过将分层结构结合到主动的基于推理的导航系统中，代理能够有效应对复杂环境，以更强的适应性执行任务[25]。

在本文中，为了提高智能体自主和智能导航的能力，我们提出一个由三层组成的分层主动推理模型。我们提出的系统最高层能够学习环境结构，记住地点之间的关系，无需事先训练即可导航在一个熟悉而崭新的世界。第二层，以个体为中心的模型，学习预测房间的局部结构，而最低层，我们的以自我为中心的模型，考虑环境的动态限制。我们旨在增强代理在复杂和动态环境中导航的能力，同时保持可伸缩性和适应性

我们的贡献可以总结如下：

• 我们提出了一个系统，将分层主动推理与任务不可知的世界建模相结合，用于任务无关的自主导航。

• 我们的系统使用基于像素的视觉观察，显示在真实场景中具有潜力。

• 我们的模型学习环境的结构、其动态限制，并独立于环境大小形成完整环境的内部地图，而不需要随着环境扩展而增加计算。

• 我们的系统可以进行长期规划，而无需担心前瞻性限制。

• 我们在迷你网格房间迷宫环境[26]中评估了该系统，展示了我们方法在探索和目标相关任务方面的效率，与其他强化学习（RL）模型和其他基线相比。

• 我们对我们的工作进行了定量和定性评估，展示了我们的分层主动推理世界模型在完成给定任务时的表现，以及它如何抵抗混淆以及如何学习环境结构。

本文的后续部分将深入研究我们提出的方法的细节，包括主动推理和分层主动推理的理论基础，我们导航系统的架构，实验结果，以及我们方法的优点和局限性的全面讨论。

2 相关工作

在复杂环境中导航是人类和人工智能代理都面临的基本挑战。为了解决导航问题，传统方法通常通过构建度量（网格）地图[11, 12]和/或环境的拓扑地图[13, 14]来处理同时定位和建图（SLAM）。尽管在这个领域取得了进展，但Placed等人[3]指出，主动SLAM在复杂环境中仍然缺乏自主性。目前的方法在导航的不同方面仍然存在缺陷，例如对机器人位置的不确定性进行预测，获得对环境的抽象（例如拥有语义地图而不是精确的3D地图），以及在动态、变化的空间中进行推理。最近的研究探讨了采用机器学习技术以增加自主性和适应性技能，以便学习如何在真实世界情境中处理新场景。强化学习（RL）通常依赖于奖励来激励代理进行导航和探索。相比之下，我们的模型摆脱了这一传统，因为它在代理训练期间不需要显式定义奖励。此外，尽管最近的机器学习取得了成功，但这些技术通常需要大量的训练数据来构建准确的环境模型。这些训练数据可以从模拟中获得[27, 28]，由人类提供（无论是通过标记，如[29, 30]的工作，还是通过演示，如[31]的提议），或者通过在实验环境中收集数据[32, 33, 16]。这些方法都旨在预测在环境中采取行动的后果，但通常在不同环境之间泛化能力较差。因此，在将这些系统部署到新环境时，它们需要大量的人工干预[2]。我们的目标是通过同时使代理熟悉其环境中的结构和动态，减少人工干预和训练所需数据的数量。

在设计自主适应系统时，自然界是一个灵感的来源。Tolman的认知地图理论[34]提出，大脑构建了对空间环境的统一表示，以支持记忆和指导未来的行动。更近期的研究提出，人类在导航时创建了对空间布局的心理表示[6]，将路径和地标整合到认知地图中[7]。此外，对神经机制的研究表明，空间记忆构建在类似地图的表示中，分为具有本地参考框架的子地图[35]，而在导航任务中，人脑中进行分层规划[9]。Balaguer等人[9]和Tomov等人[10]的研究表明，分层表示对于有效规划以解决导航任务至关重要。分层提供了一个结构化的方法，使代理能够学习复杂环境，将规划分解为可管理的抽象层次，从而增强导航能力，无论是在空间上（子地图）还是在时间上（时间尺度）。因此，我们的模型将这些元素作为其运作的基础。

分层模型的概念在导航研究中引起了兴趣[25, 13]。分层结构使代理能够学习环境中的复杂关系，从而实现更有效的决策和在动态场景中增强适应性。在我们的工作中，考虑到两种主要类型的分层，即时间 - 在时间序列上规划 - [36, 37, 38, 39] 和空间 - 在结构上规划 - [24, 40, 41, 13]。

为了在不教导代理如何导航的情况下进行导航，我们采用了主动推理（AIF）的原则性方法，这是一个结合感知、行动和学习的框架。这是自主导航的一种有前途的途径[22]。通过主动探索环境并形成信念，代理可以做出明智的决策。在这个框架内，世界模型在创建环境的内部表示方面起着关键作用，促进决策过程。一些模型已经将AIF和分层模型结合起来用于导航。Safron等人[42]提出了一个分层模型，由两个复杂度层次组成，用于学习环境的结构。最低层推断每个步骤的状态，而更高层以更粗略的方式表示位置。然而，对于大型、复杂、有别名和/或动态的环境，这种模型存在挑战。Nozari等人[43]展示了一个分层系统，通过在naive和专家代理上使用动态贝叶斯网络（DBN），naive学习时间关系，最高层捕获关于环境的语义信息，低级分布捕获与时间相关的粗略感知信息及其在时间上的演变。然而，该系统需要通过模仿学习获得专家数据，这限制了模型的性能与专家的性能相匹配。我们的研究侧重于使模型熟悉环境结构，而不是在环境中学习最优策略。这种方法增强了模型的自主性和适应性以应对动态变化。此外，空间和时间分层抽象的结合有效地减轻了别名的模糊性，并扩展了代理的规划视野，以改善决策制定。

总的来说，这些研究为人类使用的认知地图策略、在导航中使用分层表示的好处以及在环境中进行决策制定时应用主动推理和世界模型提供了深刻的见解。分层主动推理的概念为通过复杂和动态环境实现健壮而高效的导航提供了可能的基础。在这一思路中，我们的工作提出了一种在环境中使用基于像素的分层生成模型学习世界并通过其导航的新替代方案。

3 方法

本节介绍了本研究提出的导航框架的详细内容。它分为几个小节，首先探讨了世界模型及其在捕捉环境方面的重要性。然后我们深入研究主动推理、通过推理进行规划以及我们的分层主动推理模型。接下来，我们讨论了模型的具体组件，包括自我中心模型、全局中心模型和认知地图。关于导航的小节涵盖了关键机制，如基于好奇心的探索、不确定性解决和目标达成。最后，我们通过对培训过程的简要概述来总结。

3.1 世界模型

我们首先在导航的背景下介绍世界模型的概念。任何代理，无论是人工的还是自然的，只能通过感知观察感知其周围环境，并通过行动改变其周围环境。这个统计边界的概念，称为马尔科夫毯（Markov Blanket），在定义代理与其环境之间的信息流时起着至关重要的作用[44, 23]。

代理的世界模型可以定义为部分可观察，对应于部分可观察马尔科夫决策过程（POMDP）。在主动推理的框架中，这些世界模型是生成型的，它们捕捉隐藏原因如何通过行动生成观察。给定一组观察o和行动a，代理创建一个潜在状态s，表示其对世界的信念。这对应于概率分布P(˜s|˜o, ˜a, π)，其中波浪线用于表示序列，定义代理的信念状态、观察、行动和策略。在这个形式化中，策略π实质上只是从时间t到一定时间T的一系列行动。

我们假设世界模型是马尔可夫的，这样做不失一般性，因此代理在时间步骤t的状态st仅受到前一个状态st−1和动作at−1的影响。

在技术上，生成模型可以用上述解释的符号表示如下[38]：

3.2 主动推理

马尔科夫毯充当了代理和环境之间的屏障，限制了代理对世界状态的直接知识。因此，代理必须依赖观察来评估其行动的效果。这需要贝叶斯推断，根据观察到的动作及其相应的观察来修订对潜在状态值的信念。事实上，代理使用后验信念 P(˜s|˜o, ˜a) 推断其信念状态 s [19]。

在实践中，从方程1中纯粹基于贝叶斯规则导出的这种形式的真后验通常是难以处理的。为了防止这种情况，代理采用变分推断，并通过某个可处理的形式 Q(˜s|˜o, ˜a) 来近似真后验分布[45]。

估计的后验分布可以分解为如下提出的模型：

这个近似后验将从观察和动作映射到用于推理世界的内部状态。假定代理根据自由能原理行事，该原理指出所有代理都致力于最小化其变分自由能[19]。鉴于我们的生成模型，我们可以以下列方式形式化变分自由能 F [38]:

这个方程描述了对过去和现在观察的感知过程，其中最小化变分自由能导致近似后验越来越与真实后验信念一致。基本上，这意味着这个过程涉及形成关于隐藏状态的信念，这些信念提供了对观察结果的精确而简洁的解释，同时最小化了复杂性。在这种情况下，复杂性是先验和后验信念之间的差异，表示在从先验到后验的过程中调整信念的程度[40]。

3.3 推理规划

在主动推理中，期望代理采取的行动是最小化未来的自由能。相对于未来观察最小化自由能鼓励代理获取额外观察以最大化其证据，因此可以作为一种自然的探索策略。然而，由于代理无法获得未来的观察和行动，因此代理最小化其预期自由能（EFE）。为了计算这个预期自由能 G，分析了采用多种策略（即行动序列）对未来自由能的影响。

对于生成模型，某个策略 π 和未来的时间步 τ 的预期自由能 G(π, τ ) 定义如下：

预期自由能自然地平衡了代理朝向其偏好（即信息增益）的驱动与通往目标路径的预期不确定性（即效用值）[25, 46]。

为了有效导航，复杂的推理sophisticated inference是主动推理中的一个关键概念，考虑到关于环境的当前知识，它涉及选择在未来时间步骤中考虑到预期惊喜的策略[47]。

虽然可以省略对先前状态的策略的依赖性，但代理希望达到其首选世界状态的欲望无论追求哪种策略都保持明显。对于代理考虑的每个未来时间步骤，都会计算预期自由能，然后进行聚合以推断达到首选状态的最可能行动序列。通过以下方式实现对策略的信念：

其中，σ是用温度参数 γ 调节的 softmax 函数，将对策略的预期自由能转化为策略的分类分布。通过使用复杂的推理sophisticated inference，规划被转化为一个推理问题，对策略的信念与它们的预期自由能成比例。Softmax 温度 γ 表示代理对其当前策略信念的信心。总体而言，复杂的推理sophisticated inference允许代理提前规划并随时间优化其行为，考虑到环境的不确定性和复杂性以实现其目标。换句话说，我们从对策略的信念过渡到对策略信念的信念。这对于高层次的认知过程，如推理、规划和决策[25, 47]是必要的。

3.4 分层主动推理模型

主动推理使我们能够规划一段时间；然而，采用捕捉环境在单一状态或层中的非分层模型表现出许多限制。这些模型通常对别名效果较弱，因为它们缺乏区分相同观察的抽象能力。其次，它们通常受限于模型的前瞻视野，并且由于设计原因，其短时记忆，使得长期规划具有危险性。

此外，在环境发生意外变化时，这些模型通常缺乏适应性。最后，环境越大，为使这样的模型形成全面的表示可能需要更多的计算资源[48, 46]。

因此，在导航中，人们追求采用分层模型，通过添加层次来捕捉分层结构和关系，从而在抽象性、泛化性和适应性方面获得优势[25, 49]。

从这个角度来看，我们提出了一个分层生成模型，由三个层次的推理组成，以嵌套的时间尺度运作，旨在实现对时间和空间的更灵活的推理（见图1）。按照抽象级别递减的顺序：(a) 认知地图，创建一个一致的拓扑地图，(b) 全局中心模型，表示空间，(c) 自我中心模型，建模运动。随着时间的推移，环境的结构通过将视觉观察聚合成不同位置（例如房间）的表示而被推断出来，而最高层则发现迷宫的连通结构，形成一个图。生成模型的完整联合分布可以写成方程7中的形式，其中我们分别使用 T、t 和 τ 明确标记了三个不同的嵌套时间尺度：

图1：我们的生成模型按照方程7的定义在时间和层次上展开。左图显示了3层次分层主动推理模型的图形模型，包括a) 认知地图，b) 全局中心模型和c) 自我中心模型，每个模型在不同的时间尺度上运行。橙色圆圈表示必须推断的潜在状态，蓝色圆圈表示可观察的结果，白色圆圈表示待推断的内部变量。右侧可视化了每个层次的表示。认知地图被表示为d) a topological graph composed of all the locations（l）及其连接组成的拓扑图，其中每个位置存储在一个不同的节点中。全局中心模型e) 通过整合状态（s）和姿态（p）的序列来推断地点表示（z），从而可以生成房间结构。自我中心模型f) 根据当前位置、状态（s）和可能的行动（a）来想象未来的观察。这里o) 描述了实际观察（o）以及可能的行动向左i)、向前移动ii)和向右转iii)的预测观察。

在生成模型的最顶层，有认知地图，如图1a所示，它在最粗的时间尺度（T）上运行。在这个时间尺度上的每个滴答对应于一个独特的位置（lT），整合了地点（zT）的初始位置（pT0）。这些位置在拓扑图中表示为节点，如图1d所示。随着代理从一个位置移动到另一个位置，节点之间添加边，有效地学习了迷宫的结构。为了保持位置之间的空间关系，代理利用了一个连续吸引子网络（CAN），类似于[50]，以追踪其相对旋转和平移。因此，认知地图形成了对环境的全面表示，使代理能够导航并理解其周围环境。

中间层，全局中心模型，如图1b所示，在构建环境的一致公式（zT）方面发挥着至关重要的作用。该模型在更细的时间尺度（t）上运行，通过整合一系列观察（sT0:t）和姿势（pT0:t）来生成有关地点的信念，从而创建此表示[51, 52]。生成的地点，如图1e和图5所示，根据累积的观察来定义环境。当代理从一个地方过渡到另一个地方，并且当前观察不再与先前形成的地方的预测相符时，全局中心模型将重置其地方描述并收集新证据以构建新发现的房间的表示（zT+1）。此进展对应于较粗时间尺度上的一个滴答，中间时间尺度t被重置为0。

然后最底层称为自我中心模型，如图1c所示，它在最精细的时间尺度（τ）上运行。该模型利用先前状态（stτ）和当前行动（atτ+1）来推断当前观察（otτ+1）[38]。通过考虑其当前位置，模型生成潜在的未来轨迹，同时考虑环境约束，例如无法穿过墙壁。图1f展示了中心o的当前观察，并可视化了如果代理向左i)、向右iii)或向前移动ii)可能的观察。

重要的是要注意这三个层次在不同的时间尺度上运作。尽管变量的完整序列涵盖了环境中相同的时间段，模型的不同层次在不同的抽象级别上运行。较高层在较粗的时间尺度上运行，这意味着在单个较高层步骤中发生许多较低层时间步。自我中心模型在细粒度时间尺度τ上运作，负责动态决策和路径积分。全局中心模型在较粗的时间尺度t上运作，其中一段时间t内的姿势p的序列更新特定位置zT。在这个模型中，任何时间t，姿势pt和地点zT都可以返还相应的观察ot。在最顶层，时间分辨率最低，时钟的单个滴答对应于一个独特的位置l，与该时间的全局中心模型相关联。这是在不考虑较低层的中间时间步骤的情况下完成的。

这种分层安排使代理能够在时间和空间上更进一步地推理其环境。在时间上，以最高层的方式规划一步（例如计划改变位置）相当于在较低层次上规划多步，这种模式在整个层次结构中持续。在空间上，环境以抽象级别的形式组织，随着向下移动层次（例如，从单个房间的详细信息到房间之间的连接），变得更加详细。

接下来，我们将从底层向上逐层讨论模型的每个层次的细节。

3.4.1 自我中心模型

自我中心模型通过代理的观察、行动、策略、信念状态及其相应的近似后验的联合概率学习其潜在状态。它包括一个过渡transition model模型，用于在状态之间过渡时纳入行动，用于生成基于像素的观察的可能性likelihood model模型，以及基于状态估计碰撞概率，以及用于将过去的事件整合到当前状态的后验posterior model模型。

图2: 自我中心层的生成模型：POMDP描绘了从过去和现在（直到时间步τ）到未来（从时间步τ+1）的模型过渡。状态sτ由相应的观察oτ确定，并受到前一状态sτ−1和行动aτ−1的影响，生成补充的碰撞观察cτ。行动以及两个观察都被假定是可观察的，用蓝色表示。在未来，由策略π定义的行动影响新状态（橙色）和新预测（灰色）。

自我中心模型通过合并先前的行动（a）和来自环境的最新视觉观察（o）不断更新对状态（s）的信念[38]。这个信念修正过程在方程8中描述。

连续状态的整合形成了模型的短期记忆。通过与环境边界（例如墙壁）的试错过程，它获得对环境动态的内在理解。这种学习伴随着由主动推理引入的动作和后果的概念。模型的观察是环境中的视觉观察（o）和动态碰撞（c）。

自我中心模型作为整体模型的最低层，负责预测策略的动态可行性。它会根据其对环境的理解放弃任何被视为不可能的行动序列。此外，自我中心模型在代理对全局中心模型的信念感到不确定时通过进行短期预测来促进以好奇心为驱动的探索，起着至关重要的作用。

3.4.2 全球中心模型

全局中心模型负责生成描述代理周围环境的环境状态。它依赖于生成查询网络（GQN）[51, 52]。为了形成对代理环境的概念，通过与世界的交互，其关于世界的内在信念被更新，从而产生了位置（潜在状态z）positions (p)和相应的观察（o）[51, 52]。相应的联合概率分布P(z, ˜o, p˜)分别定义了代理的信念状态、观察和姿势的概率分布，以及这个全局中心模型的近似后验是：

图3：全局中心层的生成模型，作为贝叶斯网络呈现。一个地方由潜变量z考虑和描述。观察ot取决于由z描述的地方和代理的位置pt。从0到t，已经访问了位置并用于推断对联合分布的信念。未来的视点pt+1尚未被访问或观察。观察到的变量以蓝色显示，推断出的变量以白色显示，预测以灰色呈现。

因此，该模型将信息块压缩成对环境的简明描述。在本文中，我们将其中一个信息块称为地点，但它也可以表示上下文，如Neacsu等人所定义[40]。

为了将信息正确地压缩到适当的地点，根据预测误差使用事件边界将较低级别的状态序列分隔开[53, 54]。每个形成的地点（状态z）代表环境的静态结构。动态环境将导致生成新的地点。更新或生成新地点的过程涉及评估代理在认知地图中的估计全局位置。如果地点被识别，则此评估结果闭环，否则将创建新的信念。

每个新地点都有自己的局部参考框架，以信任的pose作为原点。

3.4.3 认知地图

认知地图负责记忆地点并将它们与全局空间中的相对位置进行匹配。它通过创建我们称之为经验或位置的节点来实现这一点。创建多个经验会生成环境的度量拓扑图，使系统能够整合位置之间的距离和连接的概念。

连续吸引网络（CAN）用于处理运动集成。该网络处理连续时间步中的连续动作，允许估计代理在3D网格中的平移和旋转[50]。CAN的架构采用相互连接的单元，具有兴奋性和抑制性连接，模拟了导航神经元（称为网格细胞）的行为，这些神经元存在于各种哺乳动物中[55]，内部测量机器人姿势的预期差异（即其坐标x、y和绕z轴的相对旋转）。CAN沿其边缘环绕，适应比网格单元数量更大的空间。每个网格单元的激活值表示模型对机器人相对姿势的信念，多个激活的单元表示对多个假设的不同信念。最高激活的单元表示当前最可能的姿势。当地点潜在状态（z）与其他状态显着不同时，运动和本体感知翻译会修改单元活动，而视图-单元链接在地点潜在状态（z）明显不同时修改活动。通过余弦相似性得分确定。

当有一个经验被激发时，它会在存储的姿势估计上向CAN添加一个激活[42, 56]。由allocentric模型生成的每个新的位置和地点（z）的组合都会在认知地图中发展出一个新的经验，该经验由拓扑图中的节点表示。这样的节点整合了视图单元（地点）、位置以及所访问位置的姿态单元[41]。每个地点参考框架通过记住地点参考框架的本地姿态原点并将其与位置全局位置关联起来，将其映射到认知地图的全局参考框架中。当代理开始移动时，全局框架是用这个第一次运动作为全局参考框架的原点而创建的。

在导航过程中，会考虑上下文以闭合循环。当当前信念与过去的经验地点相符时，相应的视图单元激活。然而，为了解决潜在的混淆，代理还会考虑其全局位置。如果确定位置与过去的经验地点太远（基于设定的阈值），则会创建一个新的地点。这个新地点将适应新的视觉输入，而不影响与过去经验相关联的现有视图单元。

3.5 导航

该模型经过训练以学习环境的结构，因此应能够完成各种通过主动推理进行调控的导航任务。因此，代理能够在不需要额外训练的情况下实现以下导航任务。

1. 探索。代理能够通过评估从预测路径中获得的惊喜来探索环境。

2. 达到目标。代理可以被赋予一个观察作为偏好，尝试回忆与此观察匹配的任何过去位置，并规划朝向该位置的最佳路径或搜索它。

为了找到合适的导航策略，我们需要评估一系列考虑了多个行动的策略。为此，我们定义一个前瞻参数，确定在评估候选策略时考虑的未来行动数。由于考虑每个位置的每个可能行动在增加的前瞻值下是不可行的，我们将搜索限制为直线策略，如图4所示。

图4: 插图展示了包围代理周围区域的右上象限的L形路径。在这种情况下选择的前瞻距离为2。

为了制定这些有效的策略，我们在代理周围设想了一个宽度等于期望前瞻距离的正方形边界。然后，该正方形边界被划分为段，每个段被视为不同的目标。我们的覆盖方法包括制定从代理位置起始并延伸到这些分段目标的L形路径。通过逐渐延长从代理开始的向量，我们确保了对整个区域的全面覆盖。这种策略导致了在正方形区域内的每个位置都从两个不同的方向接近，如图4所示，位于正方形区域的一个四分之一内。这种方法允许在不冒险不可计算的情况下使用扩展的前瞻距离。

一旦生成了这些策略，egocentric模型评估它们的合理性并截断导致与墙碰撞的任何动作序列。使用这些合理的策略，代理的导航由主动推理引导。当代理对其世界信念有很高的信心时，它的动作由以下方程中的变量权重确定，从而使其探索或追求特定的目标。

所以，Q'和P'分别是allocentric模型的近似后验和先验，而Q和P则是egocentric模型的近似后验和先验。这个公式中的权重被看作是模型的自适应参数。如果有一个定义好的首选观察g，它会有效地驱使代理朝着达到这个观察的方向前进。egocentric和allocentric模型都用于推断目标的存在，使用相同的对数偏好机制。egocentric模型纠正allocentric模型在目标位置的可能错误记忆，当两者之间存在差异时，通过W4的权重处理，使egocentric模型在这两者之间取得优势。因此，尽管egocentric模型被信任在其直接邻近的区域内推断目标，allocentric模型则被信任通过从最新到最老的所有先前访问的地点来搜索这个目标的记忆。对于在多个地点之间进行长期规划，该模型旨在通过对通向目标的地点进行复杂的主动推理来到达包含首选观察的地方。具体而言，使用最短路径算法，如Dijkstra [57]，考虑地点之间的距离、要穿越的地点数量以及地点之间的连接概率，从而允许根据我们对可能和不可能的地点之间连接的权重选择更贪婪或保守的方法。在这项工作中，推理被设置为保守，未连接的地点被认为不太可能更快地导向目标。代理通过将从一个地方到下一个地方的位置观察设置为等式10中的子目标C来从一个地方移动到另一个地方。代理通过搜索这个首选观察g，同时考虑它的移向方向来生成适当的策略。

在没有任何偏好的情况下，代理不会优先考虑任何特定的观察，因此在两个模型中寻求偏好的权重(W3和W4)为零，促使代理参与探索。

在探索过程中，代理着重于最大化基于预期后验的预测信息增益。由于代理在表征一个地点后认为对环境有清晰的理解，观察中的不确定性变得不太相关。与寻求偏好类似，如果allocentric模型无法确定探索新领域的相关策略，egocentric模型会鼓励代理冒险超越熟悉的环境。重要的是要记住，潜在状态z描述一个地方，并不涵盖整个环境。一旦模型认为一个地方不能再解释观察结果，它将重置其信念并形成一个新的地方。为了想象从一个地方过渡到另一个地方，认知地图考虑代理预测的位置以转移参考位置，结果是未访问的位置更具吸引力，因为它们具有高度意外的预测，与访问过的地方形成对比。

在地点之间过渡时，allocentric模型对当前地点的信心降至预定义的阈值以下。通常，需要多个步骤来在给定观察的情况下建立对所访问地点的信心。在这个阶段，方程10不用于导航。相反，我们的主要目标是确定环境的最准确的表示。为了实现这一目标，代理制定了涉及新的和记忆中的地点zn和姿势pt的假设，这些假设可能解释观察数据。模型努力获取额外的数据以收敛到一个单一的假设，准确确定其空间位置。

为了确定获得有助于收敛的观察的最佳行动，将方程11应用于每个可能的假设n。

假设的权重基于它们与egocentric模型预测的一致性。如果假设的预测与预期的观察结果非常相似，假设将获得权重。如果没有一个假设突出，它们被认为是同等可能的。

无论我们处于什么情况，然后通过以下方式推断出主导策略：

这实际上将规划视为一个推断问题，对策略的信念与变分自由能成正比。γ值提供了一个有用的平衡，因为它使得能够消除高度不太可能的策略，从而提高了规划的效率，同时也相对保守。

3.6培训

为了有效地训练这个分层模型，两个较低层次的模型被认为是独立的，并行训练。为了优化这两个自我-配准神经网络模型，首先通过与环境进行交互获得一个动作-观察对序列的数据集。这可以通过使用随机策略、类似A星的策略，甚至通过人类演示来获得。在这篇论文中，该模型在一个包含了4至7个瓷砖宽的3x3正方形房间的mini-grid环境中进行了训练，这些房间由固定长度的过道连接，随机放置，并由中间的关闭门隔开。每个房间从四种颜色（红色、绿色、蓝色和紫色）的集合中随机分配一种。地图上还可能随机出现白色瓷砖。代理可以从任何门（或靠近门的位置）开始进行训练序列。训练是在每个房间宽度从4个瓷砖到7个瓷砖的100个环境上实现的。代理在环境的7x7瓷砖的窗口范围内俯视环境，包括自己占用的瓷砖。它不能看到自己的背后，也不能看穿墙壁或关闭的门。代理解释的观察是一个形状为3x56x56的RGB像素渲染图（请参见附录B.3图17，以查看观察示例）。配准模型在每个房间大小（4到7个瓷砖）上训练了1000个序列，每个序列在学习房间结构和根据姿势和学到的地点（后验概率）预测观察之间有一个随机长度，范围在15到40之间。模型通过以下损失进行优化：

近似后验分布Q'是通过每次观察后的后验分布的因式分解建模的。对于每个观察，可以通过将关于z的后验信念相乘来获取。我们使用具有参数ϕ的编码器神经网络进行训练，以便基于单个观察和姿势组合（ok，sk）确定后验状态z。似然性使用均方误差（MSE）进行优化，其中涉及实际观察ok和预测观察oˆk [52]。为了确定位置，将代理的动作合并到随后的位置中，然后进行预测。Egocentric模型在每个房间大小的100个序列中进行训练，每个完整序列切割为20个步骤的子序列。在每个步骤中，模型预测观察应该是什么，并将其与实际观察进行比较，通过损失函数改进其后验和先验模型参数θ和ϕ：

该模型通过两部分的最小化来进行训练：一方面是在给定动作、先前历史的情况下，期望信念状态与给定动作、观察和更新历史的估计后验之间的差异。另一方面是通过最小化重构观察与输入观察之间的差异[25]，有效地优化似然参数 ξ。Egocentric和allocentric模型都使用Adam[58]进行优化。

最初设计用于在小网格环境中导航的认知地图[26]可以重新调整或适应不同的环境，而无需额外的训练。

4 结果

本文的目标是提出一种基于主动推理理论的导航模型，该模型适用于新的外观相似的环境，可以在其中添加任务要求。对于任务无关模型，没有明确的基准来评估，因此我们对该模型的评估主要集中在以下方面：

• 想象和重建代理访问的环境

• 在复杂环境中创建路径

• 消除视觉别名

• 利用记忆进行导航

此外，我们还将探讨该模型在探索环境和实现目标的能力方面与其他竞争方法进行比较。

该模型在由相连房间组成的多样化小网格迷宫环境中进行测试。我们的代理被建模为仅基于像素观察实现自主导航。

为了评估所提出模型的有效性，进行了一系列测试，每个测试都侧重于模型的特定方面。这些实验从评估构成系统的模型到评估其整体导航性能涵盖了各种方面。尽管测试场地与训练集相似，但所有测试都是在代理在训练期间从未见过的环境中进行的。

4.1 空间表示

模型描述观察到的地方的能力对于实现更高层次的推理至关重要。因此，模型实现收敛到准确或至少是独特的环境表示所需的观察越少，它就越能有效地识别一个地方并从各种视点进行导航。模型的快速收敛至关重要，但它还需要保持适应性，包括能够将关于地方的新信息（例如发现新的走廊）纳入其信念中的能力。

以下两个图展示了地方表示的准确性和收敛速度。

图5展示了地方描述的推理过程。在大约三个步骤内，基于累积的观察，相当准确地捕捉到了环境的主要特征。即使在第11步首次遇到新的通道时，模型也能够适应并生成一个良好的想象表示。每个观察对应于图中红色代理的视野清晰度，如图的代理位置行（第二行）所示（关于观察的更多细节请参见附录B.3）。

Figure 5: 随着移动代理（红色三角形）提供新的观察，房间地方表示的演变。随着观察的收集，模型能够正确重建房间的结构。

图6显示代理在其培训的房间大小部分内，在大约三次观察内稳定地实现地点描述。有趣的是，代理还展示了在训练期间未遇到过的更大房间的准确重构能力。特别是，对于8个瓷砖宽的房间，大约需要五个步骤才能获得稳定的地点描述。这展示了代理的allocentric模型在其培训范围之外的泛化能力。实验在25个环境中进行了125次运行，代理的任务是在每次新动作后从未访问的姿势预测观察。图7通过显示预测观察及其对应的MSE值的示例，展示了该实验的MSE值的重要性。

在我们的实验中，我们将阈值设置为0.5，以便在连续的步骤中选择一个地点进行改进。

该模型展示了根据房间的大小、颜色和形状区分空房间的能力。

4.2 导航

我们的导航测试旨在评估该模型完成明确定义任务的能力，例如在一个有别名的环境中通过探索形成空间地图。代理被设置执行两个任务，即环境探索和目标达成，在学习了熟悉的房间结构后，无需进行额外的训练。

基线。为了为导航任务建立基线，我们将我们的方法与以下进行比较：

C-BET [16]，这是一个强化学习算法，结合基于模型的规划和不确定性估计，以实现高效的探索决策制定。
随机网络蒸馏（RND）[59]，整合内在的好奇心驱动探索，激励代理访问新颖状态，旨在促进对环境的更深入理解。
Curiosity [60]，利用信息增益作为内在的奖励信号，鼓励代理探索不确定性和新奇性的区域。
基于计数的探索 [61] 使用计数机制来跟踪状态的访问情况，引导代理朝着未探索的区域前进。
Dreamerv3 [5] 代表了强化学习中世界模型的先进迭代，具有通过预测和模拟未来轨迹来改进决策制定的潜力。
A-Star算法（Oracle）[62]，是一种路径规划算法，需要环境的完整布局和起始位置，以规划两点之间的理想路径。

这些模型中的每一个都提出了基于强化学习的不同的机器人导航探索策略。所有基线模型都经过了与我们的模型完全相同的环境的训练和测试。有关每个模型的训练细节，我们参考附录 B。

测试环境包括逐渐增加规模的类似迷宫的房间，从 9 个房间增加到 20 个房间，宽度均为 4 个瓷砖。

4.2.1 探索行为

我们评估层次主动推理模型在多大程度上使我们的代理能够有效地探索环境。在没有导向模型走向目标的首选状态的情况下，代理纯粹受到认知觅食的驱使，即最大化信息增益，从而有效地推动探索 [23]。我们的评估涉及将我们的模型的性能与诸如 C-BET、Count、Curiosity、RND 模型和 Oracle 等各种模型进行比较。这些模型的任务是在从 9 个到 20 个房间的各种配置的全新环境中进行探索。虽然 Oracle 具有对环境及其初始位置的完全知识，其他模型只装备有它们的俯视图观察（在 RL 模型的情况下，还有外部奖励）。鼓励 RL 模型进行探索，直到找到预定义的目标（白色瓷砖）；然而，与白色瓷砖相关的奖励被禁用，以鼓励持续探索。值得注意的是，由于 DreamerV3 模型依赖于白色瓷砖的视觉观察来提取奖励，因此在本研究中，为了将 DreamerV3 作为以探索为导向的代理使用，需要面临有效探索的挑战，需要对环境进行调整，而不需要白色瓷砖或特定的训练。

在环境规模的30多次运行中，我们的模型在覆盖范围和速度方面展示了高效的探索，与C-BET相当，并且在所有测试环境中明显优于其他RL模型，如图9所示，我们可以看到环境中各步骤覆盖的面积百分比。此外，在所有配置中，代理比任何其他模型更频繁地成功实现所需的探索级别，如表2所示。为了使探索尝试被认为是成功的，代理必须观察至少90%的可观察环境。这一标准确保所有房间至少被观察一次，而不会因为没有捕捉到每个角落而对模型施加惩罚。由于代理无法看穿墙壁（参见附录A.4），进入房间可能会导致错过相邻的墙角，但这些墙角对代理的目标而言重要性有限。作为一个不太可能的例子，错过每个房间的所有角落瓷砖会导致9%的环境未被观察到（因此，无论环境的规模如何）。在这个探索任务中，一旦探索任务完成（探索迷宫的90%），先知就会停止探索，如图9所示，这很好地说明了理想的探索应该是什么样子以及他们必须达到的阈值。然而，为了进一步分析它们，要求其他代理在完成任务后继续探索，因此导致图中迷宫覆盖率超过90%。

图 8：每个模型的平均探索覆盖范围，计算了给定环境规模的所有测试实例（>30 次运行）。Oracle 在探索任务完成时停止探索（探索了迷宫的 90%）。

表2:每个模型在每个环境中所有运行的成功率被定义为运行的百分比

其中勘探覆盖了至少90%的环境。

4.2.2 偏好寻找行为

为了评估模型的利用行为，我们配置了基线中提到的所有模型，使它们导航到环境中的单个白色瓷砖。这在规模逐渐增大的环境中进行，范围从 9 个房间到 20 个房间。我们的模型通过设置首选观察结果（即白色瓷砖），引入了目标导向行为，正如在主动推理中通常所做的那样[23, 1]。在我们的模型中，环境中白色瓷砖的参考不是显式提供的。相反，模型的任务是根据其对白色表示的概念理解来识别白色瓷砖。这种方法使模型能够在不直接访问受测试环境中真实观察的情况下，在其生成的观察中搜索并识别白色瓷砖。在其他 RL 模型中，与环境中的这块白色瓷砖相关联了外部和内部奖励，这促使代理者探索，直到到达这块瓷砖。当代理者站在迷宫的单个白色瓷砖上时，任务被视为成功。

如果代理在 X 步内未达到目标，则认为一次运行是失败的，X 取决于环境的大小。除了 Oracle 外，所有模型开始时都不知道它们自己和目标在环境中的位置。它们需要探索，直到找到目标。图 9 根据不同的环境显示了所有模型的结果。第一列显示模型在到达目标前的平均探索程度以及在不同环境中的成功率。我们的模型平均需要的步数比其他模型少，但 Count 模型除外。然而，我们可以观察到 Count 模型也有最低的成功率。当需要穿越多个房间时，Count 模型经常无法达到目标。总体而言，我们的模型在所有环境中达到白色瓷砖的次数为 89%（见表 3），Dreamerv3 的性能较差，因为它过度拟合，在未见过的房间配置和白色瓷砖放置下无法良好地适应。这个观察结果表明，与其他模型相比，Dreamerv3 在我们的环境中可能需要更高程度的人工干预或更多的扩展数据集才能有效运作。

第二列根据规范化进行比较，显示了目标实现的比例随着步数的增加而变化，相对于 Oracle 的最佳轨迹。在大多数环境中，我们的模型在迅速到达目标方面是最有效的模型之一，80% 的运行在比 Oracle 多的步数内达到目标。第三列提供了有关成功和失败比例的额外信息，根据 Oracle 达到目标所需的相对步数。从这个图表中我们可以观察到，在目标距离起始位置较远时，大多数模型更有可能失败。我们的模型、C-BET 模型、Count 模型和 Curiosity 模型在相对步数为 0 或之前时更容易失败。这可能与模型由于 CPU 消耗过多（在 C-BET、Count 和 Curiosity 模型的情况下）或代理者认为非白色瓷砖为白色而坚持不放，从而终止任务导致的错误有关。

我们模型在位置干扰后重新定位的能力使我们能够进行一个我们称之为“ours wt prior”的补充实验。在允许模型探索环境后，我们将代理传送回其初始位置，并要求其寻找目标。这种实验设置是我们模型独有的，它依赖于拓扑地图进行定位。相比之下，基线中的其他模型依赖于顺序内存。

（"ours wt prior"指的是一个实验设置，其中模型在事先了解环境的情况下，重新回到其初始位置，然后尝试寻找目标。这个实验设计允许模型使用其在探索过程中建立的内部地图进行导航和定位。）

直观来说，人们可能会预期模型由于其内部地图而更有效地实现目标。实际上，在 3x3 房间的迷宫中，oracle 成功运行的 80% 在不到理论步数的三倍内达到目标，总体上成功运行超过 86%。然而，总体成功率低于没有先验的目标寻找实验。这种差异来自于各种因素，

图9显示了从3*3到4*5个房间环境的结果，呈现了三个图表。第一列显示了达到目标的成功率和平均步数。第二列说明了每个模型相对于oracle的性能的标准化偏差，而第三列显示了基于相对步骤偏差的成功和失败的分布。

如地图的质量和导航错误。在探索过程中生成的地图有时可能不准确，导致代理者对目标的位置形成错误的假设或沿着次优路径引导它。当模型在对环境有先验了解的情况下寻找目标时，它可能大约有 35% 的时间追求错误的目标。相比之下，在没有任何先验知识的情况下，代理者在所有环境和运行中约有 29% 的时间追寻错误的目标。此外，代理者寻找通往目标的路径时，不会对可能的捷径进行外推。因此，如果通向目标的最短路径穿过认知地图中未直接连接的房间，该路径将不是最优的。此外，受其先验指导，代理者在朝着目标前进时可能无法识别一个房间。这可能导致创建一个新的经验，缺乏与附近房间的正确连接。因此，代理者可能尝试与熟悉的房间建立联系或试图回溯，以达到最初未识别的房间。这些任务浪费了步骤。代理者对随机设置的依赖可能会在类似的情况中导致失败和成功，解释这些多种结果。尽管如此，该设置显示出了与其他模型相当的成功率。

4.3 定性评估‍‍

对特定环境进行视觉评估，以深入了解使用认知地图进行导航的好处。这些评估还涉及评估生成的认知地图与实际环境的比较。此外，我们比较各种模型采用的探索路径，以深入了解它们的导航策略。虽然这只是一些情况，但它允许更深入地了解各种模型，包括我们自己的模型的一般行为，揭示它们的导航能力以及我们模型内部表示的准确性。有关我们模型在测试过程中的系统要求的附加评估，请参见附录 A。

图 10：每个模型层面都在想象通向先前访问过的房间的轨迹。从底部到顶部，以其短时记忆为特征的自我中心模型随着时间的推移逐渐失去信息。这从第 2 步开始就很明显，在这一步之后，当代理在没有视觉输入的情况下转弯时，前面的通道不再存在。相比之下，全能模型随着时间的推移保持位置描述，但一旦它移动到当前占据的位置之外，就会遇到困难。认知地图具有关于位置之间连接的知识，能够准确推断出门后面预期的位置，导致预测与实际情况非常相似。

我们的分层模型在代理在不同房间之间导航时能够实现准确的预测，尤其是在延长的时间尺度上。相比之下，循环状态空间模型通常在跨越房间边界[51]或进行长时间前瞻[41]的预测任务中表现较差。图10展示了模型每个层在熟悉环境中对于延长的虚构轨迹的预测能力。该图展示了在将想象投射到未来，直至转移到新房间及以后的过程中，模型每个层所做的预测。- 最后一行展示了在时间推移中，自我中心模型逐渐丧失空间布局信息的情况，使其更适合短期规划。- 第三行突显了本体中心模型在环境中局限于单一位置，难以根据当前信念识别下一个房间。- 在第二行中，认知地图的想象轨迹考虑了代理的位置，能够召唤出适当的地点表示，同时估计代理在空间和时间中的运动。- 第一行显示了地面实际轨迹，与认知地图的预期非常相近。这些结果强调了分层模型在保持准确预测方面的能力，尤其是在延长导航时间的情况下，突显了其相对于传统循环状态空间模型的优越性。

为了实现自主导航，代理必须定位自己并根据视觉信息和其对场所的内部信念来纠正位置。我们在一个高度模糊的小型网格迷宫中进行导航，该迷宫由4个相连的房间组成，这些房间要么具有相同的颜色，要么具有相同的配置，要么具有相同的颜色和配置，但有一个白色瓷砖的差异，这4个房间如图11 A所示。完整的图11展示了代理对房间的探索以及在进入先前不同通道的房间时，它能够区分它们而不感到困惑。

图11：代理在一个由2乘2个房间组成的新环境中顺时针和逆时针循环的导航示例（因此从不同的门进入），共142步。顺时针导航对应于完全新的探索生成新的地点（见C。），而逆时针循环通过探索过的地方。A.)一个由4个看起来相似的房间组成的新世界（颜色或/和形状），B.)模型将每个房间关联到与之对应的不同体验id，C.)创建新地点的概率（蓝色是所有可能性中最有可能的地点）或将现有地点视为最有可能解释环境。灰色条表示同时考虑了多少个新地点，同时考虑的假设数量可以在图的右侧读取。D.)为每个经验id生成的想象地点。我们可以看到，尽管体验1不是完全准确的，但在给定它的真实观察时，它足以将其与其他房间区分开来。

实际上，当代理识别出一个新地点时，它通过考虑其位置为其创建一个新的体验，图11 B.显示了每个独特id和颜色的新生成体验。为了确定它是进入一个新地方还是回到一个已知地方，它考虑了描述当前观察的每个地方的概率，如图11 C.所示。条形图表示每一步考虑了多少个假设，线表示地方是新的还是以前访问过的概率。线的颜色对应于图11 B.中分配的体验颜色，蓝色线表示新的未识别地点。图11 D.显示了代理使用的地点的内部表示。我们可以看到，房间被准确地想象出来，即使在体验1中在通道位置上有些犹豫，也足以不使代理迷失。

在这种情况下，代理能够成功导航并在新的高度模糊环境中区分房间。代理能够识别先前访问的房间，即使从新的门进入，这表明它能够保持对环境的空间记忆。

扩展图11所示的实验，图12根据模型呈现了完整轨迹的信息增益。该图在探索或利用时呈现出明显的模式，代理首先探索四个房间，如蓝线的波动所示，然后沿着已识别的房间重新走过自己的路，根据它们的ID显示相对应的颜色。当代理进入新房间时，信息增益增加，当在一个地方行进时保持相对稳定，并在不同地方之间的过渡期间减少。当代理在步骤100左右追溯其步骤时，信息增益变得最小，表示代理已经对这些位置有了了解。信息增益的高低取决于代理对下一个观察的预测有多准确，这意味着初始对地点的信念越好，最大累积信息增益就越低。

在整个探索过程中，代理的好奇心发挥着关键作用，突显了信息增益在引导代理的探索方向时的重要性，使其朝着未访问的区域探索，而不是重访熟悉的地方。

图12: 每个访问过的地点的信息增益。蓝色曲线对应访问新地点，而彩色曲线对应如图11所示的先前访问过的地点。前100步对应代理探索4个不同房间，而其余的导航对应重新访问这些地点。与新房间相比，先前访问过的地点的信息增益要低得多。

图13直接比较了认知地图对房间重建的准确性与相应物理环境。这种比较显示，估计的地图与实际地图非常吻合，只在一些模糊的通道和底部右侧房间中过道的轻微不准确以及走道的轻微错位上观察到一些小的差异。这显示了全局位置估计的重要性，因为认知地图使用信任的位置来区分两个外观相似的房间（第二列中的紫色房间或第三列中的蓝色房间）。实际地图与想象中地图之间的这种对齐强调了我们模型内部表示在捕捉环境的结构布局方面的忠实性。

图13: a)显示真实地图，而b)是认知地图房间表示的组合。

正确的内部映射和布局结构定义使我们的模型能够在探索环境时展现出合理的决策制定。图14为相同环境中每个探索模型生成路径的说明性示例。路径由连续的离散步骤表示，从一个瓷砖到下一个瓷砖，颜色从黑色（初始步骤）渐变到白色（最终步骤）。oracle Fig 14a显示了观察95%环境的最理想路径。尽管缺乏对整体环境布局的初始了解，我们的模型表现出有趣的行为，如图14b所示。它呈现出一个循环模式，从第三个房间经过到达第一个房间。在意识到第一个房间的熟悉度后，模型随后改变航向返回第三个房间，然后探索第四个房间。这导致在212步内完成完整的探索（观察了100%的瓷砖），比C-BET Fig 14c少了151步。

Count模型显示了其无法智能地选择门以到达新房间，一次又一次地过度探索相同的环境。其低效性可能源于观察结果非常模糊。

Figure 14: 在相同的3乘4房间环境中进行勘探时每个模型所采取的路径。

我们的研究展示了我们的代理快速识别房间、导航到新地点和返回的能力，同时解决别名问题并在从新位置进入时识别先前访问过的环境。

5 讨论

本文的讨论部分旨在对所提出的分层主动推理模型进行全面分析，考虑其优点和局限性。我们概述了我们工作的主要贡献，并讨论了未来可能的工作方向。

分层主动推理模型。我们的提案引入了一个三层次的分层主动推理模型：

认知地图统一了空间表示并记忆位置特征。
客观模型创建离散的空间表示。
自我中心模型评估策略的合理性，考虑动态限制。

这些层在不同的时间尺度上协同工作：高层通过位置监视整个环境，客观模型随着位置的变化细化位置表示，而自我中心模型则想象行动后果。

任务无关。该系统不需要特定任务的训练，促进了对各种导航场景的适应性。它学习了环境结构并推广到新的场景，展示了对各种目标的适用性。

基于视觉的导航。利用视觉线索应该提高我们模型在实际应用中的适用性

抗混淆。我们展示了对混淆的抵抗力，能够区分相似的地方，从而在相似的地方实现了强大的导航。

虽然我们的方法提供了一些优势，但也重要承认它的局限性：

鉴于这些贡献和局限性，我们的工作提供了一种自主导航的原则性方法。分层主动推理和世界建模的整合使我们的代理能够有效地导航和探索环境。

我们的模型专注于学习环境结构和利用视觉线索，与动物导航其周围环境的方式一致，有助于其在实际应用中的适用性。在小型网格房间迷宫环境中的实验评估展示了我们的方法在探索和与目标相关的任务中的有效性。与其他强化学习（RL）模型（如C-Bet [16]、Count [61]、Curiosity [60]、RND [59]、DreamerV3 [5]）相比，我们的分层主动推理世界模型在探索速度和覆盖率以及达到目标的速度和成功率方面始终表现出竞争力。此外，定性评估展示了认知地图与真实环境的精度以及代理如何能够区分混淆，并利用信息增益来优化导航。

我们全面的定量和定性评估强调了我们方法的适应性和韧性。在未来的研究中，有几个方向可以进一步探讨。可以优化模型对新环境的适应性，并进一步探索处理熟悉环境变化的方法。此外，通过在规划时整合可能的未探索房间，以潜在要访问的地方的形式，向我们的认知地图添加一层理解，可以改善探索和目标寻求任务[65]。最后，我们分层结构的可扩展性和灵活性可以扩展到更复杂、动态或真实的场景，比如Memory maze [66]或Habitat [67]，以迈向真实的应用。因此，需要考虑在位置确定方面的新挑战。

总之，通过结合主动推理和分层学习的原则，我们的分层主动推理模型提供了一个初步的解决方案，有望增强自主代理在导航复杂环境中的能力。

A. 附加测试分析

在我们的方法中，当代理面对门时，门会自动打开，并在代理不再面对时关闭（通过穿过或转身）。这个特性使得代理能够专注于其运动行为。

与本研究中使用的所有强化学习（RL）模型相比，步数的增加直接对应于更大的内存使用，这通常会导致内存容量不足时失败。相反，我们的方法提供了一种明显更为高效的解决方案，最大需要1G的内存空间，并且避免了与环境大小相关的可扩展性问题。请参阅表4，其中列出了最大需要的布局，以执行最大1500步的探索/目标任务。尽管与这些结果无关，但值得注意的是，所有这些评估的系统都较慢。RL方法随着步数的增加而增长较慢，这要归功于内存缓冲区。而我们的方法较慢，是因为假设计算和策略评估不是并行的，并且可能会随着设置的空间维度和前瞻的增加而变得更大。

表4：每个模型都展示出不同的系统需求，以下表格突显了在4乘5房间环境配置中实现成功探索或目标寻找所需的最严格标准。

B 训练程序

每个模型都需要特定的考虑因素，我们将在下面进行概述。我们将从培训系统的概述开始（参见表5），然后描述用于每个模型的超参数，突出显示与它们的源论文的任何偏差，最后我们将描述为每个系统使用的观察。

B.1 系统要求

每个系统需要不同的训练时间才能达到最佳行为。所有其他强化学习模型都是为了优化其策略，与我们的模型相反，我们的模型具有随机运动，以便学习环境的结构。

Table 5: 考虑模型的培训特性。提供了有关所有模型的培训细节的见解，包括它们达到最终版本所需的培训持续时间。不幸的是，有关自我中心模型的RAM利用情况的信息不可用。

B.2 数据集

通过在相同的环境中进行培训会话，使用相同的种子生成这些环境，实现了对所有模型在相同条件下的训练。培训环境包括3乘3个房间迷宫的mini-grid，这些迷宫的特征是一系列不同大小的房间，从4个瓷砖宽到7个瓷砖宽，因此每个房间大小共计100个不同的房间。

B.3 超参数

所有基准模型均使用预设的超参数进行训练，其中 C-BET、Count、Curiosity 和 RND 使用了 Parisis et al. [16] 描述的参数。DreamerV3 使用了 Hafner et al. [5] 提出的工作，然而行为与原始配置有所修改，设置了一个“探索任务”行为和一个“贪婪探索”行为，因为原始配置在我们的场景中表现不佳。

我们的模型使用了表 6 中的超参数进行训练，表 7 中的参数用于自我中心模型。

Figure 15: 生成模型的示意图。左侧是编码器，为每对观测和位置产生一个潜在分布。该编码器由卷积层和条件层（使用 FILM [68]）交替组成，这些条件层以位置为条件。这将中间表示转换为包含从视点获取的空间信息的形式。这些潜在分布被合并形成潜在空间上的聚合分布。从中采样的向量与查询位置连接在一起，解码器利用它生成一个新的/预测的观测。解码器模仿编码器的架构，对图像进行上采样并使用卷积层进行处理，其中间隔着一个条件层（使用FiLM）对连接的信息向量进行条件处理。

Figure 16: 生成模型由3个神经网络参数化。过渡模型推断在动作 at−1 下从状态 st−1 转移到 st 的先验概率。后验模型对相同的转换进行建模，同时还考虑了当前的观测 ot。最后，似然模型将状态样本 st 解码为可能观测的分布。这些模型被递归使用，这意味着它们在每个时间步都被重复使用以生成新的估计 [38]。

B.4. 模型观察

所有模型都使用底部中心放置的代理的俯视视图，由 7×7 的图块组成，如图17所示。我们的模型和 DreamerV3 使用环境的 RGB 视图，而 C-BET、Count、Curiosity 和 RND 使用环境的平面独热编码视图以及当经过环境中的单个白色图块时的外部奖励。我们可以指出，在 RGB 图像中，代理无法穿过墙壁看到环境，如图17 a) 中所示。环境和代理视野由较亮的颜色表示。图17 b) 显示了代理看到的实际观察。

C-BET 可以采取的行动数量大大减少，与原始工作相比，限制为前进、左转、右转和待机等行动。