超越 Sora 自动学习完整的世界模型结构

CreateAMind

发布于 2024-02-26 17:13:22

970

发布于 2024-02-26 17:13:22

文章被收录于专栏：CreateAMind

时序自监督自动学习世界模型结构

原则上，该模型将自动发现正确数量的因子，以及每个因子中正确数量的状态之间的正确数量的路径。

原则上，模型会随着新样本的出现而增长，直到出现不再需要新解释的训练样本

原则上，给定适当排序的观察序列，这种方案应该学习任何(离散)状态空间模型的结构。

在一分钟左右的时间内，训练生成模型并利用其自动教学能力的范围表明了一次性使用或一次性(生成)人工智能的可能性。换句话说，原则上可以在几分钟内创建和部署生成模型，这些模型具有在特定环境下解决特定问题的机构必备条件，而不是在大量数据上训练过度表达的神经网络

原则上，这种简化模型应能更好地概括新的试验数据[71]。

根据报告奖励的结果模式，以及一系列可以从神经生物学中解读为“位置”或“边界细胞”的边缘分布[86]。图5和图7中隐含感受野的比较表明，代理已经成功地学习了它的世界模型的结构。

从神经生物学的角度来看，这种自我监督的学习可能与婴儿的探索行为有关，

信息几何，流形嵌入

摘要

本文关注离散生成模型的结构学习或发现。它侧重于贝叶斯模型选择和训练数据或内容的同化，特别强调数据被摄取的顺序。在接下来的方案中，关键的一步是根据预期自由能优先选择模型。在这种情况下，预期自由能减少到一个受约束的相互信息，其中约束继承了优于结果(即首选结果)的先验知识。产生的方案首先用于在MNIST数据集上执行图像分类，以说明基本思想，然后在更具挑战性的发现动态模型的问题上进行测试，使用简单的基于精灵的视觉解缠结范例和汉诺塔(参见，blocks world)问题。在这些例子中，生成模型被自动构建以恢复(即，解开)潜在状态的阶乘结构——以及它们的特征路径或动力学。

关键词:主动推理；主动学习；解开缠绕；结构学习；Bayesia模型选择；作为推论的计划；预期自由能

（含实验说明2万字长文）

1 介绍

本文提出了在主动推理和学习[3]下，通过贝叶斯模型选择[1，2]自动发现或构建生成模型的问题。主动推理指的是使用变分界限最大化模型证据(也称为边际似然性)；即，当生成模型需要行动的结果时，变分自由能作为对数证据的界限(也称为证据下限[4])。在这种情况下，隐含的自证可以被解读为为一个代理人的世界模型收集证据[5–7]。作为(主动)推理的必要规划[8]依赖于关于数据采样方式的先验信念。这些先验由致力于特定行动或政策的自由能量提供[6]。在这里，我们将行动的概念概括为包括选择，不仅仅是训练数据的选择，还包括最好地解释这些数据的生成模型的选择。简而言之，这导致了三个层次的信念更新，可以归因于推理、学习和选择。这里，这些嵌套优化过程分别对应于关于潜在状态、模型参数和结构的贝叶斯信念更新。这项工作的重点是模型选择或结构学习，这种学习通常使用非参数贝叶斯或流形学习的变体来解决:例如[9，10]。通过将我们自己限制在离散的状态空间模型，我们将这个问题简化为决定:给定这个新的观察结果，我们是否扩充模型？

在结构学习的上下文中，贝叶斯模型选择考虑两个模型，一个具有额外的组件(例如，额外的潜在状态)，一个没有额外的组件，并且评估两者的边际可能性，如通过它们对于相同(新)观察的变化的自由能来评分。如果两个模型的先验概率相等，那么边际概率就变成了两个模型的后验概率，具有最大后验概率的模型将被选择来解释下一个观察结果，以此类推，直到模型的表达能力足以解释所有的新数据。然而，这预先假定新的数据是由一些潜在状态产生的，这些潜在状态以前以相同的概率遇到过和没有遇到过。显然，当吸收或摄取数据时，这种先验是不合适的，因为当前数据是新样本的概率随着先前遇到的样本或训练数据的数量而降低。简而言之，我们需要有一个先验，知道有新潜在状态和没有新潜在状态的模型的相对概率。也许这种类型中最确定的先验是那些在非参数贝叶斯中发现的先验，通常基于从关于数据被抽样的分布的某些假设中继承的棒断裂过程；例如[11]。

然而，还有另一个约束或优于模型的先验，它来自于自由能原理在结构学习中的应用。当把模型选择看作是一个使期望自由能最小化的主动过程时，这种先验就出现了。直觉上，在对结果的先验预期没有约束的情况下，(负)预期自由能减少到(不可观察的)潜在状态和由这些状态产生的(可观察的)内容之间的相互信息[6]。这意味着人们可以用互信息的差异(如对数模型先验)来补充变分自由能的差异(即对数边际可能性)，以对增强模型相对于原始模型的后验概率进行评分。原则上，模型会随着新样本的出现而增长，直到出现不再有需要新解释的训练样本——以及交互信息渐近线。

我们可以将这种思路扩展到生成模型的任何结构方面。在离散状态空间模型的情况下，这变得相对简单，如部分观察马尔可夫决策过程(POMDPs)所例示的。在hidden Markov模型的最简单的情况下，上述模型选择仅仅需要评估具有和不具有附加潜在状态的模型的后验概率，已经针对变化的自由能优化了两个模型的参数。为了保证这种(主动)模型选择的通用性，我们将使用一种表达性的生成模型——它是层次可组合的——其中隐藏状态在某种平均场近似下分解。此外，我们推广了通常的POMDP，并将路径或轨迹表示为潜在变量。在传统的马尔可夫决策过程中，状态转换以动作或控制变量为条件。然而，该变量可被解读为可操作或不可操作(即，可控制或不可控制)的路径1。

使用这种生成模型，可以从模型空间中进行选择，包括:

(i) the original or parent model, (ii) a model with an additional state in each factor; (iii) a model with an additional path within each factor or (iv) a new factor

(i)原始模型或母模型，

(ii)在每个因子中具有附加状态的模型；

(iii)在每个因子内具有附加路径的模型，或者

(iv)新的因子。

一个新的因子只能有两种状态和一条路径，其中第一条路径最简单；也就是说，每个状态在一条固定的路径上向自身转移。随后的模型可以根据其变化的自由能和在合适的模型先验下选择的最可能的模型来评分。这可以对连续的数据时期重复进行，直到模型停止增长。这种结构学习的表述带来了两个关键问题。

顺序的重要性

首先，数据出现或呈现的顺序，即时间表或课程表[12，13]很重要。这源于这样一个事实，即我们正在处理的状态空间模型必须根据离散数量的路径来学习转换或动态。这里的关键主题是数据呈现的时间表或课程[12，13]。换句话说，只有当数据以产生的顺序呈现时，动力学或物理学的学习才有可能。这意味着对结构学习有一些必要的监督；在这种意义上，生成训练数据的过程必须尊重它们的顺序结构。显然，如果数据是由正在学习的过程产生的，这就不是问题。然而，它表明，在缺乏有序结构的情况下，不可能进行结构学习或任何形式的解开[14，15]。正如我们将在后面看到的，这甚至适用于静态识别或分类的环境，其中这里隐含的结构学习依赖于来自训练数据的连续不相关的采样。

1隐式一般化可以比作物理学中广义坐标的使用，其中位置和动量被视为不同的随机变量。根据这种观点，动作可以被视为改变通过状态空间的路径的力。

保持离散的重要性

第二个问题是对离散状态空间模型的承诺。这提到了本文的次要议程；也就是说，突出离散状态空间模型相对于大多数深度学习中使用的(隐式)生成模型的效用。在这里，我们将深度学习理解为使用误差反向传播和必要的可微性的同义词[16]。可微性将模型限制在支持嵌入的连续状态空间中。连续状态空间模型提供了许多吸引人的特征；尤其是在高维状态空间中。然而，在离散的状态空间模型中，人们可以做一些避开连续公式的事情[17–21]。例如:

i.通过为离散的状态(和路径)配备明确的人类可解释的语义(和语法)来确保可解释性。

ii.后验和先验的函数形式(即分类和狄利克雷分布)允许灵活和多模态的概率表示。

iii.深层结构和非线性被一个单一的似然张量所取代，从潜在状态映射到离散结果。

iv.使用张量算符和量子信息理论中的线性代数，在离散设置中计算期望的信息增益(即，期望的自由能)是简单的。

v.最后，以狄利克雷分布和伴随的张量计算的形式编码关于模型参数的不确定性是简单的。

从主动推理的角度来看，最后一点尤其重要——可能对所有仿生方案都是如此[22]。这是因为在不推断模型参数的情况下，优化关于内容潜在原因的后验信念是不可能的，反之亦然。这意味着最佳推理和学习依赖于模型参数的概率分布(即离散状态空间中的张量和连续模型中的连接权重)。这个问题在结构学习的上下文中是有预见性的，因为贝叶斯模型选择需要潜在状态和参数的后验信念2，这需要在传统架构中对连接权重的概率分布(例如，贝叶斯深度学习)。这些考虑允许我们关注离散状态空间模型，这可以提供对连续状态空间模型的补充。

本文的结构如下。首先，我们对生成模型及其变分反演进行了简要但完整的描述，特别关注基于期望自由能的主动推理、学习和选择。然后，我们通过对机器学习的应用来说明结构学习背后的一些基本概念。然后，我们考虑状态空间模型的结构学习和欧几里德空间中来自像素的动力学学习，使用类似于dSprites数据集[24]但简化的设置[25，26]。最后，我们应用相同的变分程序来解决汉诺塔问题，这通常使用诸如规划领域定义语言等技术来解决[27]。我们以随后程序的讨论结束，并询问它们在多大程度上补充了基于非参数贝叶斯和连续状态空间公式的传统方法。

2要评估边际可能性(也称为模型证据)(的界限),必须对参数后验进行边际化。

2主动推理

在这一节中，我们将演练在后续章节的数值研究中使用的模型的结构。该模型可以看作是部分观察马尔可夫决策过程(POMDP)的推广。通过为POMDP配备称为路径的随机变量，所讨论的概括涵盖了轨迹、叙述或语法——它们可能是可控的，也可能是不可控的。路径有效地挑选出潜在状态之间的动态或转换。这些模型被设计成分层结构，在某种程度上说明了深度生成模型中时间尺度的分离。换句话说，在任何给定的级别上，潜在状态之间的转换次数都大于上一级别的转换次数。这提供了一个独特的等级规范，其中任何潜在因素(与独特的状态和路径相关)的父母将他们的孩子的动态联系起来。

用于反演这些模型的变分推理方案[28]继承了它们在在线决策任务中的应用。这意味着行动选择主要依赖于对潜在状态和结构的当前信念，以及对未来观察的期望。从这个意义上说，后验信念随着每一个新的行动-结果对以在线方式依次更新。这要求在观测值的主动采样期间进行贝叶斯滤波(即，前向消息传递)，随后进行贝叶斯平滑(即，前向和后向消息传递)，以在时期结束时修改关于过去状态的后验信念。贝叶斯平滑确保了在更新模型参数(以及深度模型中父母的潜在状态)时，关于过去任何时刻的潜在状态的信念被所有可用的观察所告知。

在神经生物学中，贝叶斯过滤和平滑的结合对应于积极参与环境过程中的证据积累，随后是下一个时期之前的“重放”[29–32]。从机器学习的角度来看，这可以被视为用于在线主动推理的前向传递(c.f .，信念传播),随后是用于主动学习的后向传递(通过变化的消息传递来实现)。为了完整起见，我们试图将(转发)消息传递的所有必要表达放在图和伴随的图例中。关于状态、参数和结构的隐含信念更新分别突出了主动推理、学习和选择之间的相互依赖性。

生成模型

主动推理依赖于可观察结果(观察)的生成模型。该模型用于根据世界的预期状态来推断结果的最可能原因。这些状态(和路径)是潜在的或隐藏的，因为它们只能通过观察来推断。有些路径是可控的，因为它们可以通过行动来实现。因此，某些观察依赖于行动(例如，一个人在看哪里)，这需要生成模型在不同的情况下接受对行动组合(即政策)3（3请注意，在此设置中，策略不是一系列操作，而是简单的路径组合，其中每个隐藏因素都有关联的状态和路径。这意味着潜在地，有多少路径组合就有多少策略。）结果的期望。这些期望通过最小化变化的自由能来优化。至关重要的是，政策的先验概率取决于其预期自由能。评估了每个政策的预期自由能后，可以选择最可能的行动，并继续感知-行动循环[33]。

生成模型

图1提供了用于本文所考虑问题的生成模型的示意图。任何特定时间的结果取决于隐藏状态，而隐藏状态之间的转换取决于路径。注意，路径是随机变量，在某种意义上，粒子可以具有位置(即状态)和动量(即路径)。路径可能取决于也可能不取决于行动。得到的POMDP由一组张量指定。表示为A的第一组参数从隐藏状态映射到结果模态；例如，外部感受(例如，视觉)或本体感受(例如，眼睛位置)模态。这些参数编码了给定其隐藏原因的结果的可能性。第二组B规定了在特定路径下因子的隐藏状态之间的转换。Factors对应于不同种类的原因；例如对象的位置与类别。剩余的张量编码关于路径C和初始状态的先验信念D.

张量——编码概率映射或偶然事件——通常被参数化为狄利克雷分布，其充分统计量是浓度参数或狄利克雷计数。这些计算的是一个特定的状态或结果组合被推断的次数。我们将重点学习由狄利克雷计数编码的似然模型。

图1中的生成模型意味着结果如下生成:首先，使用期望自由能的softmax函数选择策略。使用由所选路径组合(即策略)指定的概率转移来生成隐藏状态序列。最后，这些隐藏状态以一种或多种形式产生结果。给定一系列结果，对隐藏状态的感知或推断(即，状态估计)对应于反转生成模型，而学习对应于更新模型参数。因此，感知对应于更新关于隐藏状态和路径的信念，而学习对应于以狄利克雷计数的形式积累知识。必要期望构成后验概率Q(s，u，a) = Qs(s)Qu(u)Qa(a)的充分统计量(s，u，a)。这个近似后验的隐式分解有效地将模型反演分成推理、规划和学习。

变分自由能与推论

In variational Bayesian inference (a form of approximate Bayesian inference), model inversion entails the minimisation of variational free energy with respect to the sufficient statistics of approximate posterior beliefs。这可以表示如下，其中，为了清楚起见，我们将

公式理解可以参考：

自由能公式1 VFE

世界模型为什么效果好、自由能世界模型的理论高度和潜力（信息量大）

。。请注意，狄利克雷参数编码的相互信息，在某种意义上来说，他们隐含地编码了联合分布的结果及其隐藏的原因。当归一化a张量的每一列时，我们恢复似然分布(如图12所示)；然而，我们可以对每个元素进行归一化，以恢复联合分布。

期望自由能可以被视为一个通用的目标函数，它用期望成本或约束来增加互信息。约束—由c参数化—反映了我们正在处理具有特征结果的开放系统的事实，a .这可以被解读为与自由能原理对偶的约束最大熵原理的表达[7]。或者，它可以被解读为最大互信息或最小冗余的约束原则[37–40]。在机器学习中，这种目标函数保证了解缠[14，15]，并且通常导致稀疏表示[40–43]。

当将公式(2)中的期望自由能的表达式与(1)中的变分自由能进行比较时，期望散度变成了期望信息增益。关于参数和状态的预期信息增益有时与不同的认知启示有关；即新颖性和显著性，分别为[44]。类似地，期望日志证据变成期望值，其中值是先前偏好的对数。(2)中的最后一个等式提供了补充解释；其中预期的复杂性变成了风险，而预期的不准确性变成了模糊性。

有许多最小化期望自由能的特例。例如，根据最优(贝叶斯)实验设计[46]的原则，最大化预期信息增益最大化(预期)贝叶斯惊奇[45]。这种对不确定性的解析与人为的好奇心有关[47，48]，也说明了信息的价值[49]。

预期复杂性或风险是在风险敏感或KL控制中最小化的相同数量[50，51]，并支持基于复杂性成本[52，53]和机器学习中相关方案的有限理性的(自由能)公式；例如贝叶斯强化学习[54]。更一般地说，最小化预期成本包含贝叶斯决策理论[55]。

这类生成模型可以进一步扩展层次和因子深度，这使其成为通用生成模型的核心构建块。此外，由于订阅离散状态和观测空间，变分消息传递方案变得非常简单，并对应于不动点迭代方案。附录a提供了更多详细信息。

3 主动选择模型简化

与优化参数后验概率的学习相反，贝叶斯模型选择或结构学习[56–58]可以被框定为优化模型参数的先验。贝叶斯模型简化是这种结构学习的一种自上而下的方法，它从一个表达性模型开始，并删除冗余参数。4至关重要的是，在数据被同化后，贝叶斯模型简化可以应用于后验信念。换句话说，贝叶斯模型简化是一种事后优化，它基于可能提供潜在更简单解释的替代模型来提炼当前信念[60]。

贝叶斯模型简化是统计学中普遍存在的程序的概括[61]。在目前的情况下，它简化为非常简单的东西:通过将贝叶斯规则应用于母模型和简化模型，可以直接表明自由能的变化可以用posterior Dirichlet counts a、先验计数a和先验计数来定义了简化模型a’。使用B来表示贝塔函数，我们有[62]:

这里，a’对应于在简化的先验下获得的后验概率。请参阅[63–65]，了解流行病学和神经科学的实例。

贝叶斯模型简化的替代方法是模型的自底向上扩展，以适应新的数据或内容。如果将选择一个(父)模型而不是另一个(扩充的)模型视为一种行为，则预期自由能的差异提供了模型的对数先验，可以与(可变自由能界限)对数边际似然相结合来计算它们的后验概率。这可以用对数贝叶斯因子(即优势比)来表示，在给定一些观察的情况下，比较两个模型的似然性，o:

这里，a和a’分别表示母模型m和扩充模型m’下参数的后验期望。期望自由能的差异反映了选择一个模型而不是另一个模型的信息增益。人们现在可以保留或拒绝母模型，这分别取决于对数优势比是大于还是小于零。因此，这种(主动)模型选择找到了具有精确或明确的似然映射的结构。

在结构学习的特殊情况下，人们正在有效地检验这样的假设，即每个结果要么是由以前未见过的事件状态产生的，要么是以前遇到过的。这意味着每个结果都是由潜在状态(和路径)的特定组合产生的。反过来，这需要贝叶斯模型选择来考虑潜在状态(和路径)的精确先验下的模型。因此，增强模型假设结果是由新的状态(或路径)产生的，而母模型假设结果是由先前经历的最可能的状态(或路径)产生的。

下面说明的结构学习使用状态(和路径)的可变自由能在父模型和增强模型中进行选择。如果一个增强模型有更多的证据，只有当预期自由能提供一个优于母模型的改进，且优于模型参数时，它才被接受。看待这一过程的另一种方式是，以最小化信息损失的方式压缩具有更大模型证据的模型。在接下来的内容中，我们将这些过程应用到一些熟悉的测试案例中。

4 深入解读MNIST 实验

在这一节中，我们用一个数值例子来说明最小化期望自由能所提供的主动学习和选择。我们关注一个熟悉的图像分类问题；即MNIST数字[23，67]，从离散状态空间建模的角度处理这个问题。分类或识别问题是一个推理问题；即推断产生观察到的像素集合的最可能的潜在状态。在没有生成模型的情况下，我们必须选择最可能的模型结构，并学习该结构中最可能的参数。对于识别静态模式的简单情况，生成模型是从潜在状态到结果的张量映射。关于这个似然张量的参数的后验置信可以用狄利克雷参数编码，这些参数有效地对状态和结果的特定组合的共现进行计数。给定潜在状态的组合，观察的对数似然性由狄利克雷计数的双伽玛函数给出:

请注意，因为我们处理的是静态模型，所以只有一条(静态)路径，转移张量(B)简化为单位矩阵。请进一步注意，在给定潜在状态的情况下，我们可以使用结果的条件独立性来参数化可能性(A)每个结果模态有一个单独的张量:

简而言之，离散公式不是处理大图像，而是处理许多小张量。例如，在MNIST数据集中，图像是(28×28) 784像素的集合，每个像素代表一种结果模态。每种模态都有多个级别。在MNIST数字的情况下，它们可以是黑色或白色的。或者，在概率上补充观察的情况下，黑或白的概率。这里使用的似然张量处理分类结果(即黑色像素或白色像素)。然而，在归一化之后，像素值本身是0和1之间的连续数字，这可以被视为像素是黑色或白色的概率。将像素强度视为分类结果(的概率)极大地简化了随后的推论。这就留下了计算在每个像素上产生结果的潜在状态的问题。那么，我们对数字了解多少？我们知道至少有两个因素。为了生成一个数字，我们需要知道它的类别(在“0”和“9”之间)。第二，我们需要知道它的写作风格。这里的风格包括一个人书写一个特定数字的每一种方式。显然，一个数字有101种写法。因此，如果我们坚持这种先验信念，我们能从头开始学习生成模型吗？在这个主动学习和选择的演示中，我们知道每个数字的类别标签，这意味着可以在数字因子的状态上放置精确的先验。然而，我们不知道任何数字的风格，或者，事实上，有多少风格是易于产生手写数字。然而，通过从连续样本中积累证据——从任何给定的数字类别中随机抽样——我们可以从最小生成模型开始，其中只有一种风格，并使用它来解释第一个样本。实际上，这只是意味着将(概率)观测值以狄利克雷参数的形式添加到唯一的一列似然张量中(见图1)。然后，我们可以获取第二个(训练)样本，并通过比较具有一个和两个潜在风格状态的模型的证据，询问是否允许额外的风格状态，适当地增加两个模型的先验。

通过在似然张量中增加额外的一列，预期自由能在互信息的增加或减少方面提供了一般先验。因为这实际上是一个对数先验，我们现在可以根据我们对风格的先验信念来增加它。如果有N种风格，那么当前样本以前见过的概率就是以前遇到的风格总数的比例(下面表示为H)。这个简单的超先验现在可以用来评估父模型相对于具有额外(看不见的)样式的模型的后验概率。

人们现在可以接受或拒绝具有第二潜在状态的模型，并前进到第三个样本，等等。然后，可以对每个数字类重复这一过程，以集合或学习每个像素的必要似然张量。人们甚至可以在不同的超优先级下重复这个关于风格数量上限的整个过程。在下面的例子中，我们假设有128种风格。这种超优先级意味着99.9%确定我们已经遇到了每种风格至少一次(假设所有风格都是等概率的)我们将需要大约1000个训练样本:即ℓ(0.001)/ℓ1≈880。

图2中的结果是通过使用前2048个训练样本获得的数字类，来自MNIST数据集10。左上图显示了作为样本数量的函数的风格总数，表明随着学习(和选择)的进行，新样本的摄取或同化更慢:特征曲线[68]。

7我们用对称狄利克雷分布初始化似然张量的第一列(和后续列),该分布用小浓度参数进行参数化。在这些例子中，我们使用1/16。

8注意，参数的(负)预期自由能减少到互信息，因为在这些分类问题中没有优选的结果。

9很明显，这是一个朴素的贝叶斯先验。人们可以考虑在非参数Bayes中使用的先验，它假设了无限数量的类型或类别[10]。或者，人们可以通过将风格视为“物种”来求助于关于物种发现的统计文献。然而，上面的天真先验对于我们的目的是足够的，并且产生特征风格(比较，物种)发现曲线，正如我们将在后面看到的。

10数字是从下载的https://lucidar.me/en/matlab/load-mnist-database-of-handwritten-matlab/中的数字并通过用高斯卷积核(两个像素宽)平滑进行预处理，并进行直方图均衡。512个信息量最大的像素用于结构学习和随后的分类。

有趣的是，数字“1”的样式似乎比其他任何一种都少，而数字“8”的样式最多。左上面板显示了10位数字类别的样式分布。这表明，对于大多数来说，大约有50种常见的样式，其余的样式很少出现；即一次或两次。在学习(和选择)开始时，在新风格的同化过程中，互信息快速增加，然后随着更多样本被安装到似然张量中，互信息缓慢下降。正如可以预料的那样，数字“1”具有最小的互信息，因为它具有更有限的样式库。图3中右下方的面板显示了前32种风格。这些是根据频率自动排序的，因为常见的风格是在训练中较早积累的，相对于罕见的风格是在训练中偶尔添加的。

分类和推理

图3显示了使用10，000张测试图像推断最可能的数字时的分类性能结果。相对于最先进的机器学习技术(高于99% 11)，整个测试群组的分类准确率达到96%左右。然而，变分推断允许人们评估作为测试图像是可识别数字的置信度的函数的准确性。

人们可以使用负变分自由能提供的边际可能性来评估可能性——任何给定的图像都是一个数字。边际可能性可以理解为任何后续分类的有效性(从模型的角度来看)。图3的左上图描绘了正确分类的图像(蓝色)和错误分类的图像(棕色)的对数边际可能性的样本分布。要注意的关键点是，当数字具有高边际可能性时，它们可以被高精度地分类。这在右上方示出，该图示出了分类准确度作为应用于不太可能的图像的阈值的函数。下方面板中的图像显示了具有最高和最低边际可能性的测试图像。

贝叶斯模型简化

前面的数值研究说明了一些基本的变分方法。这个结构学习的例子是半监督的，因为我们知道对应于数字类的潜在状态；在该类 factor的每个级别中启用结构学习。虽然分类的准确性并不显著，但这种分类首先会有信心将图像分类为数字。在这里，这种信心是量化的(对数)边际可能性的变分界限。至关重要的是，这种方案还根据似然映射上的狄利克雷分布来量化关于模型参数的不确定性。这具有潜在的重要性，因为它允许我们使用贝叶斯模型简化进一步优化关于变分自由能的模型:见5 公式。

例如，我们可以问，当将小的狄利克雷计数设置为零时，模型证据是增加还是减少。换句话说，已经使用结构学习[56]发展了我们的模型，我们现在可以使用贝叶斯模型缩减[70]来修剪冗余参数。完整的(选定的)模型包含2，336，768个可能性参数。在模型简化之后，我们消除了65，448个参数。这将每个输出模态(即，像素)的对数边际可能性增加了5.53个自然单位，分类准确度略有增加(96.12%至96.14%):参见图3上部面板中的青色线。原则上，这种简化模型应能更好地概括新的试验数据[71]。

信息几何与嵌入空间

如果上述方案是贝叶斯最优的，为什么它没有达到最先进的分类精度？这个问题的一个答案是，连续公式——深度学习中使用的那种——比离散公式有明显的优势12。一个优点是它们可以表达内容生成方式的先验约束。这些约束的一个例子是图像具有某些邻接属性(例如平滑度)的先验知识，这些属性可以使用卷积神经网络和隐式权重共享来利用[16]。尽管在上述示例中可以考虑类似的约束，例如，通过在相邻像素之间共享狄利克雷参数，但是这将依赖于连续模型范围内的某种度量结构。换句话说，通过致力于连续的状态空间，我们可以归纳出定义良好的度量标准，这些标准可以用来阐明关于内容生成的先验信念。例如，图像通过欧几里得空间中的射影几何生成。人们可以将这一概念扩展到具体问题；例如，通过在欧几里得空间中组合各种线段来生成数字:例如，[72]等等。相反，离散的状态空间是无背景的，因为它们没有明确的空间或时间概念。

然而，在离散状态空间模型中有一个信息几何。人们可以将生成模型的参数读取为足够的统计数据。为了说明这一点，我们可以把张量列看作高维统计流形上的点。这个流形上的点之间的距离由信息长度给出；也就是说，当从统计流形上特定位置编码的概率分布移动到另一个位置时，无穷小KL的路径积分发散13[76–78]。

人们可以使用这种高维统计流形来观察结构学习的结果。图4显示了根据信息长度定义的统计嵌入空间。这里，我们近似了潜在状态的每个组合之间的距离(即，在张量的列中编码的分类分布)

12另一个答案是，离散状态空间方案没有考虑在数字类别因子水平上保守的风格的因子或组成结构。例如，可以考虑平均场近似，其中数字由多个因素生成；例如数字类别、平移、旋转、笔画宽度、曲率等。

13严格地说，信息长度是无穷小KL散度的两倍的平方根的路径积分。

随后的相关矩阵(左上图)的主要特征向量是高维(c.f .嵌入)空间的主要坐标，在该空间上分散着特定风格的特定数字的表示。分散程度由伴随的本征值给出(右上图)，表明潜在状态主要分散在统计流形的五维子空间中。图4的下半部分描绘了潜在状态的位置，根据数字类别进行了颜色编码。这种嵌入空间是结构学习或发现的突现性质；即最大化边际可能性和互信息。

总结:保持离散的重要性

前面所述表明，人们可以以直接的方式解决图像分类基准，这避免了许多机器学习的艺术:即，不需要误差的反向传播，或者不需要特别的成本函数；不需要指定神经网络结构或选择适当的非线性函数等等。致力于离散状态(和结果)空间，意味着存在从潜在状态(例如标签)映射到可观察数据(例如内容)的最佳似然张量:参见[80]。

有趣的是，当从连续状态空间转移到离散或量化状态空间时，人们有效地用高维(离散)状态空间中的一个线性操作来代替低维(连续)状态空间中非线性映射的深度合成。在某种程度上，这是真的，有人可能会问，是否有必要分层离散状态空间模型；例如，分层狄利克雷过程[11，81]？一个答案取决于时间尺度的分离:当从静态模型转移到动态模型(也称为状态空间模型)时，游戏会发生变化，我们必须考虑适合任何给定环境的离散转换。在这里，上下文是由一个更高级的状态空间构成的，根据定义，它以更慢的速度展开。这就是深度离散状态空间模型通常与深度时间模型同义的原因，深度时间模型为内容生成方式带来了半马尔可夫性，例如自然语言[81–83]。在下一节中，我们将解决状态转换设置中的结构学习问题——提供潜在状态的先验信息——以补充本节中考虑的可能性模型。

图2:风格学习:该图报告了MNIST训练数据的结构学习的结果。右上面板显示了作为训练样本数量的函数的学习到的风格数量。彩色曲线对应于数字类别。这些发现曲线在不同的数字中有明显的不同。例如，数字“8”似乎比数字“1”(橙色线)有更多的样式(红色线)。注意发现率是如何随着样本数量的增加而降低的，正如人们从风格或物种发现曲线中所预期的那样[68，69]。右上面板显示了发现的样式中每个数字类的实例数。对于大多数数字来说，这大致呈指数分布，只有数字“1”例外，它由相对较少(大约16种)的不同风格所主导。剩下的款式非常少。左下面板示出了在摄取样本期间与可能性映射相关联的交互信息(即，负的预期自由能)。这在初始样本期间快速上升，然后维持在相对较高的水平。这是因为只有在互信息没有损失的情况下，新的样式才被接受(注意，更新先前看到的样式的狄利克雷计数可以减少互信息)。有趣的是，我们可以看到最能提供信息的数字是“5”，而最不能提供信息的数字是“1”。右下角的面板显示了10个数字类别的前32种样式。根据发现的似然映射，这是每个样式和数字类在观察空间中的样子。

图3:分类性能。左上图显示了对数边际可能性(使用变分自由能或ELBO评估)在摄取或吸收的20，480位数字上的分布。这两种分布对应于与监督类标签相匹配的分类(蓝色-正确，棕色-不正确)。相应的分类精度作为ELBO阈值的函数显示在右上方。这表明所有数字都以超过96%的准确度被分类。对于被归类为高边际可能性的几千位左右的数字，这一比例攀升至100%。下面的面板显示了具有高(柏拉图式)和低边际可能性(不可能的数字)的训练样本的预测。报告分类准确度的蓝色和青色线对应于冗余似然性参数的贝叶斯模型缩减或删减之前(蓝色)和之后(青色)的性能。

图4:信息几何和嵌入空间。该图根据由似然映射引起的信息几何来报告隐式嵌入空间。左上图显示了基于不同数字类别(前32个)风格之间的Jeffreys散度的相关性或相似性矩阵。可以在每个数字的32种风格上的块对角线结构中看到10个数字类(即，图3中所示的那些)。使用左上角的相关矩阵的奇异值分解，可以根据其特征向量来表征随后的度量空间。这是因为总是存在一个超球，其中每个潜在状态占据一个唯一的位置，因此到所有其他潜在状态的欧几里德距离对应于它们各自的似然映射之间的杰弗里斯散度。人们可以从许多不同的角度来看待接下来的空间。下面的图描绘了在由第二、第三和第四特征向量构成的子空间中，10个数字类别中的每一个的32种风格的位置。这说明了数字类“0”和剩余数字之间的分隔。从该空间的其他视角(即旋转)可以看到类似的分离。右上面板中的特征值对超球面上的潜在状态的分散进行评分；说明大部分离差或度量方差位于低维子空间中球面上的潜在状态的分散进行评分；说明大部分离差或度量方差位于低维子空间中。

5 Dynamics and disentanglement

在这一节中，我们将前一节中的程序加以推广，以适应动力学。前面的例子处理的是静态图像，这是生成模型的极限情况，其中只有一个由单位矩阵编码的(固定)路径。这里，我们解决从样本中学习结构的问题，在样本中，一个或多个因素的状态之间可能存在合法的转换。这导致了更具表现力的状态空间模型，突出了编码在过渡张量中的先验的作用。在这种情况下，可以在多个方向上生长模型。从具有单一潜在状态的模型开始，对于每个结果模态，可以将状态添加到第一个因素factor。如果有两个或更多的状态，可以添加一个路径到因子，或者添加一个新的因子，具有两个隐藏的状态。请注意，添加具有两个潜在状态(和一条路径)的因子是强制性的，因为第一个状态与其他因子共享。这是因为只有一个状态(和固定路径)隐含着许多其他因素。这导致了以下模型扩展的方法:

i.如果这是第一次观察，用单一状态创建一个似然映射，并用初始狄利克雷计数(即对称狄利克雷分布的浓度参数14)将其弹出。

ii.对于随后的观察，考虑最后一个因素的附加状态，假设只有一个(静态)路径。否则，考虑额外的路径或因子(具有两个状态和一个固定路径)。

该协议简化了所考虑的模型的空间；因为一旦动力学被发现——对于最后一个因素——就没有对该因素的新状态的测试。类似地，当添加新因子时，它成为最后一个因子，并且前面的因子不再适合新路径。在这种设置中，观察包括推断状态转换所必需的时期或结果序列。本文中的示例使用了成对的观察值，这些观察值能够识别潜在状态以及从一个潜在状态到另一个潜在状态的转换。

原则上，给定适当排序的观察序列，这种方案应该学习任何(离散)状态空间模型的结构。然而，这里有一些注意事项，取决于观察结果呈现或接收的特定顺序。在这个意义上，结构学习仍然是被监督的，但是以隐含的方式；通过时间上训练的结构顺序。

具体地说，上面的方案依赖于在关于转换的精确信念下学习似然映射。类似地，学习跃迁张量依赖于精确的李可利-胡德映射。以正确的顺序展示培训示例可以确保这一点。简而言之,(最后一个因素的)第一条路径总是已知的，因为通过构造，这是一个精确的单位矩阵。这意味着必须呈现由构成所述因素的所有状态产生的结果。当呈现给定数字类的样式时，这正是上一节中说明的步骤。因为我们处理的是动态，所以这个演示必须是静态的结果；例如连续呈现一次或多次的静态视觉图像。

一旦学习了必要的似然映射，就可以给出状态空间遍历的不同方式；例如具有特定语法的一系列先前见过的单词。或者呈现之前在以特有方式移动的不同位置看到的物体。如果这些路径是以前见过的轨迹，那么它们将由一个现有的路径来解释；否则，将添加一个新路径。然而，如果我们现在引入一个新的对象或单词，最有可能的模型将是一个配备了新因子的模型。因为这个新因子具有精确的路径(两个状态的单位矩阵)，所以下一个观察将被分配给第二个状态。它被分配到第二个状态，因为新因子的第一个状态与发现因子的第一个状态相同。这是必要的，以确保潜在状态空间的阶乘结构被发现。这意味着无论何时呈现新因素的状态(和路径),都必须在所有先前因素的第一个状态(和路径)下呈现。假设遵循该课程，原则上，该模型将自动发现正确数量的因子，以及每个因子中正确数量的状态之间的正确数量的路径。

在操作上，可以从先前学习或指定的生成模型中自动生成观察的必要课程。然后，这些观察足以让模型从零开始学习；通过仅基于观察的结构学习有效地复制模型。然而，正如我们将在下一节中看到的，学习模型不一定与生成结果的模型相同，因为它是以贝叶斯最优方式压缩的。生成结果的(MATLAB)子例程的注释帮助如下:

该例程从指定的POMDP结构生成一系列(概率)结果。这个顺序适合结构学习。它包括一系列时期，其中每个时期以特定的顺序产生:从第一因素开始，在第一路径下产生与每个隐藏状态相关的结果。根据构造，第一条路径是固定的。在所有隐藏状态产生结果之后，从每个隐藏状态开始产生连续的路径。生成所有路径后，对后续因素重复该过程；在先前因素的第一状态和路径下(注意，第一路径总是静止的；即身份转换映射)。除非另有说明，结果由两个观察值组成。

有趣的是，这可以比作通过孤立地呈现字母来教孩子阅读，以便可以通过用适当的狄利克雷计数填充可能性张量来学习它们。然后，人们可以继续研究特征序列；例如单词。然后你可以在另一个环境中重复这个过程；由此，诱发第二因素；例如，以不同字体书写的字母，或者与被阅读相反的口语。

这种学习在两种意义上受到监督。首先，结果以正确的顺序呈现，以便生成模型以路径可学习的方式吸收它们。换句话说，如果给一个模型呈现随机重新排序的视频帧，它将永远也学不会运动的概念。第二，它是受监督的，因为没有选择训练样本的动作。我们稍后将回到平凡性的另一个方面，它依赖于能够请求或选择特定的观察来“填充”似然张量的缺失部分。

为了说明上面的方案，我们使用了一个用于生成数据集(如dSprites)的设置的简单变体；也就是说，不同形状的物体在一个二维网格世界中运动，或者说是可移动的。为了使学习能够实时可视化(在个人电脑上使用MATLAB大约30秒)，我们使用了一个简单的设置，其中视觉场景包括9×9个位置，对象被限制为3个形状，可以在两个维度上一次移动一个像素。如[25，84]，我们通过给代理人配备额外的结果模态引入了奖励或约束；当一个物体在某个位置时给予奖励。重要的是，每个物体的位置都不一样。实际上，这为代理创建了一个简单的游戏:代理必须识别它正在看什么，然后以上下文敏感的方式将对象移动到它的首选位置。

为了从零开始培养一个代理人，我们遵循了上面的课程；从第一个(左上)位置开始到左下位置，在九个位置的每一个中呈现第一个对象。对于这九个起始位置中的每一个，我们然后呈现到上面的位置的过渡，然后是下面的位置。这使得代理能够识别可以上下移动的静态对象。然后，我们对所有水平位置重复这一过程——在第一个垂直位置——对象向左右方向移动。为了简单起见，我们使用了圆形边界条件，这样当物体越过边界时，它们就出现在视野的另一侧。图5展示了一个已经学习了感知世界结构的代理的贝叶斯最优行为。在这个例子中，代理人认出了这个物体，为了得到奖励，它必须把这个物体移到左下角。通过最小化预期自由能，它以最有效的方式做到了这一点:参见②和[85]。这种有目的的行为依赖于学习生成模型的结构和随后可以控制的路径。

图6示出了结构学习的第一阶段，示出了转移张量及其伴随的似然张量的连续获取。尽管刺激是根据上面的协议仔细选择的，但代理只是接收一系列输入，并且必须对每个连续的输入做出决定，是否通过添加状态、路径或新的因素来扩充其模型，如上所述。顶行显示了第一个(垂直位置)因素的发现路径。第一个矩阵是转移张量的第一个切片，并且总是精确的单位矩阵。然而，这个矩阵的大小随着状态的数量而增长。所有随后的刺激都可以用这九种状态来解释，并且，在暴露于第一个物体的运动之后，代理人“知道”这个物体可以从每个位置向上或向下移动。这通过两个附加切片来体现

15在没有奖励的情况下，对奖励存在的对数优先偏好是4个自然单位(即，对感知奖励的强烈偏好超过无奖励)；即大约50∶1。

转换张量的(即矩阵)编码从一个位置到下一个位置的移动或转换。当代理在新的水平位置看到第一个对象时，它会引发一个新的因素，并了解到可能有九个垂直位置，并且该对象可以向右或向左移动。它会保留其生成模型，直到遇到一个新的对象，而该对象无法用任何先前遇到的潜在状态来解释。此时，它调用具有三个级别的第三个因素，对应于前面对象的第一个状态(和路径)下呈现的对象。

代理现在有了正确的结构，并发现有三个因素。前两个对应于某个状态空间中的正交运动或轨迹，每个有九个级别。第三个因素为以这种方式移动的对象提供了上下文。然而，代理远没有学会它的生成模型。它从未见过第二或第三个物体移动，或者实际上，离开它们的初始(第一)状态。

更详细地说，尽管该模型对手边的动态有精确的把握(以精确和完整的转换张量的形式)，但在其经验中有许多缺口，需要对似然映射进行更多的学习。这是因为该模型仅暴露于字面上的边缘情况；其中每个附加因素都是在前面因素的第一状态(和路径)下经历的。换句话说，只有似然张量的某些边缘累积了狄利克雷参数。例如，代理从未见过视野中间的第一个对象。并且除了在初始位置之外从未见过第二物体。如果模型配备了关于潜在状态的精确后验信念，则填充或累积模型参数将是一个简单的过程。然而，为了形成精确的后验信念，它必须学习必要的似然映射。那么，如何才能避开这种第22条军规呢？正是在这一点上，我们转向主动推理和学习，以确保模型积累正确的经验来填补其知识的空白。

From models to agents

这说明了自我监督学习的第二个阶段，即通过使某些路径可控来为模型配备代理。在这种情况下，路径对应于水平和垂直维度上的运动，代理可以通过在已学习的路径之间切换来控制这些运动。为了证明自我监督学习(或自学行为)，我们简单地允许代理人根据预期自由能选择行动，该预期自由能最初由新颖性或与可能性参数相关的预期信息增益所支配:见公式(2)。这意味着代理期望将对象移动到新的位置，并尽可能快速有效地覆盖潜在状态空间。因为代理对状态转换有精确的信念——并且可以推断出它的初始状态——它对后续状态有精确的信念，因此可以根据它的观察积累精确的似然映射。简而言之，该模型配备有代理，并且可以完成对三个对象中的每一个的似然张量的获取。

图7显示了这种主动学习的结果。左上面板显示了在最短时间内位置(红点)的平均覆盖范围。例如，在128次试验中，代理人至少去过所有可能的地点一次。伴随的积累显示狄利克雷计数使用与图6相同的格式；根据报告奖励的结果模式，以及一系列可以从神经生物学中解读为“位置”或“边界细胞”的边缘分布[86]。图5和图7中隐含感受野的比较表明，代理已经成功地学习了它的世界模型的结构。

图8显示了伴随的行为指标。这里值得注意的是，在访问了所有位置之后(在大约81次试验之后)，通过(负的)预期自由能(即，预期信息增益)的减少来评分的关于可能性映射的不确定性的解决方案。随着代理人继续熟悉其感觉器官的因果结构——可能性映射变得越来越精确——预期的信息增益或新鲜感下降，直到大约512次试验后，代理人更喜欢留在它认为最不令人惊讶或成本最低的有回报的位置。

从神经生物学的角度来看，这种自我监督的学习可能与婴儿的探索行为有关，有时被称为“马达咿呀学语”[87]。当在发育神经机器人的背景下进行模拟时，预期的信息增益通常被称为内在动机[44，88–91]。

总结:好奇的重要性

这种对(有监督的)结构学习的处理可能看起来有点做作。然而，考虑它为什么起作用，突出关键机制可能是有用的。概括地说，通过以系统的顺序呈现刺激或观察，我们教会了一个生成模型从零开始组装自己，这样它就发现了潜在的因子结构和动力学。此外，在这种监督结构学习之后，它能够积极地对世界进行采样，通过几百次观察来学习其因果结构。这很难或不可能使用机器学习中的标准过程来实现，例如流形学习或非参数贝叶斯。这个基于隐含的仿生命令的模型的成功表明，结构学习问题实际上是一个结构教学问题，在这个问题中，只有以正确的方式向主体提供材料，主体才能学习。以正确的方式呈现材料需要教师和学习者的共同进化，就像进化心理学和(文化)生态位构建中看到的那样。如果我们将自然选择理解为自然界实施贝叶斯模型选择的方式[96–99]，那么浮现的画面是一系列嵌套的自由能最小化(即证据最大化)过程。从这个角度来看，通过模型选择，类似上述教学课程的协议本身被选择用于结构学习。主动模型选择使贝叶斯最优主动学习成为可能，反过来，通过主动规划作为推理使贝叶斯最优，以最大化预期信息增益，并最终通过最大化观察结果及其潜在原因之间的交互信息，优化代理对其世界的控制。同时，所有这些嵌套的过程相互叠加。在最后一节中，我们使用相同的程序，但是在通常通过提供生成模型的明确描述来解决的问题的上下文中，使用诸如规划领域定义语言之类的东西Planning Domain Definition Languages[27]。

图5:从dSprites到Atari。该图说明了代理必须学习的物理或游戏。在这个世界中，有三个物体可以一次一个像素地上下或左右移动。代理必须在欧几里得空间中学习移动离散对象的内在物理，欧几里得空间具有两个因素或维度；即水平和垂直运动。为了展示必要的结构学习如何支持代理，每个对象都必须被移动到一个独特的位置。这三个对象显示在中间一行，在它们9×9像素空间的中心。三个物体的优选目标位置在第二行中以奖励结果的概率的形式示出(与优选位置的距离的高斯函数)。这个世界的结构可以概括为包括81个结果因素或视觉形式，其中每个形式有两个层次(黑或白)。此外，还有两个级别的奖励形式(缺席与在场)。这些结果由三个因素产生。第一对因素对应于水平和垂直维度中的位置，而第三个因素生成对象的类别以及它如何出现在结果空间中。下面的行显示了在似然映射上以边际密度形式表示的位置因子。实际上，这些可以被认为是“位置细胞”的响应，它们共同指定由第三个因素指定的对象的位置。在本例中，由于圆形边界条件，这些“位置场”实际上分别是垂直和水平位置的周期函数。从神经生物学的角度来看，它们可以被认为是一种以“边界细胞”为特征的特殊场所[86]。有了这个生成模型，智能体可以使用感知奖励的优先选择来推断行动计划，并选择物体最可能的运动。顶部的两个面板说明了这种情况的一个例子；将第二个对象移动到右下角的首选位置。红点表示推断和实现的运动轨迹。

图6:解开世界模型的结构。该图显示了暴露于标准教学序列后的可能性和转移先验的结构；即，由世界的状态产生的结果对和在先前因素的第一状态(和路径)下的状态之间的可允许的转换。左图显示了已展开的串联似然张量，以显示(9×9×3)个状态和(9×9×2) + (1×2)个结果之间的映射。右侧显示了已发现的转换。结构学习发现了三个因素；其中第一对因子具有对应于无运动的三条路径，在一个方向或另一个方向上运动。第三个因素有一个单一的(固定的)路径，这是一个身份映射。这意味着对象类有条件地独立于运动。并且一个维度上的运动(即因子)有条件地独立于正交维度上的运动。实际上，代理人已经理清了可观察结果的原因；很大程度上是由于在二维欧几里得空间中运动的物体的物理学或动力学所提供的因素。注意，这种生成模型没有度量空间的概念——除了隐含在由累积的狄利克雷计数引起的映射中。还要注意，相似性映射是不完整的。有许多状态的组合还没有被体验。因此，似然映射中大多数列的Dirichlet计数保持在它们的低初始值。正是这些必须通过主动学习来发现，以产生下图所示的“位置场”表示。

图7:马达咿咿呀呀。该图说明了主动学习过程中的探索行为。左上图显示的是初始刺激，而右上图显示的是首选位置的最终感知。红点表示在漫长的探索性试验中超过512个时期所到过的地方。最重要的是，每个地方都去过了；以便解决从隐含潜在状态到结果的似然映射的参数的不确定性。然而，这种行为并不纯粹是探索性的。这是因为代理配备了也必须学习的优先选择。这种主动学习在第二行中示出，该行示出了从不同位置到奖励结果的狄利克雷计数映射。第三行显示每个位置的总计数。这会记录每个位置被访问的次数。可以看出，对于第一对象、第一水平位置和第一垂直位置，狄利克雷计数非常高(白色)。这是因为这些是在结构学习期间累积的狄利克雷计数，如图6所示。对于三个对象中的每一个，剩余的位置是在主动学习期间已经被主动探索和利用的位置。这些可能性映射的伴随感受野(即“位置细胞”)表示在底部两行中示出。这些与图5中的生成过程的结构几乎没有区别。下图显示了各种行为的演变以及潜在的信念分布。

图8:学习计划。该图报告了当代理人越来越适应其世界的结构，并从事熟练的、有目的的行为时，根据先前的偏好指定的各种度量的变化。上图显示了(负的)变化自由能，它对模型下的观察结果的对数边际可能性进行了评分，因为它是在一次长期试验或暴露的512个时期中获得的。第二组报告了作为试验函数的预期信息增益(在关于行动的后验信念下的平均值)。人们可以清楚地看到，在大约80次试验之后，预期的信息增益急剧下降，因为重访每个位置的新鲜感变得无效。同时,(负)变分自由能(即观测的边际可能性)增加；因为代理可以更准确地预测它将会看到什么。第三组报告了策略的精确度，有趣的是，在最初的大约一百次试验中，策略的精确度在最初的探索期间增加，在此期间有高的预期信息增益。启发式地说，这意味着代理对它将做什么更有信心，因为它知道它可以解决“如果它移动到那里，它会看到什么”的不确定性。随着主体对其环境越来越熟悉和流畅，剩下的精确动作的必要条件依赖于先前的偏好。当预期成本低于预期信息收益时，代理人变得越来越剥削。这显示在最后的面板中，就性能而言；即所经历的有益结果的数量。在大约300次试验中，代理人只是将三个物体分别移动到他们喜欢的位置，然后休息。三条彩色线对应于图5中的三个对象。

6 Tower of Hanoi

在上一节中，我们看到了结构学习如何为主动学习一个易于解开简单(例如，Atari- like)游戏的物理结构的生成模型提供机会。本例中的主动学习完成了从潜在状态到可观察结果的似然映射；即像素的离散(灰度)等级。在这一节中，我们将同样的程序应用于汉诺塔问题[100]。在这个例子中，需要主动学习来学习球或块的排列之间的精确动态或转移概率。在汉诺塔问题中，有少量的球堆叠在少量的塔上。问题是在一个人只能将顶部的球从一个塔移动到另一个塔的约束下，将球重新排列成目标配置。这个约束代表了必须学习的物理问题。学习之后，人们可以使用主动推理来解决问题。

如上所述，结果序列被生成，其中每个序列包括一对结果。为简单起见，我们考虑三个球排列在三个塔中。这种情况下的结果是每个位置的状态，即三个塔楼的三个级别，其中每个位置可以是三种颜色之一或空的。一组随后的(3×3)结果模态构成了球的特定排列。训练序列包括所有允许的安排，然后是所有允许的转换或球的重新安排。通过选择三个球中的一个并将其放置在三个塔中的一个上，选择下一个球并将其放置在每个塔上，以此类推，直到所有的球都用完。然后对每个有序的彩球序列重复这一过程。

对于每一种排列，每个塔上最上面的球被依次移动到三个塔中的每一个。这个训练序列显然有一些冗余。例如，将球移动到自己的塔上等同于将相同的排列呈现两次。然而，当摄取该序列16时，监督结构学习会自动解决这种冗余，用380种排列和7条路径解释整个序列(见图9)。通常，第一条路径是固定的，其余六条路径编码一个允许的重新排列。然而，如图7B所示，从特定的潜在状态(即，排列)有某些未指定的转变。这是因为上面的冗余性和这个问题的物理学继承了一个事实，即如果一个球在另一个球下面，你就不能移动它。这种物理学本身并不适合于前一节中看到的那种简单的分解或解开。

为了解决这种不精确或不明确的情况，我们让代理人通过重新排列球来了解其动作的结果。在没有任何先前偏好(例如，对于目标排列)的情况下，主动推理纯粹由移动球的预期信息增益或认知启示驱动。

图10显示了在“马达咿咿呀呀”的前64次移动中的排列(状态)方面的后续行为。所访问的状态(和路径)表明

图9:河内塔及其结构。这是汉诺塔问题的图解，三个球排列在三个塔上。这个想法是在不能移动另一个球下面的球的约束下，将球重新排列成目标排列(下图)。在这个例子中，需要走五步才能完成这个问题。这是由主动推理代理发现的解决方案，该代理配备了必要的似然映射和转换约束(即重排)。画面B示出了结构学习之后的相应张量。似然张量已经被连接并展开成矩阵；示出了从60个潜在状态(即球的排列)到结果的映射。有九个位置(即模态)，每个位置有四个结果(三种颜色之一或空白)，给出36个不同的结果。在这个例子中，只有一个因素；即球的排列。重新排列球的物理过程可以用七条路径来解释，上面的图片用跃迁张量的切片来说明。请注意，第一条路径是一个身份映射(即，没有动态，通过构造)。此外，请注意，一些路径具有不确定的转移概率，这是由于对移动球的约束所施加的物理性质的不平衡。这种模糊性在主动学习后得到解决，如下图所示。

除了第一条(固定的)路径之外，代理探索了所有的路径，它对第一条路径有精确的了解。这里的信息增益与(2)中的生成模型的参数有关；特别是，迫使代理探索其具有不精确信念(即，低狄利克雷计数)的移动或路径的先前转移参数。图10的下部面板显示了似然映射的互信息的增加。与转移概率相关联的相应互信息实际上保持相同(注意Y轴的缩放)。如图11的面板A所示，主动学习填充了过渡张量的缺失条目(与图9的面板B进行比较)。

图10:主动学习。上面的面板显示了代理选择的状态(左面板)和路径(右面板),代理可以从七条路径中选择一条来移动球。选择最小化预测观察的预期自由能的行动，其中这些预测由主动推理提供。这里要注意的关键点是，被更深入探索的路径是代理不太确定的路径。这种确定性由每个路径下的累积狄利克雷计数编码。例如，上图中的最后两条路径人口稀少，因此具有最大的认知启示；因此比第一条路径排练得更多(代理对第一条路径有非常精确的信念)。下面的图显示了在上面的图中所示的最初64个时间步之后，在256个时间步上的互信息的累积。

规划和目的

为了说明有目的的或目标导向的行为现在可以被激发出来——通过给代理人配备先前的偏好——我们模拟了100次试验，每次包括8个动作。在每次试验中，目标安排都是根据对结果的偏好来确定的；即，

图11:发现和性能。图A显示了主动学习后的转换张量。注意，在结构学习(9)之后，转移张量的稀疏填充切片已经被主动学习填充。下面的面板显示了路径上转换的边缘分布，以说明已经发现了所有允许的转换。这一发现使代理人能够规划未来的轨迹，如果事先有偏好，还可以将球重新排列成某种偏好的排列。图B显示了随后的性能。右图显示了从容易到困难(分别需要1到5步)的100次试验的比例。左侧面板中显示了代理人的伴随表现，这些代理人的计划深度不断增加(从1步到5步)。从这些结果中得出的结论是，随着计划的深度接近解决问题所需的移动次数，性能会提高到100%。例如，对于需要4步的试验，计划深度为2的代理只能获得大约40%的成功率。将规划深度增加到4可以将性能提高大约85%，而规划深度为5可以确保100%的性能。

九个位置中的每一个17。目标是随机选择的，以涵盖简单(一步)和困难(五步)的问题。代理人能够在100%的试验中完成任务；只要它有足够深度的规划；这里，未来五步[85]。图11中的B图显示了不同移动次数的试验分布，以及作为计划深度的函数的成功百分比。从这些结果中可以看出，随着计划深度的增加，解决更困难问题的频率也会增加，直到当计划深度足够大时达到100%的性能。这些结果是通过使用相同的初始和目标排列，对具有从1到5的计划深度的代理重复每个试验而获得的。

总结:提前思考的重要性

总之，本节展示了监督结构学习的一般性，用于获取正确类型的训练观察，并使用随后的结构来搭建必要模型参数的主动学习。这种主动学习是由预期信息增益驱动的，这是最小化预期自由能(或最大化互信息)的一个方面。有了正确的生成模型，通过给主体配备一些预先偏好或对其预期会遇到的结果的约束，规划和偏好寻求行为可以直接引出。

MATLAB中的上述模拟在个人计算机上运行只需几分钟。就计算时间而言，这种效率是主动推理的标志，因为一切都取决于最小化变分自由能和预期自由能的路径积分，并隐含地分别最小化复杂性成本和风险(即贝叶斯信念更新和伴随计算的程度)。

在一分钟左右的时间内，训练生成模型并利用其自动教学能力的范围表明了一次性使用或一次性(生成)人工智能的可能性。换句话说，原则上可以在几分钟内创建和部署生成模型，这些模型具有在特定环境下解决特定问题的机构必备条件，而不是在大量数据上训练过度表达的神经网络——对于每个看似合理的应用环境。在某种意义上，这就是我们的运作方式；例如，当解决一个纵横字谜时，其结构以前从未见过，以后也不会再见到。

7 讨论

上述数值研究说明了三个关键主题:即推理与学习；离散与连续；教与学。最后，我们沿着这些思路进行了简短的讨论，并比较了采用这种或那种方法的相对优点。

推理对学习

主动推理的一个基础——以及它所继承的自由能原理——是一切都可以被视为一个优化过程，在嵌套的时间尺度上，变化的自由能被最小化(或边际可能性被最大化)。从这个角度来看，模型选择是一个缓慢的过程，取决于创成式模型参数的优化。优化生成模型的参数取决于推断生成内容的潜在状态。简而言之，相同的信念更新过程是嵌套的，因此每个过程都以更快和更慢的时间尺度通知同类过程，并且被同类过程通知。在变分贝叶斯中，这是通过在平均场近似的因子之间传递必要的信息来实现的。反过来，这意味着学习是一个信念更新过程，需要对模型参数的后验分布进行编码。

有趣的是，大多数机器学习方法不估计参数的不确定性；即使在最先进的可变自动编码器和预测编码的当前实现中[101–103]。这里考虑的完全(变分)贝叶斯方法提供了一个学习的视角，不是优化神经网络的权重或参数以优化识别、分类或推理，而是作为一个在模型参数上寻找最可能分布的过程。如果一个人同意这种观点，这意味着不适应参数后验的机器学习应用程序通过摊销有效地学习推断[104，105]。

这与上述学习形成对比，在上述学习中，在评估每个连续数据点的边际可能性之前，关于模型参数的信念相对于ELBO被优化。从这个角度来看，学习变成了一种推理，它有自己的优化标准——支持一次性学习和数据的贝叶斯优化同化或吸收。这在上面的模拟中得到了证明，其中训练样本的数量比更常规种类的机器学习中通常使用的数量级小。类似的论点可以在信念更新的下一个层次提出；即贝叶斯模型选择。为了选择最可能的模型，人们必须评估该模型的证据。要做到这一点，人们必须忽视模型参数的不确定性。同样，这说明了对关于模型参数的信念或不确定性进行编码的重要性，以实现由变分(即近似)贝叶斯推理提供的那种最优性。如果这个论证是正确的，它促使在传统方法中包括模型参数的密度；例如，连续状态空间模型上的高斯分布或离散状态空间模型上的狄利克雷分布。在许多意义上，这已经在机器学习之外得到解决，并且是复杂和动态系统建模中的常见程序。

离散与连续

上面的插图致力于一个离散的状态空间模型。这在很大程度上是为了巧妙处理计算必需的自由能泛函的计算复杂性。在离散的状态空间中，这些评估很大程度上依赖于张量上的和积算子。如上所述，这避免了对非线性激活函数或深度神经网络架构中这种非线性映射的合成的担心。它还通过链式法则避开了可微性的约束，反向传播等过程就依赖于链式法则。话虽如此，归根结底，任何模型的当务之急都是在保持高预测准确性的同时最大限度地降低复杂性。这里的复杂性是反映在模型参数数量中的后验和先验信念之间的信息增益或KL偏差。离散状态空间模型有效地用高维状态空间和隐含的更多模型(例如，Dirichlet)参数来交换分析复杂性。

上述内容表明，如果参数的数量可以大大减少，则可以对连续状态空间模型进行第一原理论证。在机器学习文献中有许多这样的好例子，例如卷积神经网络中隐含的权重共享，它隐含地体现了数据或内容生成过程(例如，对于图像)的邻接属性的先验。有人可能会说，离散状态空间模型的一个优点是，可以优化粗粒度的离散状态空间，为任何特定类型的内容提供恰当的解释。然而，最终，是否使用连续还是离散状态空间模型的问题取决于各自的模型证据。反过来，这表明将上述变分过程扩展到对状态和参数(以及精度)有信心的连续状态空间模型可能是有用的。大多数的分析结果都是现成的，只有一个例外:即，对未来连续轨迹上的期望自由能的评估。原则上，这应该屈服于路径积分公式，但据我们所知，还没有完全解决:见[106]。

离散状态空间模型的局限性之一是数据的接收和吸收相当缓慢。尽管第二和第三个例子中的动力学的结构学习是实时运行的(大约一分钟)，但是MNIST的例子需要大约一个小时来吸收10，000个数字。这是因为它有效地推断每个数字的原因，并为每个观察值更新(狄利克雷)参数。对于高维问题(例如图像)，这可能需要几百毫秒的时间。

教与学

如果将结构学习理解为贝叶斯模型选择，基本上有两种方法。可以从过度表达或过度参数化的模型开始，并通过比较完整或父模型和简化模型的证据来移除冗余组件。这种贝叶斯模型简化广泛用于学习复杂系统建模中的结构和架构。第二种方法是建立一个模型；有点像生长一个晶体，通过添加材料，如果它最小化自由能(即，增加模型证据)。使用离散状态空间模型的特别简化之处在于，增长的方向是明确定义的——并且可以用简单明了的方式进行探索，如上所述。

从仿生学的角度来看，这突出了通过经验依赖学习获得新知识的重要性，关键是，这种经验与结构化知识积累的方式是一致的。这就是在当前环境下教学的意义。在理论生物学中，这依赖于文化生态位的构建，在教育环境中，依赖于课程学习。手头的课程依赖于以正确的顺序呈现内容或经历，以确保学习似然映射先于学习转移先验，并且学习的转移先验使得似然学习成为可能；其中隐式自举可以依赖于主动学习。这种创造的成分又有一个仿生的方面，在这个意义上，有效的教学需要一个好奇的学生，他在某一点上可以成为自学者。这种隐含的监督结构学习提出了一个问题:必要的课程从哪里来？

有人可能会说，生成内容的过程提供了正确的课程；仅仅因为它有动力。换句话说，所需要的是事物首先被看见(或注视)足够长的时间，以在似然映射中积累狄利克雷参数。在此之后，任何特征动力学或运动都可以通过学习过渡张量来解释，直到遇到一种新的对象，该过程再次开始。显然，在数值研究中使用的课程中隐含了对事件顺序的额外限制(例如，在移动到下一个对象或背景之前，必须呈现所有可能的移动，并且在因子情况下，对初始条件有限制)；然而，在任何生成内容的过程的时间结构中，都存在许多必要的平凡性。

虽然我们已经证明了课程在结构学习中的好处，但这引出了另一个有趣的问题:什么是最有效的课程？要回答这个问题，首先需要考虑课程设计的自由度。作为一个例子，考虑将我们的MNIST例子扩展到学习阅读手写。在这里，就像上面的Atari类问题一样，我们必须考虑在预测一个序列(注视)中的下一个字母或单词时的动态。我们可以选择一门课程，如上所述，我们首先学习从字母状态到所有书写方式的映射，然后学习书面语言中字母序列的(转换)统计。或者，我们可以从一组柏拉图式的字母开始，并了解它们可能遵循的路径，然后使用这些路径作为信息先验来帮助了解手写风格(即，了解可能性张量结构)。后者可能更像是在探索或研究真实系统之前研究地图或抽象示意图。原则上，可以将不同的课程安排视为备选政策，并通过其相关的预期自由能对其进行评估，这可能是未来研究的一个有趣方向。

最后，我们强调 temporality or ordinality的重要性。这是因为它允许具有时间尺度分离的深度或分层模型的结构学习。回想一下，超纵坐标级别存在的理由是对从一个上下文到下一个上下文的转换进行建模，其中上下文指定了低于一级。实际上，这意味着可以(在重放或反向传递之后)向新模型呈现一系列初始状态(或路径),并重复上述过程。这种新模型将学习缓慢的上下文结构，这种结构提供了归纳偏差(即经验先验)，这些偏差通知下属级别，也由下属级别通知。例如，我们可以在dSprites演示中创建一个深度生成模型，并测试对象出现顺序的任何马尔可夫方面；从而赋予生成模型深度的半马尔可夫上下文敏感性。

附录：

A 通用生成模型

图12中呈现的生成模型可以被视为“通用生成模型”，因为它提供了在任何环境中对任何主体建模的一般处理。此外，相同的模型结构可以分层堆叠，其中较高级别的模型将较低级别的模型的状态和路径(通过D和E)之上的先验上下文化。较低层次依次为较高层次的状态推断收集证据。这提供了一个无标度的架构，其中每个更高的级别在一个更粗的时间尺度上操作，促进了长时间范围的规划和推断。在每个层次级别中，状态空间还可以进一步分解，从而赋予模型阶乘深度。本质上，该模型因此“将自然在其关节处雕刻”成相互作用以产生结果的因素。通用生成模型的结果类如图12所示。

信念更新

在变分处理中，通过最小化变分自由能来更新编码后验期望的充分统计量。图13以通用生成模型的变分消息传递[4，107，108]的形式说明了这些更新。例如，对隐藏状态的期望是信息的软最大函数，而信息是其他期望和观察的线性组合。

这里，来自似然因子的上升消息是预期状态和观察值的线性混合18，由对应于似然模型参数(例如，连接权重)的狄利克雷计数的(digamma)函数加权。图13中的表达式实际上是变分自由能的不动点(即最小值)。这意味着消息传递对应于继承了坐标下降的相同收敛证明的定点迭代方案[4，28，107]。在这些离散状态空间生成模型下，消息传递通常在几次迭代内收敛(并且当在线贝叶斯过滤期间仅传递前向消息时，在一次迭代内收敛)。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2024-02-21，如有侵权请联系 cloudcommunity@tencent.com 删除

代理

本文分享自 CreateAMind 微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

超越 Sora 自动学习完整的世界模型结构

超越 Sora 自动学习完整的世界模型结构