稳定、快速、自动的预测编码算法

用户1908973

发布于 2024-04-26 17:43:39

750

发布于 2024-04-26 17:43:39

文章被收录于专栏：CreateAMindCreateAMind

一种稳定、快速、全自动的预测编码网络学习算法

AStable, FAST, AND FULLY AUTOMATIC LEARNING ALGORITHM FOR PREDICTIVE CODING NETWORKS

https://openreview.net/pdf?id=RyUvzda8GH

摘要

预测编码网络是受神经科学启发的模型，根源于贝叶斯统计和神经科学。然而，训练这样的模型通常效率低下且不稳定。在这项工作中，我们展示了通过简单地改变突触权重更新规则的时间调度，可以得到一个比原始算法更高效稳定且具有收敛性理论保证的算法。我们提出的算法被称为增量预测编码（iPC），与原始算法相比，在生物学上更加合理，因为它是完全自动的。在一系列广泛的实验中，我们展示了在大量图像分类基准测试以及条件和掩码语言模型的训练方面，iPC在测试准确性、效率和收敛性方面始终优于原始表述，针对大量超参数集。

1 简介

近年来，深度学习已经在许多任务中达到并超过了人类水平的表现，例如游戏玩法（Silver等，2017；2016；Bakhtin等，2022）、图像识别（Krizhevsky等，2012；He等，2016）、自然语言处理（Chen等，2020）以及图像生成（Ramesh等，2022；Saharia等，2022）。这些成功完全是通过反向传播（BP）训练的深度人工神经网络实现的，然而，BP经常受到批评，因为它在生物学上存在不合理之处（Grossberg，1987；Crick，1989；Abdelghani等，2008；Lillicrap等，2016；Roelfsema和Holtmaat，2018；Whittington和Bogacz，2019），比如缺乏局部可塑性和自治性。事实上，反向传播需要全局控制信号来触发计算，因为梯度必须通过计算图逐步反向计算。特定算法的生物学合理性不仅是理论神经科学的一个小众兴趣，而且在低能耗模拟/神经形态芯片上的实现中至关重要：并行化、局部性和自动化对于构建能够在非冯·诺依曼机上端对端训练的高效模型至关重要，例如模拟芯片（Kendall等，2020）。为此，多项工作强调了在计算神经科学领域进行基础研究的必要性，以找到能够解决上述问题的算法和方法（Zador等，2022；Friston等，2022）。在这方面，一种具有上述大部分特性的有希望的学习算法是预测编码（PC）。

PC是大脑信息处理的一个重要理论（Mumford，1992；Friston，2005），其中学习通过最小化每个神经元的预测误差来进行。PC可以被证明在分层网络（Whittington和Bogacz，2017）以及任何其他模型上近似BP（Millidge等，2020a），并且如果添加了一些外部控制，它可以完全复制其权重更新（Salvatori等，2022b）。此外，与BP的差异是有趣的，因为PC允许更加灵活的训练和测试（Salvatori等，2022a），具有丰富的数学表述（Friston，2005；Millidge等，2022a），并且是一种基于能量的模型（Bogacz，2017）。简而言之，PC基于这样的假设，即大脑实现了对世界的内部生成模型，以预测传入的刺激（或数据）（Friston等，2006；Friston，2010；Friston等，2016）。当出现与预测不同的刺激时，学习通过更新内部神经活动和突触来最小化预测误差。在计算模型中，这是通过最小化变分自由能来实现的，这种情况下，它是生成模型的总误差函数。这种最小化分为两个步骤：首先，内部神经活动并行更新直到收敛；然后，通过更新突触权重进一步最小化相同的能量函数。这将我们带到了PC的第二个特殊之处，即其坚实的统计表述，在其与神经科学的联系之前就已经发展完备（Elias，1955）。事实上，预测编码的信息传递方案是通过使用拉普拉斯和均场近似来逆转分层高斯生成模型的有效方法，以近似证据下界（Friston，2005；Friston等，2008）。

将这种反转模式应用于大规模神经网络训练时，我们遇到了三个限制：首先，需要一个外部控制信号来在更新神经活动和突触权重之间切换；其次，更新神经活动的速度较慢，可能需要数十次迭代才能收敛；第三，收敛是不确定的，高度依赖于超参数的选择。因此，该领域的研究人员一直在努力解决预测编码模型的缓慢训练以及需要进行广泛超参数调整以达到最佳性能的问题。在这里，我们通过考虑PC的一种变体来解决这些问题，在这种变体中，值节点和参数的更新是并行进行的，类似于(Ernoult等人，2020年)的做法。这种算法被证明更快，不需要控制信号在两个步骤之间切换，经验性能更好，具有可靠的收敛保证，并且对超参数的变化更加稳健。我们将这种训练算法称为增量预测编码（iPC）。我们的贡献简要如下：

1. 我们首先介绍iPC的更新规则，并讨论这种改变对自主性的影响，以及它与PC和BP的差异和相似之处。然后，我们通过使用增量期望最大化方法（iEM）从分层生成模型的变分自由能中推导出相同的方程来展示其收敛保证：事实上已经证明iEM收敛到损失函数的最小值（Neal和Hinton，1998年；Karimi等，2019年），因此这个结果自然地扩展到iPC。

2. 我们从实证角度比较了PC和iPC在生成和分类任务上的效率。在这两种情况下，iPC远比原始对应物更高效，并且通过收敛到更好的局部最小值达到更好的性能。我们还将其效率与BP在完整批处理训练的特殊情况下进行了比较。

3. 然后，我们在图像分类基准测试以及条件和掩码语言模型上测试我们的方法，表明iPC比PC表现更好，而任务越复杂，性能差距越大。然后，我们探讨了超出标准测试精度的度量标准，并展示了用PC训练的性能最佳模型具有良好的校准输出，而iPC比BP更具参数效率。

2 预赛

在本节中，我们将介绍Rao和Ballard（1999）提出的预测编码的原始公式作为生成模型。考虑一个生成模型

，其中

是潜在变量的向量，称为原因，

是生成的向量，

是一组参数。我们对下面的逆问题感兴趣:给定一个向量y和一个生成模型g，我们需要使边际似然最大化的参数e

图1：（a）具有三层的分层高斯生成模型的示例。（b）PC、Z-IL 和 iPC 的时间训练动态比较，其中 Z-IL 是 PC 的一种变体，等效于 BP，最初由（Song等人，2020）引入。我们假设我们在时间T上对数据集进行了监督学习的网络训练。这里，t 是推断期间的时间轴，始终从 t = 0 开始。方块代表一层中的节点，粉色圆角矩形表示何时修改连接权重：PC（第一行）首先根据公式（6）对隐藏层进行推断，直到收敛，然后通过公式（7）更新权重。Z-IL（第二行）仅在特定的推断时刻更新权重，具体取决于权重所属的层。总之，iPC 在执行并行推断的同时，在每个时间步 t 更新权重。

在这里，积分内的第一项是给定原因时数据的似然，第二项是对原因的先验分布。解决上述问题的成本是不可解的。因此，我们需要一个分为两个阶段的算法：推断阶段，在这个阶段我们推断出最佳原因x，给定θ和y，以及学习阶段，在这个阶段我们基于新计算出的原因来更新参数θ。这个算法就是期望最大化（EM）（Dempster等人，1977）。第一步，我们称之为推断或E步骤，计算p(x | y, θ)，这是给定生成向量y时原因的后验分布。然而，计算后验是不可解的（Friston，2003）。为此，我们用可解的概率分布q(x, θ)来近似不可解的后验。为了使近似尽可能好，我们希望最小化两个概率分布之间的KL-散度。总之，为了解决我们的学习问题，我们需要（i）最小化KL-散度，（ii）最大化似然。我们通过定义以下能量函数来实现这一点，也称为变分自由能：

我们使用了对数似然。该函数通过 EM 算法的多次迭代来最小化：

2.1 预测编码

到目前为止，我们只介绍了一般性的问题。要实际推导出学习原因和更新参数的适当方程，并将它们用于训练神经结构，我们需要指定生成函数

。遵循一般的文献（Rao＆Ballard，1999；Friston，2005），我们将生成模型定义为分层高斯生成模型，其中原因x和参数θ由所有层的原因和权重矩阵的串联定义，即，

。因此，我们有一个多层生成模型，其中0层对应于生成的图像y，L层是层次结构中最高的一层。原因的边际概率如下：

其中，

是根据上一层的预测的第l层的预测值，由

给出，其中f是一个非线性函数，而

。

为简单起见，从现在开始，我们考虑具有单位方差的高斯分布，即对于每一层l，Σ^(l) = 1。在上述假设下，自由能变为:

关于如何从公式(2)的变分自由能中推导出该能量函数的详细公式，我们参考(Friston, 2005; Bogacz, 2017; Buckley et al., 2017; Millidge et al., 2021)。需要注意的是，这个能量函数等同于PC的原始形式中提出的能量函数(Rao & Ballard, 1999)。这个模型的一个关键方面是，推理和学习都通过优化相同的能量函数来实现，这个函数旨在最小化网络的预测误差。每一层的预测误差由其真实值

和其预测值

之间的差异给出。我们用

来表示预测误差。因此，给定数据点y，学习参数以最大化边缘似然的问题归结为推理和权重更新的交替进行。在这两个阶段中，最后一层的值被固定为数据点，即对于每个

。

推理: 在这个阶段，对应于E步骤，权重参数

被固定，而值

通过梯度下降不断更新：

在这里，*表示逐元素相乘，而 l > 0。这个过程要么运行直到收敛，要么运行固定次数的迭代 T。

学习: 在这个阶段，对应于M步骤，值 x 被固定，而权重则通过梯度下降根据以下方程进行一次更新：

需要注意的是，上述算法不仅限于生成任务，还可以用于解决监督学习问题（Whittington＆Bogacz，2017）。假设提供了带标签 yout 的数据点 yin。在这种情况下，我们将标签视为需要生成的向量 y，将数据点视为 x(L) 上的先验。推断和学习阶段是相同的，唯一的区别是现在在整个过程中有两个向量被固定：

和

。虽然这个算法能够在小规模图像分类任务上取得良好的结果，但由于需要让 causes x 收敛所需的大量推断步骤 T，它比 BP 慢得多。在接下来的内容中，我们将提出一个解决这个限制的算法。

我们已经在分层高斯模型上定义了 PC，因为不同的概率分布会导致不会最小化预测误差的更新规则（Salvatori等，2023）。然而，我们的算法的适用性可以很容易地推广到不同的概率分布（Pinchetti等，2022），正如我们在第 5 节中所展示的那样。

3 增量预测编码

PC比BP慢得多的原因是其推断阶段，需要多次迭代才能收敛。在本节中，我们通过提出增量PC来解决这个限制，这是原始算法的一种变体，在每个时间步骤t上同时执行推断和学习阶段（方程（6）和（7））。这种变体在效率和性能方面大大改进了原始的PC公式，是完全自动的，并且具有变分推断理论给出的理论保证。增量PC的伪代码如算法1所示，其动态如图1（b）所示。

与BP的联系：总的来说，PC与BP在监督学习任务中有多个相似之处：当输出误差很小时，PC的参数更新是BP参数更新的近似（Millidge等人，2020a）；在控制哪些参数在哪个时间步骤更新时，可以定义PC的一种变体，称为零散度推断学习（Z-IL），其更新等效于BP的更新（Song等人，2020）。具体来说，要使PC执行与BP完全相同的权重更新，必须仅在t = l时更新每个权重矩阵θl ，这对应于其在层次结构中的位置。也就是说，一旦输出误差达到特定层，这与PC的标准公式不同，后者仅在表示总误差的能量收敛时才更新参数。与PC不同，iPC在每个时间步骤t都更新参数。直观地说，因此可以将其视为Z-IL（因此BP）和PC之间的“连续转换”。图1（右侧）给出了所有三种算法的差异的图形表示，伪代码提供在附录的第一节。

自主性：PC和Z-IL都缺乏完全的自主性，因为始终需要外部控制信号来在推断和学习之间进行切换：PC等待推断收敛（或T次迭代），而Z-IL在特定的推断时刻t = l更新特定层的权重。BP被认为比PC和Z-IL缺乏自主性：需要一个控制信号来转发信号以及反向错误，并且需要额外的位置来存储反向错误。所有这些缺点在iPC中都被消除，其中唯一需要的控制信号是在不同批次之间进行切换。然而，在全批次训练模式下，iPC能够学习数据集，而无需其他算法所需的控制信号：给定数据集D，iPC同时运行推断和权重更新，直到能量F被最小化。一旦能量最小化收敛，训练结束。

增量EM：iPC也可以从方程（2）的变分自由能中推导出来，并使用EM的变体来最小化它，这个变体专门用于解决原始算法在处理多个数据点时的效率不足的问题，而这种情况几乎总是存在于标准机器学习中。我们现在介绍的这种替代形式称为增量EM（iEM）（Neal和Hinton，1998）。令D = {yi}i<N为具有基数N的数据集，g(x, θ)为生成模型。我们现在的目标是最小化全局边际可能性，该可能性定义在整个数据集上，即

同样的推理也适用于全局变分自由能，它是每个单独数据点的自由能之和。在这种情况下，增量EM算法同时执行E步骤和M步骤，无需外部控制来在两个阶段之间切换。也就是说，在每个时间步骤t上，数据点集中的所有点上的值x和参数θ都同时更新，直到收敛。不需要明确的前向和后向传递，因为每一层都是并行更新的。这也具有强大的理论保证，因为已正式证明使用增量EM来最小化我们的自由能函数（即等价于独立自由能函数之和）也会找到方程（8）的全局边际可能性的最小值。我们实际上提供了实证证据，证明在图2和表1中使用iPC比使用原始PC公式更好地收敛到更好的极小值。iPC的伪代码如Alg. 1所示。

3.1 效率

在本节中，我们分析了iPC相对于原始PC和BP的效率。我们仅提供了相对于BP的效率增加的部分证据，因为标准的深度学习框架，如PyTorch，不允许在不同层中并行操作。

与PC的比较：我们现在展示了iPC如何比原始公式更高效。为此，我们使用iPC和PC在不同任务和数据集上训练了多个模型。首先，我们在Tiny ImageNet和CIFAR10数据集的100张图像子集上，与（Salvatori等人，2021）完全相同地训练了一个具有4个层和256个隐藏神经元的生成模型。能量作为迭代次数的函数的图表如图2（左图和中图）所示。在这两种情况下，使用iPC训练的网络比使用不同T值的PC训练的网络收敛速度快得多。在附录中提供了更多不同参数化的图表。

为了展示以上结果在不同设置中的适用性，我们在FashionMNIST数据集的250张图像子集上训练了一个具有4个层的分类器，按照（Whittington＆Bogacz，2017）提出的框架，并研究了训练损失。由于可以使用BP训练一个等效的模型，我们使用相同的设置和学习率进行了训练，并将其包含在图表中。然而，这阻止了我们使用迭代次数作为效率度量，因为BP的一次迭代比PC的一次迭代更复杂，因此无法进行比较。因此，作为指标，我们使用了执行权重更新所需的非并行矩阵乘法次数。这是一个公平的度量标准，因为在训练神经网络时，矩阵乘法远远是执行的最昂贵的操作，也是对训练速度影响最大的操作。PC和iPC的单次迭代具有相同的速度，并且由2个非并行矩阵乘法组成。BP的一个周期包括2L个非并行矩阵乘法。结果如图2（右图）所示。在所有情况下，iPC的收敛速度比所有其他方法都快得多。在附录中，我们提供了使用不同数据集、模型和参数化获得的其他图表，以及关于训练期间测试误差如何降低的研究。

与BP的比较：虽然这项工作的主要目标仅仅是克服原始PC的核心限制（即，缓慢的推理阶段），但有一种情况下iPC可能比BP更有效，即全批量训练。特别地，我们首先使用执行权重更新所需的非并行矩阵乘法次数作为指标来形式化地证明了这一点。要完成一个权重更新，iPC需要两组非并行乘法：第一组使用每一层的值和权重参数来计算下一层的预测；第二组使用误差和权重的转置来将误差向上传播到上一层，以更新值。另一方面，BP需要2L组非并行乘法来完成参数的完整更新：L个用于前向传播，L个用于反向传播。这些操作无法并行化。更正式地说，我们证明了一个定理，当在全批量制度下对整个数据集D进行训练时成立。有关证明的详细信息，以及关于BP、PC和iPC的时间复杂度的广泛讨论，请参阅附录。

定理3.1. 设M和M'是两个在相同数据集上训练的具有L层的等效网络。M使用BP进行训练，而M'使用iPC进行训练。那么，执行一次权重的完整更新所需的时间复杂度为O(1)对于iPC，而对于BP则为O(L)。

4 分类实验

测试iPC在不同基准测试中的性能。由于本节关注泛化质量，所有方法均运行至收敛，并使用提前停止来选择性能最佳的模型。这些实验是使用多批次训练进行的。在这种情况下，我们失去了相对于BP的效率优势，因为我们需要在呈现新批次时重新计算误差。然而，提出的算法仍然比原始的PC公式快得多，并且能够产生更好的分类性能。

实验设置：我们使用PC、iPC和BP在图像分类基准测试上进行调查。首先，在MNIST数据集上训练一个具有2个隐藏层和每层64个隐藏神经元的全连接网络。然后，在FashionMNIST、Street View House Number（SVHN）数据集和CIFAR10上训练一个中等规模的CNN，该CNN具有64-128-64个卷积核的三个卷积层，后面跟着两个全连接层。最后，在CIFAR10上训练一个大规模的CNN——AlexNet。

为了确保我们的结果不是特定超参数选择的结果，我们对超参数进行了全面的网格搜索（更多详细信息请参阅补充材料），并报告了获得的最高测试准确率。我们还仔细检查了每个模型的能量/损失是否已经收敛，事实证明确实是这样。因此，PC在AlexNet上的性能较差可能是由于PC的缩放特性，而不是非收敛网络导致的。我们在使用iPC时没有遇到这个问题，它能够很好地适应更大的体系结构。

收敛性：在对AlexNet的实验中，在测试的所有超参数组合中，只有当权重的学习率最大（0.01）时，iPC才未能收敛。总共，在96个超参数组合中，有88次收敛。而对于PC来说，仅有26个超参数组合中的模型收敛（我们认为一个模型收敛，如果其最佳测试准确率与整个超参数搜索期间达到的最佳测试准确率之间的差异小于10%）。

结果：在表1中，iPC始终优于PC，除了在最简单的框架（在一个小型MLP上的MNIST）中，PC的优势仅为0.01%。但是，PC无法适应更复杂的问题，在这些问题上，它被所有其他训练方法超越。另一方面，iPC的性能在大小、架构和数据集的变化下保持稳定，并且与BP的性能相媲美。

宽度变化：为了研究在添加最大池化层和增加宽度时iPC的行为，我们在CIFAR10上训练了一个具有三个卷积层（8、16、8）和最大池化层，然后是一个全连接层（128个隐藏神经元）的CNN。我们还通过将网络的每个隐藏维度乘以一个常数C（例如，C = 3表示一个网络，其中有3个卷积层（24、48、24），每个后跟一个最大池化层，以及一个全连接层（384个隐藏神经元））来复制实验。表2中的结果显示，iPC（i）在每个参数化下优于BP，（ii）需要更少的参数来获得良好的结果，但是（iii）一旦达到特定的参数化，其性能会下降。这与BP形成对比，BP即使在极度过参数化的情况下也能很好地泛化。这表明iPC在参数数量方面比BP更高效，但是找到最佳参数可能需要额外的调整。

4.1 稳健性和校准

稳健性和不确定性量化在深度学习中近年来已成为一个越来越受关注的话题。最近注意到，将分类器视为生成模型有助于模型的稳健性（Grathwohl et al., 2019）。通过添加层次或模拟灵长类动物视觉皮层的消息传递方案，也可以获得相同的结果（Dapello et al., 2020; Choksi et al., 2021）。关于PC，已经证明了其训练过程更加稳定，因为它复制了显式的梯度下降模式（Alonso et al., 2022），并且它学习到了更加稳健的表示（Song et al., 2022; Byiringiro et al., 2022）。我们现在通过比较iPC的稳健性和校准能力与BP的校准能力来经验性地证明这一点。

校准描述了预测对数几率与给定预测置信度的观测值经验分布之间的一致程度。可以使用校准良好的模型输出来量化其预测的不确定性，并将其解释为概率，而不仅仅是模型的置信度。让Pˆ是我们的随机预测向量，指示预测Yˆ是否正确的置信度。如果模型置信度与模型性能相匹配，则我们说Pˆ是校准良好的，即P(Yˆ = Y |Pˆ = p) = p (Guo et al., 2017)。我们使用自适应期望校准误差（AdaECE）来测量校准的偏差，该误差估计E[|P(Yˆ = Y |Pˆ = p) − p|] (Nguyen & O'Connor, 2015)。近年来，已经广为人知的是，使用BP训练的神经网络往往在其预测中过于自信（Guo et al., 2017），并且在分布转移下，校准误差显著增加（Ovadia et al., 2019）。

结果：我们的结果如图3所示。箱线图显示了在不同形式的数据损坏下校准误差的分布，这些数据损坏具有相同的强度级别，在iPC和BP之间存在明显差异：iPC训练的模型输出更加校准良好，并且能够更好地传递其置信度。这对于将模型输出作为不确定性指示至关重要。在分布内数据上，我们观察到iPC产生的平均校准误差为0.05，而BP产生的为0.12。此外，我们观察到，对于iPC来说，校准误差的增加要弱得多：相比于BP在最轻微的数据损坏情况下，iPC模型的中位数校准误差在所有转移强度水平上都更低。此外，相比于BP，在分布内数据上，iPC在转移级别3之前都显示出更好的校准性。这对于将任何一种方法应用于安全关键应用可能会产生强大影响。

5 语言模型实验

最近的一项工作表明，可以对PC的训练算法进行微小修改，以改善其在小型语言模型（LMs）上的性能（Pinchetti et al., 2022）。在这里，我们测试了PC、iPC和BP在BERT上的性能，BERT是一种流行的仅编码器transformer语言模型架构（Devlin et al., 2019）。该模型被训练来从输入中重建随机屏蔽的标记。为了扩大研究范围，我们还训练了BERT的条件版本，其中我们向注意力机制添加了一个三角形掩码，以便模型仅基于文本中的前面标记生成每个标记。这创建了一个仅解码器语言模型，其架构类似于GPT（Radford et al., 2018）。

设置：训练和开发数据集是通过从十亿词基准（One Billion Word Benchmark）（Chelba et al., 2013）中随机抽样得到的，分别包含20万和1万个实例。测试数据集是1B Word Benchmark的原始测试数据集。对于两个模型，我们使用两个transformer块，每个块一个头，隐藏大小为128。词汇表是通过字节对编码（byte-pair-encoding）得到的，使用SentencePiece分词器（Kudo & Richardson, 2018）生成8001个标记。在选择了最佳超参数后，我们对每种方法运行了额外的9个种子，共计10个种子。这使我们能够比较预期的困惑度（perplexity）性能，并查看跨种子的性能变化。我们还使用收敛阈值来丢弃那些没有收敛的模型。对于iPC和BP，我们将收敛阈值定义为200的测试困惑度，而对于PC，我们将其定义为800。有关每个种子的完整结果以及重现结果所需的所有细节，请参阅补充材料。

结果：我们的实验表明，在屏蔽和条件语言模型中，iPC明显优于PC。对于屏蔽LMs，iPC还表现出更好的收敛性，所有10个种子都收敛，而PC只有3个种子收敛。PC性能不佳是由于其训练稳定性不佳所致，正如图3（右侧）所示，我们还可以看到iPC和BP的训练曲线相似。实际上，就测试困惑度而言，iPC的表现与BP类似，iPC在屏蔽LMs上的表现优于BP，测试困惑度分别为106和120（其中所有10次运行都收敛），而在条件LMs上，iPC的表现较差，测试困惑度分别为113和143（其中3次运行未收敛）。结果如表3所示。因此，我们可以得出结论，对语言模型进行的实验表明，iPC在性能和稳定性方面显著优于PC，获得的结果与BP的结果可比。

6 相关作品

神经科学启发的算法最近引起了机器学习界的关注，许多研究都使用PC来解决机器学习问题，从生成任务（Ororbia＆Kifer，2020）到复杂数据集上的图像分类（如ImageNet）（He et al.，2016），再到关联记忆（Salvatori et al.，2021; Tang et al.，2023），不断学习（Ororbia等人，2020）和自然语言处理（Pinchetti等人，2022）。就潜在的神经形态芯片上的实现而言，有多条与PC平行的研究线，如本地表示对齐（Ororbia II等人，2017; Ororbia＆Mali，2019），平衡传播（Scellier＆Bengio，2017），反馈对齐（Lillicrap等人，2016）和SoftHebb（Journ´e等人，2022）。另一方面，理论工作研究了PC、反向传播和上述算法之间的相似之处（Millidge等人，2022b; c）。

7 讨论

在预测编码领域工作的研究人员肯定经历了预测编码网络的缓慢和不稳定的训练过程。在本文中，我们提出了PC的一种变体，使所有计算能够同时、本地和自主地执行，并具有非渐近时间的理论收敛保证（Karimi等人，2019）。与PC的原始形式相比，这使得效率大幅提高，通过广泛的实验表明，在所有考虑的任务中，性能和鲁棒性也得到了改善。许多其他加速训练算法并收敛到更好极小值的工作，如ADAM优化（Kingma＆Ba，2014），在其提出的社区产生了巨大影响，同时在表面上也很简单。同样，我们预见，现在许多PC领域的研究人员可以使用所提出的更新规则，这与原始规则相比没有明显的缺点。它实证收敛到更好的极小值的事实也使PC能够在复杂任务上达到与BP相媲美的性能，例如在卷积模型中的图像分类或变压器模型中的语言生成。

A 关于生物学合理性的讨论

在这一部分，我们讨论了所提算法的生物学可行性。在文献中，关于特定算法是否符合生物学可行性常常存在分歧。一般来说，当算法满足大脑中也满足的一系列特性时，就认为该算法是生物学上可行的。不同的工作考虑不同的特性。在我们的情况下，我们考虑了一系列最小属性，包括局部计算和缺乏全局控制信号来触发操作。通常，预测编码网络会考虑错误节点，从生物学角度来看通常被认为是不可信的（Sacramento等人，2018）。即便如此，我们的模型的生物学可行性不受影响：事实上，可以将PC映射到不同的神经结构中，在这种结构中，错误被编码在顶枝中而不是单独的神经元中（Sacramento等人，2018；Whittington＆Bogacz，2019）。两种实现之间的差异的图形表示可以在图4中找到，取自（并经过调整）（Whittington＆Bogacz，2019）。此外，我们的表述比PC的原始表述更加合理，因为它能够在不需要触发权重更新的外部控制信号的情况下学习。

权重传输：尽管预测编码旨在模拟各种脑区的信息处理，但当前的表述仍然存在某些生物学上的不合理之处。一个显著的例子是权重传输问题，它认为负责转发信息的突触权重与向后传递错误信息的权重相同，正如Lillicrap等人（2016）所强调的那样。这个问题引起了相当大的关注，促使深度学习模型的发展，在大规模图像分类任务中达到与反向传播相当的性能水平，如（Xiao等人，2018）所讨论的。在预测编码研究中，已经证明删除这些特征并不会明显损害分类性能（Millidge等人，2020b）。虽然重要的是要强调我们提出的算法在前述研究中描述的权重传输框架中仍然是功能性的，但测试它超出了本文的范围。总之，其他作品已经引入了类似于预测编码的算法，这些算法不依赖于权重传输（Ororbia等人，2022；Ororbia＆Kifer，2022；Ororbia等人，2020）。

C 关于 PC、BP 和 IPC 的效率

在本节中，我们讨论PC、BP、Z-IL和iPC的时间复杂度和效率。我们首先介绍前三者，并引入一个用于计算这种复杂度的度量标准。这个度量标准是同时矩阵乘法（SMM）的数量，即执行单个权重更新所需的不可并行化矩阵乘法的数量。作为运行时间的合理近似，它是一个合理的近似，因为乘法是算法中执行的最复杂的操作

C.1 PC、BP 和 Z-IL 的复杂性

为了研究推理步骤的复杂性，我们考虑每个算法所需的矩阵乘法（MMs）数量：一个推理步骤需要（2L-1）个MMs：用于更新所有错误的L个，以及用于更新所有值节点的（L-1）个（根据方程（6））。因此，完成一次权重更新，PC和Z-IL分别需要（2L-1）T和（2L-1）（L-1）个MMs。与此同时，BP需要（2L-1）个MMs来完成单个权重更新：L个用于前向传播，（L-1）个用于反向传播。

根据这个度量，BP是最高效的算法，Z-IL排名第二，PC排名第三，特别是当T远远大于L时。然而，这个度量只考虑了所需的总矩阵乘法数量，而没有考虑其中一些是否可以并行执行，这可能会显著降低时间复杂性。现在我们来解决这个问题。

并行复杂性：推理过程中执行的矩阵乘法可以在层之间并行化。事实上，方程（6）中的计算是层间独立的，因此更新所有错误节点的L个MMs如果适当并行化，则仅需一个MM的时间。同样，方程（6）中更新所有值节点的（L-1）个MMs如果适当并行化，则也仅需一个MM的时间。因此，如果正确并行化，一个推理步骤只需2个MMs的时间（因为，正如所述，它包括通过方程（6）更新所有错误和值）。因此，一个推理步骤需要2个SMMs；PC和Z-IL的一个权重更新分别需要2T和2（L-1）个SMMs。由于在BP中没有MM可以并行化（网络的前向传播和错误的反向传播都依赖于层），因此在执行单个权重更新之前，需要（2L-1）个SMMs。这些数字总结在表4的第二行中。总的来说，以SMMs为度量，BP和Z-IL的效率相当（高达一个常数因子），并且比PC更快。

早期版本：超越BP算法：增量预测编码: 并行且全自动的学习算法

本文参与腾讯云自媒体分享计划，分享自微信公众号。

原始发表：2024-04-20，如有侵权请联系 cloudcommunity@tencent.com 删除

算法