大脑启发机器智能：神经生物信用分配学习机制大全

用户1908973

发布于 2024-04-11 14:26:05

590

发布于 2024-04-11 14:26:05

文章被收录于专栏：CreateAMindCreateAMind

受大脑启发的机器智能：调查神经生物学上合理的信用分配

• Implicit Signals (‘Imp’): two-factor Hebbian adaptation (Hebbian (2F));

• Explicit Global Signals (‘EG’): three-factor Hebbian adaptation (Hebbian (3F));

• Non-Synergistic Explicit Local Signals (‘NSEL’): synthetic local updates (SLU);

• Synergistic Explicit Local Signals, Discrepancy-reduction (‘SEL:DR’): predictive coding/neural genera

tive coding (PC/NGC);

• Synergistic Explicit Local Signals, Energy-based (‘SEL:EB’): equilibrium propagation (EProp);

• Synergistic Explicit Local Signals, Forward-only (‘SEL:FO’): recurrent forward-forward/predictive

forward-forward (RFF/PFF) learning.

摘要

在这项调查中，我们研究了受神经⽣物学启发或推动的在⼈⼯神经⽹络中进⾏信⽤分配的算法。这些过程统⼀在⼀种可能的分类法下，该分类法是基于学习算法如何回答⽀撑复杂⾃适应神经元系统中突触可塑性机制的核⼼问题⽽构建的：驱动⽹络各个元素学习的信号在哪⾥它们来⾃何处以及如何产⽣？在这种统⼀的处理中，我们将不断增⻓的受⼤脑启发的学习⽅案分为六个⼀般系列，并在错误反向传播及其已知批评的背景下考虑这些⽅案。本次综述的结果旨在⿎励神经模拟系统及其组成学习过程的未来发展，其中存在着在机器学习、计算神经科学和认知科学之间建⽴牢固桥梁的重要机会。

关键词学分分配·类脑计算·神经模拟学习·突触可塑性

简介

⽀持⽣物启发或神经模拟机器智能研究的核⼼⽬标之⼀是创建⼀个完整的推理和学习理论，模拟⼤脑如何从环境中学习复杂的功能。这样的理论不仅在⽣物学上是合理的，⽽且从机器学习的⻆度来看也是有意义的[38]。因此，从神经科学和统计学的学习⻆度来看，这⼀理论都是可信的，因此可以从这两个⻆度进⾏实证检验和验证。此外，这⼀新兴科学探究领域的进展可以作为神经模拟认知架构 [90,330,362,315,380,42 ]以及背后受⼤脑启发的具体机器智能类型的更宏伟⽬标的核⼼基础最近推出的“NeuroAI”计划 [ 359,337,470,288 ] 。

构建上述理论的⼀个具有挑战性的⽅⾯是在计算神经系统内开发⼀种⽤于进⾏信⽤分配的合理机制，以⽀持优化⾏为评分函数。信⽤分配本⾝是指根据单个处理元件（例如神经元单元）对最终⾏为输出的贡献，将“信⽤”和/或“责备”分配给复杂⾃适应系统内的各个处理元件。对于神经元⽹络，考虑到早期神经元的影响或效果取决于下游突触连接和神经活动，信⽤分配尤其困难。这⼀挑战也被称为信⽤分配问题[34]。

尽管对其⽣物学合理性的强烈批评已经存在了⼏⼗年[141, 479, 73, 311, 154, 438]，但被称为误差反向传播[248, 372]或反向传播的算法⼏乎专⻔⽤于训练现代- 天，最先进的⼈⼯神经⽹络（ANN）⽤于监督、⽆监督和强化学习任务/问题。尽管它本⾝优雅⽽强⼤，也是“深度学习⾰命” [229]背后的驱动⼒之⼀，但它是⼈⼯神经计算最难与当前的⻅解和观点相协调的⽅⾯之⼀。我们从认知神经科学中得到的发现。此外，⽤于构建当前 ANN 计算架构的许多机制和元素，例如归⼀化操作，包括批量和层归⼀化[186, 17]，主要是为了解决信⽤分配中的问题⽽设计的，⽽不是充当为解决⼿头的任务[323, 326]。正如我们将要在我们对各种替代算法的处理中，尽管最初受到⼤脑中真实神经元的属性/⾏为的启发[273]，但即使是构成深度神经⽹络（DNN）的处理元素也忽略了许多表征实际神经⽣物学机制的细节，并且动⼒学。最终，考虑⽣物神经元[210, 211]背后的其他计算机制和元素的形式化和集成，对于创建更强⼤的信⽤分配形式和促进 DNN 中更类似于⼈类的泛化能⼒、解决可靠性等问题可能很重要/模型校准、稳健性和样本效率低下。这项⼯作认为，⼈⼯神经系统的学习、推理和设计中的⽣物学合理性不仅是神经科学家和认知科学家感兴趣的（利基）属性；⽽且也是神经科学家和认知科学家感兴趣的。它将在机器智能的未来中发挥关键作⽤，例如在低能耗模拟和神经形态芯⽚上寻求实现的努⼒ [75,138,217,466 ] 。此外，这些受⽣物学启发的计算框架需要从⾏为的⻆度进⾏检查和评估[24,326,247 ]，要么考虑如何将信⽤分配⽅法扩展到更⾼维度、复杂的任务[ 24]或者研究特定算法如何在模块化认知架构的背景下泛化[315, 322]。因此，需要新形式的分析和基准测试，并通过计算机科学、认知科学和计算神经科学 [249,263,359,60] 的思想和概念来丰富，以取得持续的进展以及推进的新突破。灵活、鲁棒的类脑智能系统的研究现状。

具体来说，本次审查将重点关注过去⼏⼗年中提出的⽆需反向传播的⼈⼯神经⽹络训练算法；这些⽅法框架有时被称为“⽆反向传播”或“受⽣物学启发”的学习算法。为了更好地⽐较和组织不断增⻓的⼤量⽅法，我们构建了⼀个分类法，该分类法基于回答⼀个关键问题，该问题集中推动了⽣物学上合理的信⽤分配形式的发展：驱动⼒或信号在哪⾥？适应⽹络所需的突触可塑性背后的处理元素来⾃于以及它们是如何产⽣的？正如我们将很快研究的那样，反向传播回答这个问题的⽅式与许多⼤脑理论形成鲜明对⽐[140,354,181,67 ] 。在本次调查中，算法集群/家族（“主题”）将根据各种⽅案如何试图回答这个问题来制定；在这项⼯作的范围内，这产⽣了六个不同的家庭。在此过程中，我们将考虑不同的⽣物算法如何以及在多⼤程度上解决或解决反向传播的神经⽣理学和⼯程批评。希望我们提出的现有⽣物驱动信⽤分配算法建议的分类和统⼀处理能够为该领域提供信息、启发和帮助，产⽣扩展、组合甚⾄取代当前⽅法的新想法。

调查的结构。本⽂的组织⽅式如下。⾸先，为了将我们的评论置于上下⽂中，我们在第1.1节中提供了我们的调查的符号/符号系统、其运⾏⽰例神经架构以及误差反向传播的表征（反向传播）；我们还阐明了反向传播的核⼼问题和⽣物学上不可信的根源。接下来，在第1.4 节中，我们提出了我们的框架问题及其相应的分类法，以组织我们将要研究的⽅法。在第2 节中，我们从分类学的⻆度回顾了神经模拟信⽤分配的各个家族。最后，在第3 节中，我们将综合解决反向传播固有问题的结果，并强调神经⽣物学学分分配和受⼤脑启发的机器智能研究的⼏个重要的未来⽅向。

1.1 算法框架

符号。我们⾸先定义本次调查中常⽤的关键符号和符号（请参阅包含符号/运算符和⾸字⺟缩略词定义的表格的补充）。⼤写粗体符号M表⽰矩阵，⼩写粗体符号v表⽰向量；请注意， Mij检索位置 (i, j) 处的标量。矩阵-矩阵/向量乘法⽤·表⽰，Hadamard乘积为⊙，(v)表⽰v的转置。我们将⽤ g(v) 表⽰法来表⽰元素函数（应⽤于矩阵或向量），⼀阶导数（相对于其输⼊参数）表⽰为 ∂g(v)。

算法框架：神经系统上下⽂。为了将本次综述中研究的各种学习过程置于情境中并统⼀起来，我们引⼊了所谓的“神经系统情境”：这是学分分配⽅案所处和运⾏的神经元模型框架和信息处理管道。我们认为神经系统上下⽂是指定并实现（⾄少）以下元素的神经系统上下⽂：

由处理元件或一组相互作用的神经元结构组成的计算架构，例如MLP图形模型（包括其权重初始化方案）；

跨其元素的推理或信息通信程序，例如 ANN 模型中活动的前向传播；

计算/产生对（突触）参数（学习算法）的更新/调整的信用分配过程，例如标准DNN情况下的反向传播；

图 1：所示的神经系统上下文和所提出的算法分类。我们建议的学分分配分类学（参见红色放大）围绕着一个问题：突触可塑性的驱动力或信号是什么？虚线框轮廓中的组件表示可能（直接或间接）参与学分分配的设计。分类中的紫色斜体文本表示叶子或算法系列。注意：有关首字母缩略词定义，请参阅补充。

• 参数优化函数或更新规则，接受信用分配提供的更新

处理并直接改变参数 θ 的值，例如随机梯度下降（SGD），

RMSprop [433]，亚当 [198]；

• 特定问题（全局）成本函数，通常由所需任务决定；

• 感觉流，它可以是模式的集合，如数据集 D 中的那样，或者是从流数据生成过程。

上述⼏点在图1 中进⾏了图形化描述，并且如红⾊框“学分分配”所⽰，本次调查将重点关注神经系统上下⽂的学习过程。如虚线框所⽰，“计算架构”、 “任务⽬标”和“推理/采样过程”也将被考虑到它们参与学习⽅案或受学习⽅案影响的程度。1但是，我们注意到其他组件不仅为学习和推理过程提供上下⽂，⽽且根据设置，可以显着影响它们的性能/⾏为，例如参数优化⽅案的选择，例如 RMSprop 与 Adam。

计算架构运⾏⽰例。

1.2 误差的反向传播

图 3：误差反向传播的全局反馈路径。所描绘的是全局反馈路径，或递归计算的教学信号的向后流动，其表征了基于反向传播的学分分配。

在后续步骤中，例如，通过步⻓为 η 的 SGD，这需要Wℓ ← Wℓ − ηΔWℓ 。我们注意到，虽然我们已经展⽰了通过 MLP ⽹络的链式规则计算的权重更新，但基于反向传播的信⽤分配⽅案可以应⽤于任何类型的图，只要它被限制为⾮循环及其组成的数学运算符，例如，线性变换、元素激活是可微的。这包括⻓操作链，包括组成展开的循环神经⽹络或深度⾃动编码器的那种；然⽽，在这些情况下，随着链的处理深度或⻓度的增加，信⽤分配的任务变得更加困难。值得注意的是，多年来已经提出了反向传播的许多变体，包括[94,360,160 ] 。

1.3 误差反向传播的问题

如前所述，信⽤分配需要确定系统内神经元处理单元对特定⽬标/成本函数的影响程度，并在此之后调整其突触值（功效）以提⾼系统中的性能未来。就误差⽽⾔，这意味着信⽤分配涉及将(部分)误差值分配给每个神经单元，以最⼩化特定于任务的⽬标，⽽就奖励⽽⾔，这意味着将(部分)奖励值分配给每个单元都服务于最⼤化任务中⼼奖励函数。对突触参数的更新是根据这些计算的每单位错误/ 奖励分配进⾏的；抽象地说，⾄少在以错误/奖励为中⼼的优化⽅⾯,已经理论化/观察到⼤脑中发⽣了类似的过程 [ 354,110,111,416,417 ] 。然⽽，在深度学习的背景下，反向传播执⾏这种分布式信⽤分配的⽅式在很⼤程度上被认为是难以置信的，⼏乎没有神经⽣理学证据⽀持这种形式的学习。⾃最早的批评以来的⼏⼗年⾥[142, 73]，越来越明显的是，基于反向传播的适应不太可能发⽣在真正的神经元细胞系统中。接下来，我们将解释反向传播的⼏个核⼼问题和⻓期存在的问题，其中许多问题是实际⼯程问题和神经⽣物学批评的混合体。

全局反馈路径问题。⻓期以来，⼈们都知道⽤反向传播训练的深度神经模型会与梯度消失和爆炸的问题作⽃争[34, 335] （我们也将这些统称为“不稳定梯度”），这会导致训练/梯度不稳定。DNN 的拟合过程。具体来说，梯度不稳定的问题是指在整个训练过程中，通过反向传播更新DNN参数所产⽣的梯度（Frobenius）范数会增⻓（指数爆炸）或收缩（指数消失）；从数学上讲,(雅可⽐)矩阵的乘积可以向⽆穷⼤增⻓或收缩到零（沿着特定的向量⽅向），就像相似⻓度的数字序列⼀样[335]。梯度值不稳定的问题源于以下事实：基于反向传播的⽅案试图在计算元素的深层层次结构中分配每单位信⽤，通过从整个系统的输出层向下/返回到较低层来递归地渗透信息隐藏层。由此产⽣的递归操作的⻓链或路径被称为“全局反馈路径” [328, 323] （⻅图3），并且被认为是反向传播固有的错误驱动学习的⼀个重要⽅⾯，需要解决这个问题是为了模拟⾃然神经⽹络特征的更强⼤、更稳定的学习。请注意，当在序列数据上训练时态神经模型（例如循环神经⽹络（RNN） [40]）时，与计算单元的深层层次结构上的信⽤分配相关的问题会加剧，这需要跨时间向后展开神经模型（⼀种⾏为）它本⾝被批评为在⽣物学上完全不可信[320]）。由反向传播（随时间）创建的全局反馈路径所产⽣的不稳定使得 RNN 很难学习时间上遥远的事件之间的相关性。

重量运输问题。权重传输或对称突触连接问题是指在反向传播中，⽤于进⾏推理的相同突触参数矩阵在学习阶段的信息通信中被重⽤（⻅图 4a ）。这意味着在反向传播适应的

图 4：误差反向传播问题。描述了基于反向传播的信⽤分配的三个核⼼问题（从左到右）：权重传输、前向锁定和更新锁定问题。

DNN,突触前神经元通过向前传输(输⼊)信息的相同突触接收来⾃突触后神经元的错误信息[141],在神经⽣物学中,鉴于神经递质和受体强制信息的单向流动,这种操作在⽣化突触中是不可⾏的.因此,⼤脑中的突触反馈回路是利⽤两组不同突触的结果[ 246,247,328,453,36 ] 。此外，在某些情况下反馈循环完全有可能不存在[407]，这是某些受⼤脑启发的算法试图解决的⼀个⽅⾯（例如，仅前向学习；参⻅第2.4 节末尾）。

推理学习依赖性问题。这是指学习路径和推理路径之间的中⼼依赖关系，这是基于反向传播的模型需要存在两个异构计算/计算阶段（前向传递和后向传递）这⼀事实的结果，每个阶段的特征是他们⾃⼰的组成业务[372, 247]。这意味着由全局成本函数的误差梯度（或“教学信号”）向后传输驱动的对突触参数的调整本质上取决于信息前向传播（推理阶段）产⽣的统计数据，在真实神经元结构中未观察到的条件依赖性。就⼤脑⽽⾔，突触调整与反向传播中基于前向传播的推理产⽣的神经活动值之间的这种关系是难以置信的，这意味着⽣物神经元需要存储能⼒来记忆前向信号以直接⽀持学习。此外，反向传播中的计算承保推理和学习需要精确计时，以在前向和反向传播阶段之间交替[36] ，⽽在⼤脑中，不需要这种外部控制[452]，即神经元⾃主执⾏计算在外部决定的时间应⽤很少的外部路由信息。

局部性和锁定问题。基于反向传播的学习固有的另⼀个关键问题是，决定突触更新的规则/机制是⾮局部的（这也是上述推理学习依赖性问题的结果）并且依赖于全局定义的成本函数的最⼩化这本⾝取决于整个⽹络中神经活动的价值，包括那些接近层次结构底部的神经活动。这与⽣物神经元和连接它们的突触中可塑性的发⽣⽅式形成鲜明对⽐，即神经元适应和可塑性被认为依赖于空间和时间上的局部信息[351, 157]。基于反向传播的信⽤分配固有的⾮局部性进⼀步引起了三个相关的⼦问题：前向锁定、后向锁定和更新锁定问题[188, 74]。前向锁定问题是现代 DNN 中（前馈）推理本质的结果；⼀层处理元素的活动值取决于其下⾯/之前的层的所有存在/活动（⻅图4b）；换句话说，在执⾏有向图中的前⼀层之前，没有任何⼀层可以处理传⼊的信息。更新锁定本⾝源于前向锁定问题

约束和敏感性问题。通过使⽤⾃动微分[264]，可以训练由多种类型的操作组成的不同类型的计算神经结构（线性链之外）。许多现代 DNN 由多个、各种类型的层组成，包括那些利⽤卷积的层，如卷积⽹络[121,66,212 ] ，或多个⾃注意⼒头，如神经变换器[439]。然⽽,尽管具有灵活性,以反向传播为中⼼的学习形式确实对可以构建的架构施加了⼀些约束和功能要求：1）模型必须完全可微， 2）反向传播仅限于采⽤以下形式的训练⽹络：有向⽆环图。对于第⼀个约束，模型完全可微意味着其所有组成操作也必须是可微的（包括其元素激活函数）；否则，由于微积分的矩阵链式法则需要局部⼀阶导数/雅可⽐矩阵的链式乘积，因此⽆法进⾏反向传播传输。这使得利⽤离散值函数和随机元素（例如伯努利采样）变得困难，使得设计使⽤离散/尖峰值进⾏通信的系统（如尖峰神经元系统）变得具有挑战性，从⽽进⼀步阻碍了我们构建更多能量的能⼒⾼效的神经系统[314, 466]。从⽣物学上讲，这意味着表征底层⼤脑结构的反馈路径需要精确了解神经元⾮线性动⼒学（在特定操作点）的导数，这些神经元在 DNN 推理路径的相应前馈计算中传输信息。就第⼆个约束⽽⾔，如果 DNN 的神经结构内存在循环，则在前向传播中会创建⽆限循环，从⽽使学习变得不可能。为了解决这个限制，例如对于时间/顺序数据，研究⼈员开发了⼀种反向传播的时间相关变体，它存储随时间变化的神经活动值的向量[177]

最后，这个问题的另⼀个⽅⾯是 DNN 对它们的初始条件以及归⼀化的选择⾼度敏感。特别是，众所周知，在 DNN 优化中，保证收敛（以及后续泛化）的关键因素是⽤于随机实例化突触权重的初始化⽅案。然⽽，使⽤反向传播训练的 DNN 对为其突触选择的随机初始值特别敏感[209]，这最终会阻碍其整体最终性能。⼤量研究致⼒于制定有效的初始化设置[134, 386, 156, 180] （包括数据级/相关初始化设置[230, 386]）；然⽽，这个问题⾄今仍然存在。此外，现代 DNN 中⼴泛使⽤的初始化⽅案，例如 Glorot 初始化[134]，已被证明有其局限性，例如， [218]和[190]证明，盲⽬使⽤ Glorot 初始化可能会导致（⻓期）术语）次优泛化性能。此外，在实践中，现代 DNN 不仅严重依赖于初始化，还严重依赖于数据和激活级别上应⽤的归⼀化⽅案[230,17,186 ] ；选择良好的标准化⽅案有助于确保更快的收敛和更好的泛化。然⽽，批量或活动级标准化引⼊了进⼀步的问题

短期可塑性问题。这个问题与 DNN 中通常如何进⾏推理的本质有关。具体来说，DNN 不建模也不提供短期可塑性的解释；实际上，直到数据被限制在系统的输⼊层然后执⾏前向传播计算之前，神经活动才“存在”（这也是前⾯描述的前向锁定问题的部分原因）。此外，在反向传播中，向后传播的误差信息仅影响突触值的变化，不会导致神经活动本⾝的任何修改[43, 247]。相反，在⼤脑中，观察到固有的反馈连接的运作⽅式完全不同，例如，⽪层中的反馈突触以⾃上⽽下的调节⽅式影响前馈神经动⼒学[311]。尽管短期可塑性问题集中在 DNN 中进⾏推理的⽅式，但由于推理是（直接或间接）影响学习的功能的⼀个关键⽅⾯，因此它是许多学分分配⽅法的神经计算的⼀个重要⽅⾯正如我们将在整个调查中看到的那样，尝试解决这个问题。我们已经明确指出的这个问题还涉及受⼤脑启发的机器智能已经开始考虑的另⼀个重要⽅⾯合理的架构设计，其中涉及考虑神经模型内的连接模式应该⼀致/符合⼤脑连接（在新⽪质中）的基本约束[452]。

1.4 驱动突触可塑性的⽬标信号

正如本⽂开头所强调的，任何设计⽤于在神经系统环境中进⾏信⽤分配的计算过程都必须回答以下问题：对于神经系统中的每个处理单元，⽤于诱导学习/适应的（⽬标）信号在哪⾥？神经元⽹络从何⽽来？5这个问题有很多可能的答案，在本次调查中，我们将重点关注其中六个更突出的答案，每个答案都激发了不同系列的受⽣物学启发的算法和框架。

如图 1 所示，我们首先将信号类型分为两大类：隐式和显式。在使用隐式信号的学习和适应的情况下，这也是六种计算之一家族中，用于调整突触参数的信息在时间和空间上都是完全局部的；这是纯粹赫布式规则的中心特征[157]或也称为“相关学习”[310]。具体来说，突触变化仅取决于突触前和突触后立即可用的信息站点/位置，即突触线连接的传入和传出神经元。6因此，有没有明确的信号或外部信息，例如基于错误的信号或外部信息（例如通过比较预测到参考值），该预测被传输到特定的神经元。

基于隐式信号的信⽤分配的替代⽅案⾃然是基于显式值的信⽤分配；这包括许多组程序，这些程序所依赖的信息超出了任何单个突触本地可⽤的信息.

此⼀般分区下的任何受⽣物学启发的过程通常都会基于某种过程（其本⾝可以是本地的）创建信号值，例如基于错误/不匹配测量的消息传递的信号值。

在显式信号算法集群中，我们根据信⽤分配⽅案是否利⽤局部或全局信号来引起突触权重变化来划分信⽤分配⽅案。在全局类别下（它是分类树中的⼀⽚叶⼦，因此是⼀个独特的家族），我们有许多可能的框架，从反馈对⻬到神经调节。在本地类别中，可以根据程序的实际“本地程度”对程序进⾏进⼀步分类，在本次调查中，我们提出了两个⼦分区“⾮协同”和“协同”。⾮协同局部⽅案使⽤局部信息进⾏操作，即它在空间和时间上“靠近”它将影响的神经元，但与隐式信号⽅案不同，这是超出突触和两个突触的信息或⽬标值。它连接的神经元可能会提供。能够创建此信息的机制通常涉及额外的神经元和突触参数，通常形成某种类型的局部预测器，例如，可以⽴即访问标签上下⽂的分类器，或者使⼀对层能够形成⼀个特定的局部反馈突触。编码器/解码器⼦系统。另⼀⽅⾯，协同局部学习过程是使⽤神经系统状态的⼀些间接知识产⽣信号信息或⽬标值的过程；此类信息通常是通过消息传递⽅案或迭代解决过程获取的，通常（但并⾮总是）涉及额外的神经电路来构建反馈循环。在这个分类中，存在三个主要的⼦范式（或分类叶）：基于差异的[113, 328]、基于能量的[231]和仅前向框架[205]。

2 神经模拟信⽤分配家族

2.1 隐式信号算法

我们审查的第⼀组程序为本次调查的核⼼问题提供了⼀个简单的答案：没有⽬标或外部信号.相反,与我们将研究的其他算法不同，⽬标是隐式的，不是由外部过程产⽣的。这些⽅案利⽤了架构中每个突触连接容易获得的信息。这可能意味着，在赫布学习的情况下，只需要突触前和突触后神经元元件的活动,并且适应实际上是基于相关性的学习的⼀种形式。

这些⽅案在⽂献中有时被称为“更新规则”，属于该系列，仅利⽤神经模型的推理过程（例如⽹络的前馈通道）产⽣的信息。考虑到计算仅涉及神经⽹络，这不仅从实⽤⻆度来看特别有吸引⼒

5请注意，⽬标信号可能有多种形式，范围从单独的神经元活动池产⽣不匹配值⼀直控制触发或调节突触强度变化的信号。

6在神经⽣物学中，突触是⼀种在神经元之间携带/介导信息的特殊连接点；正是许多这样的“电缆”促进了单个神经元与其⼀⼩部分突触前发射器和突触后接收器之间的通信。

活动向量可⽴即从系统的推理过程中获得（⽆需通过反馈等机制提供进⼀步的信号），⽽且从神经⽣理学的⻆度来看，因为突触变化可以仅使⽤本地信息来计算。此外，该系列中的任何⽅法通常都不需要激活导数，⽽且训练和测试时间计算是相同的。

赫布学习。基于赫布的调整是一种经典的、生物学上合理的突触修饰规则。它基于这样的观点：突触可塑性是突触前神经元细胞持续重复刺激突触后细胞的结果 [157, 220]7,通常用这句话来概括：“如果神经元一起放电，它们就会连接在一起”[254]。每一次输入活动模式（来自突触前专门化）的出现都会加强相关突触参数稍后回忆或再现模式的能力。实际上，赫布学习允许神经结构在其突触连接中编码记忆。Hebbian 类规则的相当吸引人之处在于它们完全在本地运行——这解决了反向传播固有的核心问题之一，即局部性和锁定问题。.本质上,突触调整只需要容易获得的信息，并且靠近感兴趣的突触权重（的位置),换句话说，赫布规则通常是逐个单元的规则，其中有关突触前激活和突触后激活的某些方面的信息（例如神经元激活模式的幅度）以及可能对当前突触效率的依赖性 cacies，用于计算和更新连接层 ℓ − 1 到 ℓ 的权重矩阵。形式上，这种类型的调整可以用标量（单突触）形式表示，即

或矩阵向量形式，即

(τ 是⼀个时间常数，可以重构为所谓的 “学习率”).该更新⽅程也被称为⼆因素赫布规则；⼀个因素是突触前活动，⽽另⼀个因素是突触后活动（突触与规则的使⽤通常不被视为单独的因素）。

尽管该⽅案简单⾼效，但仅需要层 ℓ−1 和 ℓ 配对中的神经元产⽣的活动值,以及连接它们的突触的当前值,这是天真的⽅法的⼀个关键缺点解释的Heb-bian更新规则是爆炸权重⼤⼩的可能性;通过重复应⽤该规则创建隐式正反馈循环,从⽽导致权重⼤⼩不断增加.这可以通过引⼊可塑性约束[280] 来解决,例如某种形式的权重衰减[469]归⼀化[442,370]或两者[307,183] (如Oja规则8 ).例如,在突触强度上引⼊压⼒的⼀种简单⽅法是通过：

其中γ 是⾮负衰减因⼦。除了衰退之外，突触强度除了衰退之外，突触强度可以进一步限制在一个幅度范围内，产生下面完整的赫布塑性更新：

其中 wmax 是 Wℓ 中任何突触强度可以呈现的最大值的标量界限，并且假设 Wℓ 仅呈现非负值。上述微分方程产生软约束的多项 Hebbian可塑性更新规则。

纠正类似赫布规则的爆炸性的另一种方法是结合局部权重抑制机制，从而导致结合反赫布反压力[102]或使用门控赫布规则[129]。例如,可以使用突触后门控更新规则,或

其中ge是一组阈值,第l层中的每个神经元一个,允许突触后门控更新规则-突触活动改变体重变化的迹象/方向，但仍然强调突触前活动对于任何变化的重要性。突触门控可作为更复杂的类似 Hebbian 调整规则的构建块，例如 Bienenstock-Cooper-Monroe(BCM) 更新规则 [45, 70];

其中是应用于突触后门控。或者，还有突触前门控规则：

其他制定的⽅案将稳定机制（例如，基于跟踪神经动⼒学统计的计算值）引⼊到原始Hebbian 框架中。这种规则的⼀个例⼦是 Hebbian 协⽅差规则[398]：

7 具体来说，[157]中观察到：“当细胞 A 的轴突足够接近以激发细胞 B 并重复或持续参与发射它……作为发射 B 的细胞之一，A 的效率得到了提高”。

8 Oja规则[307]是一种广义的赫布可塑性规则,它引入了一种确保每个向量范数的机制调整后突触权重大致恒定。

其中 ⟨zℓ⟩ 表示 zℓ 内每个神经放电率的短期运行平均值。然而，这些类型的规则通常意味着合并部分违反局部性属性的统计数据（方程7违反了时间局部性),以便调整突触权重值.进一步注意赫布学习的概括在复杂视觉架构的背景下进行了探索，例如采用卷积的架构[223]。

尽管赫布学习在历史上⼀直被认为是突触可塑性的⽆监督过程，但变体引⼊了在存在期望⽬标 y（例如标签）的情况下进⾏监督学习的⽅法。监督赫布学习的实例，其中⼀些让⼈想起“教师强制”原则[435],包括感知器学习规则[367],delta 规则[153, 10, 441]和 Widrow-Hoff 规则[ 455,456 ].最后⼀个的形式为 ΔWℓ = (z ℓ−y)·(z ℓ−1 ) T；请注意，该规则恰好对应于均⽅误差成本的⼀阶导数有时称为最⼩均⽅误差规则。此外，赫布可塑性的概念也出现在其他学分分配范式中；对⽐赫布学习[19]或预测编码[354, 380] 等框架（我们稍后将对其进⾏回顾）也需要使⽤活动前和活动后信号等信息进⾏最终的突触调整（尽管此类⽅案需要外部消息传递等机制）。有趣的是，Delta 规则[10]通过合并激活函数的导数来扩展 Widrow-Hoff 规则，可以被视为⼀个构建块，它产⽣了今天称为反向传播的全⾯泛化[ 372]。请注意，现代研究⼯作已经制定了基于监督赫布可塑性的⽅案来训练更深层次的多层神经模型[146, 6]。

尽管原始赫布可塑性有其缺点，并且迄今为⽌很少单独⽤于直接训练复杂的神经系统(最近的⼀些案例除外[192]),但它在模拟神经⽣物组织的其他⽅⾯仍然发挥着不可估量的作⽤和功能,例如,基于赫布和神经相关规则背后的⼀个强有⼒的想法是它们采⽤了⼀种“模型学习”形式[311]。相反,此类规则有助于从神经系统环境中⼀般提取共现统计结构，使其特别适合⽤于⽆监督降维。例如，先前的⼯作已经在赫布规则变体和主成分分析（PCA）之间建⽴了紧密的联系[307]。除此之外，赫布学习已被证明是构建记忆模型的强⼤⼿段，例如基于 Minerva-2 [174]和稀疏分布式记忆[194] 的模型。

赫布可塑性的另⼀个重要⽅⾯是其对尖峰时间域的推⼴，即尖峰时间依赖性可塑性（STDP） [242,2,44 ] ，这有助于基于离散（动作电位）通信的⽹络的适应）值，例如由尖峰神经元细胞组成的值，例如尖峰神经⽹络（SNN） [259]。通过 STDP 进⾏赫布调整特别需要使⽤突触前和突触后神经元的动作电位（或尖峰发射）的相对时间；滑动时间窗⼝⽤于确定突触前尖峰是否在突触后尖峰之前到达，这会导致突触功效的正向增加（⻓期增强），⽽如果该时间相反，即后发⽣在突触前尖峰之前，然后应⽤减少（⻓期抑制）。以 STDP 为中⼼的赫布可塑性显着促进了感知数据流固有的时间相关性的捕获，并且⾄今仍作为神经元组织和突触适应的有⽤的⽣物物理数学模型 [ 473,294,203,428,13 ] 。然⽽，STDP 和⼀般基于赫布的可塑性在很⼤程度上作为⽆监督的适应形式起作⽤，并且不能直接⽤于建模⾏为学习（尽管存在监督变体，如前所述）。⼀般来说，为了使赫布调整适⽤于⾯向⾏动的功能和⾏为调节实验设置，通常会扩展为包括第三个附加因素；三因素赫布调整[336]结合了原始的两个因素，即突触前和突触后活动值，与通常标记为调节器的第三个因素，例如，dompanie 神经调节信号（例如奖励的编码）传达所采取⾏动的成功程度的函数）。10然⽽，在赫布可塑性中添加⼀个额外的因素在技术上会产⽣⼀种信⽤分配机制，该机制属于我们分类学中的不同类别，即全局显式⽬标算法，其中我们稍后会回顾/介绍（参⻅第2.2 节）。

竞争性赫布学习。最简单的规则之⼀需要在神经元之间添加层内连接，特别是抑制连接。这个想法是给定层中的神经元将相互竞争

9 假设神经元放电率缓慢变化,TDP窗⼝上的积分可以恢复赫布相关更新，类似于本节前⾯描述的更新.

10三因素赫布⽅案还整合了所谓的资格追踪，以处理时间问题在存在延迟奖励信号的情况下随时间采取的⾏动序列固有的相关性。

代表特定输⼊模式的机会;这就是历史上所谓的“竞争性学习”的本质[374,83,451,267,80,443,133 ] 。在赢家通吃的⻛格竞争中[206]，激活⽔平最⾼的单元将被宣布为获胜者，保证其传⼊突触权重的更新，⽽其余失败的神经元则不会对其传⼊权重进⾏调整。请注意，权重和输⼊必须标准化（除⾮它们包含双极性值，即集合 {−1, 0, 1} 中的值）。对于赢家通吃（WTA）的神经元块 - 涉及整个层或仅限于特定的神经元⼦组，即局部 WTA 单元[412]） - 层 ℓ 中的任何处理元素 z 都会更新根据与j协同操作的 Hebbian 更新，硬交互函数如下：

部更新的结果，为Wℓ的第 i ⾏⽣成了向量更新。值得注意的是，WTA 驱动的突触变化在多层神经模型中的普遍使⽤，成为经典 Neocognitron [121, 120] （现代卷积⽹络的历史前⾝）的关键部分。以上是“龄期更新规则” [139, 206]的⼀种变体，它简单地导致修改连接到神经元的突触，该神经元对于给定的输⼊ z 具有最⼤的激活后值；其他突触连接保持不变。请注意，该⽅案可以扩展为利⽤前 K 个最⾼活动值（K 胜者通吃⽅案）。为了将 instar 算法扩展到监督学习设置，提出了“outstar 更新规则” [139]，其中，输出权重被更新，以便神经元输出匹配所需的⽬标模式，例如标签向量 y。竞争可塑性的龄期和离期期形式最终产⽣了所谓的⾃适应共振理论[141, 143] ‒ 及其⼤量变体，例如模糊 ART [55]、 ARTMAP [54]和 ART-C 2A [ 155] - 以及多层模型中信⽤分配的反向传播泛化[158]。诱导竞争性神经动⼒学的其他⽅法包括反赫布学习[102, 312]和显式横向/跨层突触连接（对更现代的深度学习架构的影响[213]）或通过强制执⾏稀疏峰度先验分布（或惩罚）），例如，迭代推理过程中的拉普拉斯或柯西先验[308, 354] （后者⽤于稀疏编码，从技术上讲，它是不同类别的信⽤分配⽅案的⼀部分，将在第2.4.1节中介绍).

一般来说，竞争性学习的前提是据称以“神经元模板匹配”或聚类的思想为中心 [103, 250] – 给定神经元池争夺激活权导致不同的（组）单元激活不同的模式簇/分区。随着越来越多和更多的感官输入模式被呈现给这个竞争单元池，池内的每个神经元将汇聚到新兴集群的中心已经到模型了。换句话说，每个神经元单位将更强烈地激活感官模式与其簇“模板”强相关，并且对于与其他簇模板相关的那些更弱。正如[312]中所讨论的，运行的系统在竞争性神经动力学下，有以下变化上述故事；这包括经典的监督系统，例如矢量量化[136]到显式拓扑聚类系统，例如古老的自组织映射 (SOM) [207, 256, 208, 133] 和自组织（增量）神经网络 [255, 122]。一些方案将竞争动态概括为局部形式竞争或促进多个获胜神经元的出现（即 K > 1），就像竞争的情况一样Hebbian 学习 [451, 267] 和基于神经气体的压缩系统的变体 [268, 117]。

图 6：竞争性学习侧重于层动态,其中神经元竞争计算权,即它们横向抑制或激励彼此以形成稀疏分布式表⽰。

为了充分描述竞争性神经系统的特征，我们借⽤了⼏种观点[373, 312] ，根据⼀些核⼼基本原则来组织它们。本质上，竞争模型的计算可以分为：

1. 响应特异性测量：神经元单元⼀开始⾼度相似（除了随机初始条件，这使得每个单元对⼀组输⼊的响应略有不同）。每个单元的 “强度”也有限制，在这种情况下，激活是由⼀组测量值产⽣的，或者作为距离值数组：

作为⼀组（并⾏）点积：

其中激活向量 ℓ z 的第 i 个元素是当前模式的点积（或者，如⽅程 9 所⽰，输⼊ p-范数函数的减法，例如，p = 2 产⽣欧⼏⾥得距离）向量和转置突触（记忆）矩阵的第 i 列；

2. 竞争机制：单元竞争对特定输⼊⼦集做出响应的权利这需要选择所谓的“最佳匹配单元”（BMU）或满⾜以下条件的“原型” （模板）的机制：11 选择获胜神经元的典型函数需要使⽤⼀组Jℓ激活值中的最⼤值，即 max() 和 arg max()，并且通常取决于神经后处理的⽅式⾸先计算活动。⼀旦为神经元层 ℓ 计算了 z 的值ℓ ，就应⽤选择函数，如算法1中正式描述的那样（请注意，该算法被描述为挑选 K 个最⼤神经元 BMU，存储在列表/集合 w 中）。

3. 突触调整规则：给定竞争函数或动态的结果，通常以赫布或反赫布规则的形式调整突触功效[102]，例如，对于特异性的减法距离形式，突触更新将为

其中 q 是 BMU 索引。然后使⽤所得的更新矩阵 ΔWℓ来更改Wℓ内的值,如下所⽰： Wℓ ← Wℓ + αΔWℓ其中 0 < α < 1 控制应⽤于参数Wℓ的更新幅度

上述三个组成部分对于神经竞争学习的最⼩模型的设计⾮常重要。神经元单元之间的竞争动态显着导致稀疏活动模式，这已被证明是神经元的宝贵⽣物学特性，有助于防⽌稀疏分布式记忆等系统中的遗忘[272, 107] [194]。许多由竞争性学习驱动的神经模型在不同的实现程度上体现了上述核⼼原则，包括增量WTA模型（例如基于⽮量量化的系统） [136]、⾃组织映射[206, 207]、竞争性神经⾼斯混合模型[ 344、 274 ]。

2.2 全局显式信号算法

我们检查的下⼀个学分分配系列体现了对我们的组织问题的不同答案有⼀个明确的⽬标来驱动学习过程。这些⽅案有效地采⽤了完全全局的⽅法来玩信⽤分配游戏，这就是反向传播所做的；获取源⾃输出单元的信号，例如误差测量值，并将该信号传输（转换）回⽹络内的每个神经元。

然⽽，尽管这些⽅案确实依赖于单个（全局）反馈路径来传递教学/调整信号，但与反向传播相⽐，该路径的设计和性质通常在形式和性质上有所不同。在这⼀类别中，已经提出了更多⽣物学上合理的反向传播变体，例如随机反馈对⻬[246]，它特别提供了解决重量传输问题的⽅法，以及基于隐式/显式建模（化学）神经调节，例如三因素赫布可塑性[221]。

反馈对⻬.反馈对⻬[246,227,108 ] 也称为随机反馈对⻬（RFA）及其变体[301,21,243 ]已经表明,令⼈惊讶的是，随机反馈权重仍然可以传递有⽤的教学信号。换句话说，反馈对⻬算法解决了前⾯描述的权重传输问题，表明在不对称的前向和后向路径中连贯学习是可能的。.相反，⽤于携带向后导数信息的反投影路径不需要是⽤于执⾏前向传播的连接权重的转置；相反，信⽤分配的过程可以被视为专注于前馈权重与(互补)反馈权重的（部分）对⻬。当反馈和前向权重经历某种形式的突触标准化并被迫近似符号⼀致性时[20, 21]，这种形式的学习可以在各种任务中产⽣⼏乎与通过反向传播学习的⽹络⼀样强的⽹络性能[ 243]。

11请注意，多个 BMU 可能会被选择/赢得竞争，如⽣⻓神经⽓体[117]。

完整内容请阅读全文

本文参与腾讯云自媒体分享计划，分享自微信公众号。

原始发表：2024-04-02，如有侵权请联系 cloudcommunity@tencent.com 删除

连接