代码：Learning to Learn and Forget （华为）

CreateAMind

发布于 2023-09-01 08:09:30

1610

发布于 2023-09-01 08:09:30

文章被收录于专栏：CreateAMind

改进RNN的三篇生物算法论文代码

第一篇：

Short-Term Plasticity Neurons Learning to Learn and Forget2206.14048

https://github.com/NeuromorphicComputing/STPN ，env.yaml 可能需要修改代码fork本文第二篇论文

不同算法的能耗比较测试

抽象：

短期可塑性(STP)是一种在大脑皮层突触中存储衰减记忆的机制。在计算实践中，STP已被使用，但主要用于尖峰神经元的利基，尽管理论预测它是某些动态任务的最佳解决方案。在这里，我们展示了一种新型的循环神经单元，STP神经元(STPN)，它确实非常强大。它的关键机制是突触有一个状态，通过突触内的自循环连接随时间传播。

这种公式可以通过时间的反向传播来训练可塑性，从而形成一种在短期内学会学习和遗忘的形式。STPN优于所有经过测试的替代方案，即RNN、LSTM、其他具有快速权重和可微分可塑性的模型。我们在监督学习和强化学习(RL)以及关联检索、迷宫探索、Atari视频游戏和MuJoCo机器人等任务中证实了这一点。此外，我们计算出，在神经形态或生物电路中，STPN可最大限度地减少模型间的能量消耗，因为它会动态抑制单个突触。

基于这些，生物STP可能是一个强大的进化吸引子，可以最大限度地提高效率和计算能力。现在，STPN也将这些神经形态优势带到了广泛的机器学习实践中。

一、简介

1.1.生物与人工神经网络

生物神经网络是一些最成功的机器学习(ML)模型的灵感来源，即支持深度学习的人工神经网络(ANN)。尽管ANN取得了成功，但与动物和人类相比，人工智能(AI)模型在几个方面仍然相形见绌。公认的局限性包括(a)在掌握一项任务之前需要大量的训练集，(b)动态改变任务的困难，(c)ANN架构的临时任务特异性，以及(d)高能量在计算机上运行算法的要求。同样，尽管ANN在抽象层面上受到生物学启发，但它缺乏已知神经元生物物理学所暗示的许多计算操作。可以想象，后一种执行上的差异也是前一种性能不匹配的基础。特别是，生物神经元内的许多复杂性(a)专门用于学习的突触可塑性，(b)由动态变化的化学浓度控制，(c)跨大脑区域和物种维持，以及(d)实现极端能源效率。很难忽视的是，人工神经网络在很大程度上缺失的这四种生物学特性与人工神经网络的上述四种局限性具有一对一的对应关系。

基于此，我们的高层次目标是探索是否可以通过特定神经形态机制 (即突触的短期可塑性(STP))的新演绎将这些生物学特性和相关优势带入深度学习。我们的方法与来自多个子领域的概念密切相关(图1.A)，我们将在本节中对其进行回顾。

1.2

神经形态机制的优势不仅限于效率。如果考虑尖峰以外的其他属性，例如STP，神经形态模型实际上也可以产生更高效的模型(Moraitis等人，2020年)，同时保持与高效电子硬件的兼容性(Sarwat等人，2022a)。

1.3.可塑性和短期可塑性

术语“可塑性”指的是确定大脑或模型网络中突触连接的功效(即强度)如何变化的规则。该术语通常保留用于本地规则，即突触的变化取决于来自突触连接的突触前和/或突触后神经元的信号，以及潜在的第三信号，例如神经调节剂的浓度(Gerstner等人，2018年；Pogodin和Latham，2020年；Sarwat等人，2022b)。这种可塑性通常被认为是大脑学习的基本原理，也是终身学习机器学习的可能途径。

一类可塑性规则是STP(Zucker,1989;Tsodyks&Markram,1997;Chamberlainetal.,2008;Mongilloetal.,2008)，即一种具有很强生物学证据的可塑性，其作用在时间上受到约束.另一方面，如果每个可塑性变化都是持久的，则该规则是一种长期可塑性。例如，Hebb假设生物权重与突触前和突触后激活成比例地更新(Hebb，1949)。尽管它很简单，但具有类赫布可塑性和无监督的网络可用于优化贝叶斯等模型（贝叶斯：代码：一个epoch打天下：深度Hebbian BP (华为实验室) 抗攻击；多种可塑性参考本文第三篇论文）快速解决手写数字分类等任务，并对对抗性攻击具有鲁棒性(Moraitisetal.,2021)。这种可塑性的扩展既富有洞察力又强大，在MLSOTA中发挥着关键作用(Nessler等人，2009年；Scellier和Bengio，2019年；Lowe等人。¨,2019;林巴赫和莱根斯坦，2020年；

Millidge等人，2020年；伊林等人，2021年)。与本手稿特别相关的情况是，可塑性规则导致突触在不同时间尺度上相对于另一个学习规则发生变化。突触中“从属”或“交错”变化的概念被称为动态权重(Feldman,1982)、快速权重(Hinton&Plaut,1987;Schmidhuber,1992;1993;Tieleman&Hinton,2009;Baetal.,2016;Schlag&Schmidhuber,2017)，或仅仅是可塑性或学习(Bengio等人，1990年；Moraitis等人，2018b；Miconi等人，2018年；2020年；Moraitis等人，2020年；Miconi，2021年).有趣的是，其中一些使用关联可塑更新的方法已被证明等同于注意力机制(Ba等人，2016年)，甚至等同于线性变换器等模型(Schlag等人，2021年)。

STP的短期方面可以通过将突触前输入的权重G拆分为长期权重W和加法或乘法短期分量F来建模，例如G=W+F。随后，一个取决于局部变量的更新规则会增加F，否则它会随时间呈指数衰减，这意味着一种学习之后会遗忘。文献表明各种形式的STP出现了不同的功能。例如，STP可以对突触输入应用时间过滤(Rosenbaum等人，2012年)，或支持工作记忆的生物物理模型(Mongillo等人，2008年；Szatmary和Izhikevich，2010年；Fiebig和Lansner，2017年)。如果实现为同时具有较慢可塑性的快速权重对应物，它可以专注于从输入的多个时间尺度上的序列中学习(Moraitis等人，2018a;b)。

它还向循环连接的神经网络(RNN)注入长短期记忆，从而产生类似于长短期记忆(LSTM)的特性和性能(Hochreiter&Schmidhuber,1997)单位(Bellec&Salaj等人，2018)。在所有这些情况下，STP都是在SNN的背景下研究的。原因是尖峰激活增加的生物学合理性是许多神经科学家更有用的模型，并且可能为神经形态工程带来能源效率优势。然而，SNN也更难进行数学分析或实际训练，这限制了STP在有用的ML任务中的潜在改进。

尽管如此，最近的两个带有STP的模型在特定任务中确实优于其他没有STP的模型，即使配备STP的模型是SNN。也就是说，首先，STP改进了从不平衡数据中学习受限玻尔兹曼机的能力(Leng等人，2018年)。其次，与我们目前的研究更密切相关的是，一个非常简单的SNN学习了来自手写数字的标准静态MNIST数据集的监督(LeCun等人，1998)，但在具有移动遮挡的数字视频帧的分类上进行了测试(Moraitis等人，2020)。令人惊讶的是，由于STP在输入突触处的动态，SNN优于形成简单的监督卷积神经网络和LSTM，甚至在具有时间上下文的视频数据集上进行训练。Moraitis(2020)还包括一个数学证明（一个epoch打天下-理论基础：短期突触可塑建模动态环境的最优性），即在其输入突触处具有STP的神经网络实际上是某些动态数据的最佳模型。关键的原则是，具有STP的输入突触不仅在长期权重W中记忆数据集范围的特征，而且在短期分量F中记忆与不久的将来相关的近期特征。

然而，实际由于对脉冲神经元的依赖，STP优势的展示仍然有限。应该注意的是，一些具有快速权重的非尖峰模型，特别是那些由Hinton合著作的模型(Hinton&Plaut,1987;Tieleman&Hinton,2009;Baetal.,2016)。欣顿和普劳特(1987)；Tieleman&Hinton(2009)确实在快速的从属体重变化中包含了类似STP的衰减动力学，但是没有报告STP参数的训练。我们假设STP在深度学习方面的潜力可以通过在输入突触处启用STP来实现，正如Moraitis等人在理论上支持的提议一样。(2020)。

为了实现最佳适应可塑性的承诺，以前的研究中缺少一个重要因素。这是通过学习为每个突触优化STP规则，而不是基于所选超参数和所有连接统一的固定STP，如何实现这最后一个要素并不是显而易见的。最近的一项工作(Tyulmankov等人，2022)确实训练了一个配备了Moraitis等人的HebbianSTP机制的模型。(2020)。然而，该模型不支持神经元之间的循环连接，在所有突触中使用统一的可塑性参数，并专注于随机二进制输入的简单关联任务。因此，关键的进步是早期工作中的统一超参数是手动调整的，而不是通过反向传播进行优化。在这里，我们针对高级任务，通过完全循环的模型，并通过训练单个突触的STP。为实现这一点，我们在突触中将STP实现为该突触内的子连接，从而形成了STP神经元(STPN)作为一种新型循环单元的公式(参见第2节)。通过这个公式，STP的学习遗忘功能

1.4.元学习

元学习是一种应用机器学习来改进新领域进一步学习的范例。这被认为类似于进化、发展、终身技能学习和为临时目标学习的生物时间尺度的嵌套。事实上，已经观察到大脑中元可塑性(即可塑性的变化)的直接经验证据(Abraham&Bear，1996)。更一般地说，存在大量关于元学习的ML文献，具有各种方法和应用(Schmidhuber等人，1996年；Thrun和Pratt，1998年；Bellec和Salaj等人，2018年；Hospedales等人，2020年)).例如，已经表明，通过对训练数据提供方式的最小修改，RNN学会学习，其中内部学习循环包括循环状态的变化而不是权重的变化(Hochreiter等人，2001年；王等人，2016)。显然，与我们这里的工作相关的一些最相关的元学习方法是那些学习学习包括学习控制内循环中权重变化的可塑性规则参数的方法。进化算法 (Soltoggio等人，2018年)和基于梯度的算法(Bengio等人，1990年)长期以来一直被描述用于这种可塑性规则元学习目的。然而，最近才证明了基于反向传播的个体突触可塑性参数以及神经网络其他参数的端到端训练(Miconi等人，2018年)。该工作中的可训练可塑性优于非可塑性神经网络，并且随后进行了扩展以证实其优势(Miconi等人，2019年；Beaulieu等人，2020年；Miconi，2021年)。

然而，到目前为止，这些都没有纳入STP。对于每个突触，如何学习突触功效衰减的自发时间动态，即如何学习STP的遗忘方面，还不是很明显。事实上，在没有STP的模型中，快速权重是长期的，即它们会随着时间的推移而持续存在，除非快速权重更新机制应用学习增量或减量。因此，他们缺乏专门的遗忘机制，遗忘必须由用于学习的机制来处理。我们相信证明学习遗忘的重要性将是对元学习领域的重要贡献，因为它可能与持续深度学习中灾难性遗忘的挑战有关。灾难性遗忘是指因为学习了新的任务而忽略了之前学习过的任务的现象，是元学习研究的重要动机之一

在这里，我们确实提出了一个学习和遗忘的过程，实现为STP参数的学习。

1.5.领域贡献

我们介绍了STPN，这是一种新的循环类型单元，它扩展了RNN系列，每个输入突触内都有可能出现循环状态。它通过向输入添加STP并使每个突触都可训练STP来扩展其他快速权重模型。它通过包含短期方面建立在其他可微分可塑性模型的基础上。它通过学习忘记来补充学习。我们将证明它是比LSTM更好的RNN选择，超越了最新的快速权重模型，并且在各种任务中优于其他不同的可塑性机制，具有监督和强化学习，包括元学习的例子。STPN的优势包括提高任务熟练度和能源效率。

4.3.学会学习和忘记

STPN 中学习学习和遗忘的进一?证据如下。首先, 在训练的早期就达到了高熟练度, 没有出现太多的不稳定性, 也没有阻止训练后期的进一步优化, 如图 2 所示。其次, STPN的效率与熟练度曲线的负斜率散点(图4) 表示一种学习遗忘机制, 可以改善这两个方面。

完整内容请参考原论文

第二篇：

https://www.sciencedirect.com/science/article/pii/S0896627321009478

Meta-learning synaptic plasticity and memory addressing for continual familiarity detection

Highlights：

• Meta-learning is used to discover network architectures and plasticity rules
• Anti-Hebbian plasticity emerges as the mechanism for encoding familiarity
• Strong feedforward synapses emerge as an addressing function for storage and retrieval
• Experimental features such as repetition suppression are reproduced

摘要

在一生中，我们会处理源源不断的信息流。从这个流中提取的记忆必须有效地编码并以可寻址的方式存储以供检索。为了探索潜在的机制，我们考虑了一项熟悉度检测任务，其中受试者报告以前是否遇到过图像。我们设计了一个具有突触可塑性的前馈网络和一个寻址矩阵，通过元学习来优化长时间间隔内的熟悉度检测。我们发现反赫布可塑性导致比赫布可塑性更好的性能，并复制了重复抑制等实验结果。出现组合寻址函数，选择一个唯一的神经元作为突触记忆矩阵的索引以进行存储或检索。与以前的模型不同，该网络连续运行并推广到它尚未接受过训练的时间间隔。我们的工作提出了一种生物学上合理的持续学习机制，并展示了机器学习在神经科学发现中的有效应用。

Keywords

memory familiarity recognition synaptic plasticity anti-Hebbian meta-learning continual learning neural networks deep learning addressing

介绍

每天，源源不断的感官信息流和内部认知处理会在我们的大脑中引起持久的突触变化，从而改变我们对未来刺激的反应。神经活动和局部突触更新如何协调以支持信息的分布式存储和读出，尤其是新记忆或稳态机制导致的持续突触变化如何不干扰先前存储的信息，这仍然是一个谜。

熟悉度检测——识别之前是否遇到过刺激——是一种简单且普遍存在的记忆形式，可作为解决这些问题的有用测试平台。经典研究表明，人类对图像的识别记忆容量“几乎是无限的”，记忆力遵循幂律，是观看项目数量的函数 ( Standing, 1973 )。理论工作表明，熟悉度检测网络存储的记忆数量取决于突触可塑性规则，并且可以与突触数量成正比（Bogacz 和 Brown，2003 年）). 最近的行为研究进一步证明了在连续设置中的令人印象深刻的能力，错误率作为干预项目数量的函数表现出“遗忘的幂律”（Brady 等人，2008 年），理论研究表明这是可通过具有化生性的突触实现（Fusi 等人，2005 年；Ji-An 等人，2019 年）。视觉熟悉度的神经信号已被观察为对重复呈现刺激的反应减少，这种现象称为重复抑制（Grill-Spector 等人，2006 年；Meyer 和 Rust，2018 年；Miller 等人，1991 年；Xiang 和布朗, 1998). 在与此任务相关的时间尺度上——秒级的一次性记忆和天级的长期遗忘——这可能是由兴奋性突触的抑制或抑制性突触的增强引起的 (Lim et al., 2015 ) .

先前关于识别记忆的建模工作使用了预先设计的架构和可塑性规则以及性能的经验和分析评估（Androulidakis 等人，2008 年；Bogacz 和 Brown，2003 年；Norman 和 O'Reilly，2003 年；Sohal 和 Hasselmo，2000 年）。一种新兴方法使用称为“元学习”或“学习如何学习”的机器学习技术（Thrun 和 Pratt，2012 年），该方法使用优化工具快速搜索人工神经网络可用于解决学习问题的机制/内存任务（Confavreux 等人，2020 年；Gu 等人，2019 年；Jordan 等人，2021 年；Lindsey 和 Litwin-Kumar，2020 年；梅斯等人，2019 年；Najarro 和 Risi，2021 年）。与手工设计的模型相比，元学习可以无偏见地探索大量的架构和可塑性规则。重要的是，可以施加确保生物学合理性的约束（ Bengio 等人，1991 年）。

在这项工作中，我们不仅研究了记忆的“如何”存储（突触可塑性规则），还研究了“存储位置”——寻址存储和检索位置的机制。经典的记忆模型依赖于“基于内容的寻址”（Hopfield，1982 年），其中部分提示通过循环动力学引发对完整记忆的回忆，但不明确选择哪些突触存储记忆。另一方面，机器学习中的“键值”记忆网络（Graves 等人，2014 年，2016 年）将值存储在由键显式索引的记忆矩阵中，类似于计算机随机存取存储器中的寻址，尽管这样模型缺乏生物学解释（但参见Tyulmankov 等人，2021). 我们的模型包括突触可塑性规则和显式寻址机制。

假设“何时”可塑性应该出现的答案是“总是”，我们考虑一个简单版本的“什么”要记住：熟悉度。我们构建了一系列模型，这些模型可以识别以前经历过的刺激，并且重要的是，无需单独的学习和测试阶段就可以连续学习和操作，从而避免灾难性遗忘，这是一种网络使存储的信息不可读的现象（Beaulieu 等人，2020 年； Parisi ， 1986 年）。随着时间的推移，这些网络的容量保持不变，因此可以不断地为它们提供新的输入，而不会降低稳态记忆性能。

我们使用具有持续突触可塑性的前馈网络架构，其参数使用梯度下降进行元学习以优化连续熟悉度检测。不同于类似的模型 ( Ba et al., 2016 ; Miconi et al., 2019)，为了将突触可塑性分离为独特的记忆机制，我们避免了可以通过维持神经元激活来存储记忆的循环连接。这种架构与循环网络不同，即使在单个间隔上进行训练，它也会自然地泛化一系列重复间隔。我们表明，反赫布可塑性规则（共激活神经元导致突触抑制）能够在比赫布规则更长的间隔内进行重复检测，并导致实验观察到的特征，例如隐藏层神经元中的重复抑制。此外，寻址功能通过强大的静态前馈权重出现，选择一个独特的神经元来索引突触以存储新刺激并检测熟悉的刺激。

完整内容请参考原论文

第三篇：

摘要

除了长时间尺度的重新布线之外，大脑中的突触还受到显着的调节，这种调节发生在更短的时间尺度上，并允许它们处理短期信息。尽管如此，像循环神经网络(RNN)这样的大脑模型在训练后通常会冻结其权重，依赖于存储在神经元活动中的内部状态来处理时间信息。

尽管之前已经探索了具有动态突触的网络，但通常所说的动态被添加到也具有循环连接的网络中，因此仅突触调制的短时间尺度计算能力仍然不清楚。

在这项工作中，我们分析了仅依赖突触调制来处理短时间尺度信息的网络的动态，即多可塑性网络(MPN)。我们彻底检查了在基于集成的任务上训练的MPN的神经群体动力学，并将其与已知的RNN动力学进行比较，发现两者具有根本不同的行为和吸引子结构。

我们发现上述动力学差异使MPN在多项与神经科学相关的任务上优于其RNN对应物。值得注意的是，MPN具有明显更简单的吸引子结构，使其在训练和顺序学习设置中更加灵活。最后，还研究了在上下文和持续集成任务上训练的MPN的动态如何变化

编者评价该研究:

仅凭突触功效的快速和瞬时修改，就可以支持信息随时间的存储和处理。令人信服的证据表明，当配备这种短期突触调制时，前馈网络能够以与循环网络相当的性能水平执行各种任务。这项研究的结果对神经科学家和机器学习研究人员都很有价值。

简介

大脑的突触在几种不同的生物学机制下响应信息不断变化[1–7]。这些变化可以服务于截然不同的目的，并且发生在截然不同的时间尺度上。

此类机制包括突触重新布线，它会在几分钟到几小时的时间尺度内修改我们大脑中神经元之间连接的拓扑结构，并被认为是长期记忆的基础[3]。为了理解重新布线对计算和信息存储的作用，在训练期间修改突触/权重的人工神经网络(ANN)已在神经科学领域得到广泛研究。

自然而然地出现了对ANN也可以包含短期、时间相关信息的需求，从而导致循环神经网络(RNN)能够使用循环连接在其神经活动中保持瞬时内部状态。所述RNN在对我们的大脑部分进行建模方面取得了广泛的成功，因此已经花费了大量的工作来试图了解它们的运作方式[8‑16]。特别是，在将类脑RNN分析为种群级动力系统方面取得了相当大的进展，这种框架被称为神经种群动力学[17]。此类研究揭示了跨不同类型的RNN和任务的基础计算支架的惊人普遍性[18]。

在比突触重新布线短的时间尺度上，可以修改单个突触的强度[4‑7]。这些变化可能发生在一系列时间尺度上，并且本质上可能是短暂的[6,7]。尽管这些机制可能不会导致我们的连接体结构发生变化，但它们被认为对大脑的功能至关重要。例如，尖峰时间相关可塑性(STDP)调整连接的强度

尽管RNN对大脑的重要循环连接进行建模，但这些网络中的权重在训练后仍然保持固定，因此忽略了短期突触动力学在处理信息中的作用。

在这项工作中，我们研究了一种新型ANN，它使用生物驱动的突触调制来处理短期顺序信息。多重可塑性网络(MPN)使用两种不同的可塑性机制进行学习：(1)通过标准受监督的ANN训练进行长期突触重新布线，以及(2)短期类Hebb突触调制。与许多其他具有突触动力学的网络模型[19‑23]不同，MPN没有复发，因此只能依靠突触强度的调制来跨时间传递短期信息。尽管循环连接和突触调制都存在于大脑中，但很难区分它们如何影响时间计算。

因此，MPN 允许深入研究单独突触调制的计算能力，以及所述计算背后的动态与依赖递归的网络有何不同。在确定了调制如何单独计算之后，我们相信将突触计算与类脑网络分开会更容易，类脑网络可以使用循环连接、突触动力学、神经元动力学等的组合进行计算。

从生物学上讲，MPN 中的调制代表了一般的突触特定强度变化，时间尺度比结构变化短，后者由通过反向传播进行的权重调整表示。我们分别考虑两种形式的调制机制，其中一种取决于突触前和突触后放电率，另一种仅取决于突触前率。这些规则中的第一个主要被设想为来自依赖于突触前和突触后神经元活动的关联形式的可塑性 (Markram 等人，1997 年；Bi 和 Poo，1998 年；McFarlan 等人，2023 年)。同时，第二种类型的调制模拟突触前依赖性 STSP (Mongillo 等人，2008 年；Zucker 和 Regehr，2002 年)。虽然这两种机制都可能来自不同的生物机制并且可以跨越许多数量级的时间尺度，但 MPN 使用简化的动力学来保持突触调制的效果和我们的后续结果尽可能普遍。重要的是要注意，在 MPN 中，就像在大脑中一样，代表突触调制和重新布线的机制并不是相互独立的一个的变化会影响另一个的运行，反之亦然。

为了了解突触调制在计算中的作用以及它们如何改变神经元动力学，在整个工作中，我们将 MPN 与循环神经网络 (RNN) 进行对比，后者的突触/权重在训练期后保持固定。RNN 使用循环连接在短暂的内部神经活动中存储与任务相关的时间信息，并在我们大脑的部分建模方面取得了广泛的成功。尽管 RNN 对大脑的重要循环连接进行建模，但这些网络中的权重忽略了瞬态突触动力学在调整突触强度和处理信息方面的作用。

在将类脑 RNN 分析为种群级动力系统方面取得了相当大的进展，该框架被称为神经种群动力学 (Vyas 等人，2020 年)。此类研究揭示了底层计算支架在不同类型的 RNN 和任务中具有惊人的普遍性 (Maheswaranathan 等人，2019b)。为了阐明通过突触调制进行的计算如何影响神经群体行为，我们在神经群体动力学框架中彻底描述了 MPN 的低维行为 (Vyas 等人，2020)。使用一种分析突触群体行为的新方法，我们发现 MPN 使用与其 RNN 对应物完全不同的动力学进行计算。然后，我们探索其在几个神经科学相关任务上的独特动态背后的潜在好处。

贡献：

We elucidate the neural population dynamics of the MPN trained on integration-based tasks and show it operates with qualitatively different dynamics and attractor structure than RNNs. We support this with analytical approximations of said dynamics.

We show how the MPN’s synaptic modulations allow it to store and update information in its state space using a task-independent, single point-like attractor, with dynamics slower than task-relevant timescales.

Despite its simple attractor structure, for integration-based tasks, we show the MPN performs at level comparable or exceeding RNNs on several neuroscience-relevant measures.

The MPN is shown to have dynamics that make it a more effective reservoir, less susceptible to catastrophic forgetting, and more flexible to taking in new information than RNN counterparts.

We show the MPN is capable of learning more complex tasks, including contextual integration, continuous integration, and 19 neuroscience tasks in the NeuroGym package (Molano-Mazon et al., 2022). For a subset of tasks, we elucidate the changes in dynamics that allow the network to solve them.