code：通过进化、可塑性和元元学习获得认知能力（4个时间维度的学习迭代）

CreateAMind

发布于 2023-09-01 08:10:44

2480

发布于 2023-09-01 08:10:44

文章被收录于专栏：CreateAMind

（内容丰富，信息量大）

抽象：

智力的一个标志是能够自主学习新的灵活的认知行为也就是说，适当的行动不仅取决于即时刺激(如简单的反射性刺激‑反应关联)，还取决于必须充分了解的上下文信息。为任务的每个新实例获取、存储和处理。人工智能体可以通过外部的、人工设计的元学习 (“学习到学习”)算法来学习此类认知任务。相比之下，动物能够通过自身进化的内部机制的运行，仅从刺激和奖励中自动接受这样的认知任务。我们可以利用这个过程来生成具有这种能力的人工代理吗？在这里，我们通过大量改编自计算神经科学框架的简单认知任务，进化神经网络，赋予其可塑性连接和神经调节。实际的权值修改过程完全由网络自身控制，而不是由外部算法引导。由此产生的进化网络可以自动修改自己的连接性，以通过其进化的神经组织和可塑性系统的自发操作，仅从刺激和奖励中获得在进化过程中从未见过的新颖的简单认知任务。我们的结果强调了仔细考虑智能行为出现所涉及的多个学习循环的重要性。

1简介

智能行为的一个重要特征是不仅能够学习简单的反应性任务(将刺激与响应相关联)，而且能够学习更复杂的认知任务。虽然一般来说“认知”很难精确定义，但在这里我们在操作上将“认知”任务定义为那些需要为任务的每个新实例存储和操作某些不可预测的信息的任务即需要工作记忆的任务。在这个定义下，获得新的认知任务是“学会学习”或元学习的特例。元学习，即获取依赖于学习的任务，已经在动物身上进行了定量研究；例子包括Harlow对成对对象中记忆引导选择的开创性研究[Harlow，1949]，或者最近，小鼠学习在虚拟现实迷宫中执行记忆引导导航[Morcos和Harvey，2016]。

人工代理存在许多元学习算法[ThrunandPratt,1998,Schmidhuber,1993,Hochreiteretal.,2001,Finnetal.,2017,Wangetal.,2016,Duanetal.,2016,Bengioetal.al.al.,1991,FloreanoandUrzelai,2000,Ruppin,2002,Soltoggioetal.,2008,Miconi,2016,Miconietal.,2018]。

然而，这些手工设计的算法元训练一个特定领域的代理人(强盗、迷宫解决、觅食等)在这里我们寻求不同的东西。与其开发外部算法来为这个或那个元任务训练代理，不如构建一个能够自动获取新的认知任务的代理，包括代理一生中从未见过的任务(或在它的初始设计)，通过其自身内部机制的运作，仅来自刺激和奖励很像上述实验中的动物。

我们建议使用进化过程来设计一个独立的网络，赋予可塑性连接和奖励调节可塑性。我们期望这个进化的智能体，当暴露于一个新的认知任务的许多情节时，将自动重塑它自己的连接，以便在任务的每个新情节期间充分提取、存储和操作与任务相关的信息。重要的是，我们不希望代理只能执行预定义的固定集合中的任务；相反，我们想要一个能够自动获取新认知任务的代理，包括在进化过程中从未遇到过的任务。

为了提供大量计算上易于处理的认知任务，我们使用Yang等人的形式主义。[2019]，它以一种通用格式实现了动物神经科学文献中的大量简单认知任务(记忆引导的扫视、比较两个连续的刺激等)。在本文中，由于计算资源有限，我们将此框架限制为仅使用二进制刺激和响应(参见方法)。这些任务的一个优点是每一集只进行一次试验(很像Omniglot任务，一种常见的元学习基准)。

该框架当然可以扩展到包括任何可以制定为一系列刺激延迟响应试验的任务，包括更一般的元学习任务(参见讨论)。因此，该框架结合了计算效率和生物学相关性。

因为我们在操作上将认知任务定义为需要一些情节内学习和记忆的任务，所以进化这样的认知学习者必然涉及至少三个嵌套的学习/记忆循环(进化、任务学习和情节学习)。之前已经指出了自然界中嵌套学习循环的多样性，以及将典型的元学习扩展到额外层次的潜在用途[Wang,2021,Miconietal.,2019]。我们的结果证明了这种方法的可行性；他们还表明，仔细考虑实验中涉及的多个学习层次实际上会对性能产生很大的实际影响(参见附录3.3和讨论)。

2个方法

2.1概述

在这里，我们首先提供一个简短的实验总结。以下小节提供了完整的描述。另请参见图1，了解整个过程的概览。所有代码都可以在[https://github.com/ThomasMiconi/MetaMetaLearning/tree/main]

我们正在发展可塑性(即自我修改)、完全连接的循环网络，以便能够自主获取新颖的简单认知任务。整个实验由三个嵌套循环组成。最外层的循环是进化循环，它在生命周期内循环并塑造代理的先天结构以(希望)产生任务学习能力。中间循环或任务循环构成了智能体的生命周期，并循环遍历给定任务的试验/情节，在此期间，智能体(通过其进化的可塑性系统的运行)有望自动获得任务。最后，内部循环(Episode循环)遍历给定任务情节的时间步长，在此期间，智能体应使用其进化的和终生学习的连接来提取、存储和操作执行任务所需的情节数据。

在每个试验/情节中，网络连续观察并记住两个刺激，产生响应，然后接收奖励信号(这取决于该试验的任务、刺激和响应)。同时，在网络本身的控制下，突触可塑性发生在每个突触处(详见下文)。网络对给定任务进行400次此类试验，构成任务循环，在此期间，预计网络将按照其进化的先天权重和可塑性参数的指导，通过奖励调制可塑性的操作来学习任务。

请注意，这两个循环(情节循环和任务循环)与典型元学习实验的“内循环”和“外循环”同源。不同之处在于，在典型的元学习实验中，发生在外环中的网络修改是由固定的、手工设计的外部算法决定的。然而，在这里，网络修改是由一个进化的、独立的可塑性过程决定的，由网络的先天结构引导，该结构通过附加循环中的进化得到优化。具体来说，上述过程在第三个进化循环中迭代(每次通过训练集中随机选择任务)，

图1：实验的总体组织。在Episode循环(按时间步长循环)期间，网络在其循环激活中存储和处理情节信息(刺激S1和S2)，提供响应(Resp)并接收神经调节奖励和反馈信号。

在任务循环中，网络通过情节之间奖励调制的可塑性进行修改，将任务解决信息存储在可塑连接中。这两个循环对应于典型元学习实验的“内循环”和“外循环”。一个额外的进化循环然后优化网络(即它的基因组)的先天连通性和可塑性结构，确保在每次试验后应用的神经调节可塑性导致适当的终身学习。

其中进化优化网络的结构参数(先天权重W和可塑性参数Π)以提高网络的任务学习能力(根据网络在任务循环的最后100次试验中的性能估计)。

我们定期在进化过程中从未见过的预留“测试”元任务上测试网络，以评估网络在总体目标上的表现：自动获取看不见的认知任务。在正文的所有实验中，测试任务都是“DelayedMatchtoSample”(DMS：两个连续的刺激是否相同？)。附录中报告了其他测试任务的结果。

2.2最外层循环：进化

进化参数(代理的“基因组”)由网络的基线(“先天”)权重W和可塑性参数Π组成，共同表示为θ={W,Π}。W代表网络诞生时的初始权重，Π代表每个连接处的可塑性。(Π等同于Miconi[2016]、Miconi等人[2018]中的α)。

整体进化算法是一种类似于Salimans等人的进化策略。[2017].在每一代中，当前候选网络θ0被复制并随机变异多次，导致变异副本的种群(批次)θi=θ0+σi，其中每个σi是与θ大小相同的高斯向量。然后，这些变异副本中的每一个都在400次试验中进行评估，如下所述，返回损失Li。最后，所有变异向量的总和，由它们的损失加权，被用作梯度估计[2017]，我们使用对立抽样，这意味着对于每个突变向量σi，我们还在种群中包含相反的突变向量−σi(这大大提高了性能)。我们将这个梯度估计∇^θL传递给Adam优化器[KingmaandBa,2015]以产生θ的实际参数变化，从而为下一代产生我

iθ.0。我们将这个过程迭代固定数量的世代。

2.3中间循环：Lifetimes/Tasks

我们通过将每个网络暴露给给定任务的400次试验来评估每个网络。为人群中的每个个体随机选择任务，并且在每次试验中为每个个体独立采样在每次试验中呈现的刺激(除了对立的对接受相同的任务和刺激序列)。在每个块的开始，通过将其可塑性权重(见下文)和神经活动设置为零来初始化网络；初始权重和可塑性参数取自变异参数θi。

与固有重量不同，塑料重量会更新

根据下面描述的可塑性规则，整个块无需重新初始化。神经活动和塑料重量不会在试验之间重新设置。

2.4内循环：试验/剧集

在每次试验期间，网络连续观察两个刺激。通过将神经元子集(“输入”神经元)的一个子集(“输入”神经元)钳位到特定值一段固定的时间，这些刺激一个接一个地(由短暂的延迟分开)馈送到网络。然后，在另一个短暂的延迟之后，网络的响应被记录下来。有两个输出神经元，分别代表响应“0”和“1”。

每个试验/情节的奖励金额计算为1减去两个输出神经元的放电率(在响应期间平均)与它们在该试验中的目标之间的绝对差值。然后，在反馈期间(图1中的FB)，将此奖励作为刺激提供给网络。同样，该信号是通过将某些特定神经元 (“反馈”神经元)的输出钳位到固定时间步长的奖励值来提供的。该奖励信号也用于计算进化损失，如下所述。

此外，出于分析目的，我们武断地认为试验是“正确的”，这取决于两个神经元中哪一个在响应期间具有最高的平均放电率(这仅用于分析和可视化目的，不影响算法本身以任何方式)。

同时，根据其遗传编码的可塑性系数和网络自身的全局神经调节信号，神经调节的突触可塑性在每个连接处不断发生，如下所述。

这个过程迭代了400次试验，构成一个块，或“生命周期”。然后，将此生命周期最后100次试验的平均奖励用作这一代每个人的损失Li，指导上述进化过程。

2.5网络运行和可塑性

寿命可塑性是通过简单的神经调节赫布可塑性实现的。从概念上讲，每个连接都维护着一条Hebbian“资格轨迹”，对应于该连接上最近输入和输出乘积的运行平均值。并行地，在任何时间点，网络都会产生一个神经调节信号m(t)，它决定了有多少资格迹被纳入实际连接权重。

更准确地说，在任何时候，全连接循环网络都按照以下等式进行操作：

这里x是神经激活的向量(输入与权重的线性乘积)，r是神经反应(通过非线性传递的激活)，W和Π是先天权重和可塑性参数(在生命周期内固定不变并经过优化通过进化跨越生命周期，如上所述)，P是塑性权重(根据下面描述的塑性规则在生命周期内变化)，τ是网络时间常数，f是非线性函数(通常是tanh函数)并表示两个矩阵的逐点(Hadamard)乘积。请注意，这些方程只是标准的连续时间递归神经网络方程，除了总权重是先天权重和可塑性权重乘以可塑性参数的总和。

每个连接都维护一个所谓的Hebbian资格迹H(t)，它是输出和输入乘积的运行衰减平均值：

这里τH是资格迹的时间常数，它明显长于神经时间常数τ。请注意，这是在等式1和2之间计算的，因此r(t)构成用于计算x(t)的输入(来自其他神经元的传入响应)。

最后，网络不断产生神经调节信号m(t)，将Hebb轨迹门控为实际的塑料权重P：

这里η是寿命塑性率。我们重申P(t)在每个试验块(“生命周期”)开始时被初始化为0，并在整个块期间根据上述方程式(没有任何重新初始化)变化。

请注意，可塑性是由网络生成的信号m(t)调制的，而不是由收到的奖励本身调制的：奖励只是一种额外的刺激，对可塑性没有直接影响，但必须与网络的其他信息相结合才能充分指导可塑性通过网络生成m(t)。

实际信号m(t)计算为网络中两个特定神经元(称为“神经调节”神经元)的放电率之间的差异。这种设计允许m(t)既为负又为正(模拟多巴胺输出中的符号偏转)，同时使网络相当容易地将m(t)稳定地设置为零(通过将两个神经元干扰到它们的最大值或最小值)。

2.6任务

在本文中，我们简化了Yang等人的框架[2019]仅使用二元刺激和反应。所有可能任务的集合是从两个连续的二进制刺激到二进制响应的所有16个映射的集合。如上所述，每个试验由两个连续显示的二元刺激组成，每个刺激持续一段时间；响应期，在此期间记录网络的响应；以及一个反馈期，在此期间，该试验的奖励将作为信号提供给网络。

保留一项任务作为“测试”任务，该任务在进化过程中从未见过，并且定期测试进化网络以评估总体目标的性能，即获得新认知任务的能力。该任务是延迟匹配样本任务(DMS，即“两个连续的刺激是相同的还是不同的？”)。我们选择DMS任务是因为它是集合中最难获得的任务，也因为它实际用于动物研究。请注意，DMS任务需要对两个连续刺激进行强烈的非线性处理(作为异或的否定)。因此，DMS是一项简单但并非微不足道的任务，具有一定程度的生物学相关性。

重要的是，我们还从训练集中删除了测试任务的逻辑否定(对于DMS，即“延迟不匹配样本”任务)，因为任务逻辑否定的响应只是测试任务。这是为了确保网络真正能够在测试时学习任务的结构，而不是通过进化获得它并仅仅在测试时调整响应的符号。这导致所有实验的训练集包含14个不同的任务。

2.7数量细节

每一代是一批500个人。每个块由400个试验组成，每个试验持续1000毫秒。跟随杨等人。[2019]，我们使用τ=100毫秒和20毫秒的模拟时间步长。每个神经元的扰动独立发生，每个时间步的概率为0.1；扰动均匀分布在[−0.5,0.5]范围内。我们设置τH=1000ms，η=0.03。在第0代，W被初始化为高斯权重，均值为0，标准差为1.5/√N，其中N=75是网络中神经元的数量(这种分布确保了初始化网络中的自我维持自发动力学[Sompolinskyetal.,1988]),而Π的所有值都初始化为0.5。进化运行超过1500代。我们将进化梯度提供给Adam优化器，学习率为0.003。

图2：左图：在每一代的最后100次试验中，正确试验的中位数(在所有运行中)比例，分别显示训练任务 (蓝色、实线)和保留任务(红色、虚线)。填充区域表示跨运行的四分位数范围。右图：在保留任务的完整块过程中正确试验的比例(跨批500人)，分别显示在第0代(即具有均匀可塑性的随机初始化网络，顶部)和第1500代(在进化先天权重之后)和每个连接的可塑性，底部)。虚线：50%机会水平。与最初的进化前网络不同，最终进化的网络在多次试验中成功地完成了任务，即使在进化过程中没有看到它。

3结果

3.1性能

为了评估总体进展，我们跟踪进化损失(即每个连续生命周期的最后100次试验的平均损失)作为世代数的函数。每10代，我们在保留的DMS任务上测试当前候选基因型θ0，这不会导致任何权重修改。图2显示了训练损失(在用于进化训练的任务上，蓝色曲线)和测试损失(在保留任务上，红色曲线)，超过6次使用不同的随机种子运行。

正如随机初始化网络所预期的那样，第0代在400次试验块中保留任务的学习性能很差(图2，右面板，顶部)。相比之下，在进化塑造了网络的先天参数之后，基因型现在支持对看不见的认知任务进行有效的生命周期获取(图2，右面板，底部)。

重要的是，性能的提高不仅仅是由于整体可塑性的单纯增加。在代表性运行中，Π中的值从统一值0.5演变为最终范围‑0.43至1.41(中值0.47)。此外，随机交换Π的值(保留幅度分布但取消精细组织)会将性能降低到机会水平。因此，进化网络依赖于进化可塑性结构的实际排列，而不仅仅是其整体水平(随机交换W值也会将性能降低到偶然水平)。

3.2适应性神经调节的演变

众所周知，在缺乏足够措施的情况下，奖励调制赫布可塑性本身是一种糟糕的强化学习算法[Frémauxetal.,2010,Miconi,2017]。网络如何从神经调节的赫布可塑性中产生有效的生命周期强化学习？

我们运行一个完全进化的网络，对保留的DMS任务进行了400多次试验，同时在每个时间点记录收到的奖励和网络控制的神经调节输出m(t)(图3)。

我们首先观察到m(t)倾向于近似奖励预测误差信号，对于高奖励主要为正，对于低奖励为负。然而，奖励的精确映射

图3：神经调节(橙色线)和奖励(蓝色线)的动态，超过400次试验(第1500代，DMS任务)的完整块。每个蓝色尖峰是试验结束时收到的奖励。x轴表示每个20毫秒的时间步长。收到的奖励和网络控制的神经调节输出之间的关系随时间变化。

到m(t)结果随时间显着变化。最初，m(t)只对低奖励产生负面反应，对偶然获得的少数高奖励几乎没有反应(早期，红框)。然后，随着高奖励变得更加频繁，m(t)对低奖励做出消极反应，对高奖励做出积极反应 (中间时期，绿色框)。最后，随着学习变得更加可靠，m(t)在幅度上缓慢衰减(紫色框)，并且在后期试验中大部分消失：神经调节系统只是停止响应它收到的持续积极的奖励，防止进一步的可塑性扰乱明显的成功学习连接。

这种变化是纯粹的时间锁定过程，还是至少部分是自适应的并受网络性能的引导？我们进行了相同的实验 (再次从塑料权重和神经活动设置为零的完全进化的“新生”网络开始)，但我们现在在整个区块的开头插入了额外的300次随机奖励试验(随后是400次)正常试验如上)。在这300次初始试验中，任何试验的奖励都是0到1之间的随机数，因此不可能从奖励中学习。如图A1所示，这种改动会稍微降低最终性能。

然而，我们观察到神经调节输出m(t)现在在最初的400次试验(20000个时间步长)之后仍然活跃，并且没有完全消失。这意味着神经调节动力学的变化及其最终消亡并不是由纯粹的时间积累决定的，而是至少部分地对正在进行的学习动态做出反应。

3.3可塑性的重要性

因为网络接收误差信号，并且因为递归网络是通用逼近器，所以理论上非可塑性网络可能仅通过其固定权重和活动来学习解决问题，如典型的元学习研究所示基于优化循环网络[Wangetal.,2016,Duanetal.,2016]。为了测试这种可能性，我们进行了完全相同的实验，但禁用了可塑性(即删除方程1中的ΠP(t)项)。正如预期的那样，这个两级系统无法培养一般的认知学习能力(图A2)。这证实了所有三个记忆/学习系统(进化、可塑性和递归)是该模型成功所必需的，以及考虑给定实验中发生的所有学习循环的重要性(参见附录B)。

图4：(保留的)DMS任务的目标响应的跨时间解码。每个矩阵代表一个完整的试验，在第0代和第1500代(顶部和底部)的每一代(左和右)的第一个和最后一个试验。虚线代表响应周期，即500‑700ms的间隔。每个数据点x,y代表在时间y的解码性能，使用在时间x的神经活动上训练的解码器。在第0代的响应期间，网络不会可靠地编码目标响应(“刺激是否相等？”)(右上矩阵中的统一0值反映网络响应的完全饱和)，但在进化和生命周期学习之后(底部)‑右图)。

3.4使用跨时间解码可视化进化和学习的表征

进化后的网络如何执行其任务？为了研究进化网络在每次试验中如何处理信息，我们使用跨时间解码，这是计算神经科学中的一种标准方法[Meyers等人，2008年；King和Dehaene，2014年；Stokes等人，2013年；Miconi，2017年]。

对于试验(1000毫秒)内的每一对瞬间t1、t2，我们尝试根据在从时间t1开始的神经活动。这使我们能够确定网络是否在任何给定时间编码此信息(通过评估t1=t2时的解码性能)，还可以估计网络是否使用稳定的编码，或任务信息的动态、时变表示：如果从时间t1开始对神经数据进行训练的同一个解码器可以在时间t2成功地从神经数据中解码任务信息，这意味着在两个时间点对该信息进行了类似的编码(有关实现细节，请参见附录C)。

我们在每一代的第一次和最后一次试验(展示终身学习的影响)中执行此分析，包括第0代和第1500代(展示进化的影响)。

在图4中，我们看到第0代网络在奖励期之前不会可靠地编码此信息。在400次试验之后，这些随机连接的网络实际上产生了完全饱和的响应(全部为‑1或1)，导致解码性能一致为零(右上矩阵)。相比之下，在进化(第1500代)和终生学习(试验400)之后，网络在响应期间(蓝色虚线)稳健地编码此信息。

4 讨论

4.1自主认知学习出现的多循环模型

在这项工作中，我们试图发展一个独立的学习系统，能够从仅仅暴露于刺激和奖励中获得新的简单认知任务。因为我们在操作上将我们对“认知”任务的定义限制为需要工作记忆的任务，所以获得这样的任务必然是一个学习如何学习的问题，因此进化或以其他方式优化具有这种能力的代理必然涉及至少三个学习循环.我们表明，可以结合现有方法来成功设计能够获取新认知任务的独立代理。

这里使用的任务代表了元学习的一种受限形式：必须在每一集中适当地获取、存储和利用新的信息项。简单的扩展将允许该框架包含常见的成熟元学习任务。例如，允许两个以上(多维)刺激将涵盖实际的Omniglot任务，并且允许每个情节的多个响应和奖励将涵盖元强化学习任务，例如bandit任务。因此，尽管它很简单，但形式主义可能包含所有形式的元学习，包括元监督学习[Hochreiteretal.,2001]和元强化学习[Wangetal.,2016,Duanetal.,2016]].

我们的模型依赖于多个嵌套学习循环，每个循环都设计下一个学习算法，扩展了元学习的标准双循环模型。之前已经观察到自然界中学习循环的多样性。Wang[2021]指出存在“自然界中的多个嵌套学习尺度”，每个建筑先验都会限制(并因此加速)下面级别的学习(Baldwin效应的概括[Hinton等人，1987]).米科尼等人。[2019]提出额外的“元元学习”级别可以在元学习系统的外循环中学习权重修改算法。我们的结果证明了此过程对于此处描述的简单认知任务的可行性。

重要的是，我们的结果表明，多个学习循环的概念不仅具有学术意义，而且具有实际意义：关注实验中的多个学习层次可以极大地影响性能，并且是成功与失败的区别(比较图2同图A2)。这些结果强调了在自然界或人工实验中仔细思考多重循环和学习层次的重要性(见附录F)。

虽然我们的初步结果证实了该方法的基本有效性，但很明显，目前的实验本质上是一个起点。建立在这个平台上的几个调查途径可能会立即出现，它们可能会大大增强系统的能力(见附录E)。未来研究的一个重要途径是纳入模型中目前未包含的额外学习循环，即终生体验循环：在模型的当前形式中，每个生命周期都致力于一项任务。这当然是不现实的。实际上，动物从其一生的经验中获得了大量知识，这些知识是在许多不同的任务中积累的，这极大地提高了它们在成年后的表现。换句话说，这里描述的模型有意排除了一个额外的学习循环，与这里考虑的三个循环分开：终身经验循环。这个循环对于研究支持终身持续学习的机制的出现至关重要(向前和向后迁移，对灾难性遗忘的鲁棒性等)。有关这一点的讨论，请参见附录E.4。

4.2“惨痛的教训”、AI‑GAs、inateness和许多学习循环

为什么人们想要发展一个独立的认知学习器，而不是简单地将现成的元学习算法应用于任何新的认知任务？首先，出于与我们首先使用元学习相同的原因：元元学习过程可以提取环境中的共同结构和跨认知任务有用的通用概念，促进个体任务学习[Wang，2021]。

更一般地说，Sutton[2019]指出了“惨痛的教训”，即利用学习和大量计算的方法一直在超越基于手工设计的特征和专家知识的方法。Clune[2019]进一步推动了这一论点，提出应该学习而不是设计学习系统本身(包括它们的架构和算法)，从而产生所谓的“人工智能生成算法”。本模型应用这些，通过将尽可能多的系统置于优化而不是人为设计的控制之下，进一步原则。

另一方面，Marcus和Davis[2019]强调了先天结构和“常识”知识在人类智能表现中的重要性。本模型举例说明，当适当考虑学习层次和循环的多样性时，这两个方面可能会变得更加互补：一个层次的先天性是另一个层次的学习，一个循环的结构知识是另一个循环的缓慢获得的信息(正如[王,2021]).

此外，本模型在平衡手工设计的结构与多层次学习方面提供了相当大的灵活性。例如，在上面的描述中，一个这样的自由度是在将神经调节实现为外部调节信号与网络控制输出之间进行选择，后者会慢慢演变以充分解释奖励信号 (如Miconi等人.[2019])。级别的进展在最高级别(进化)达到顶峰，其中根本不需要手工设计，尽管即使在那里，对立采样也构成了强大的结构偏差。

除了这些功利主义的担忧之外，我们认为能够通过其自身的内部机制自主获取新的简单认知任务的代理人的出现本身就很有趣。这代表着朝着“驱逐小人”(Hazyetal.[2006]的表述)的目标迈出了一步，即消除对人为的、人为设计的外部“执行者”的需求，并赋予系统真正的自主学习。显然这个目标还有一段距离：如上所述，当前系统仍然包含许多设计限制。

扩展相关工作

A.1元学习的两种形式

正如介绍中提到的，存在许多元学习算法[ThrunandPratt,1998,Schmidhuber,1993,Hochreiteretal.,2001,Finnetal.,2017,Wangetal.,2016,Duanetal.,2016,Bengio等人,1991,Floreano和Urzelai,2000,Ruppin,2002,Soltoggio等人,2008,Miconi,2016,Miconi等人,2018]。有趣的是，许多(但不是全部)这些算法都属于两大类之一，并得到了截然不同的解释：

1.内循环在循环网络的时变神经活动中存储情节信息，而外循环缓慢修改以优化情节内学习的算法[Hochreiteretal.,2001,Wangetal.,2016,Duanetal.,2016]。这种方法的生物学解释是，内环代表大脑皮层的情节内自我维持活动，而外环代表通过奖赏调节突触可塑性对神经连接的终生塑造，因为它发生在大脑中神经调节剂，如多巴胺(Wang等人[2018]明确了这一解释)。

2.内环通过某种参数化突触可塑性算法在网络的突触连接中存储情景信息的算法，而外环优化网络的先天结构和/或突触可塑性参数[Schmidhuber,1993，Bengio等，1991，Floreano和Urzelai，2000，Ruppin，2002，Soltoggio等，2008，Miconi，2016，Miconi等，2018]。在生物学解释中，内环代表大脑突触可塑性的终生学习，而外环代表这个内置突触学习系统在许多生命周期中的进化设计(即使实际的外环算法可能不是进化的[Schmidhuber,1993,Miconi等人,2018])。

图A1：神经调节(橙线)和奖励(蓝线)的动力学，300次初始随机奖励试验，随后是400次正常试验(第1500代，DMS任务)。神经调节M(t)现在的活跃时间更长(与图3相比)，这表明神经调节的动态至少部分由持续学习控制，而不是完全时间锁定。

这些方法中的每一种都可以应用于获取一个单一的元学习任务，之后代理可以自动执行同一任务的新实例(情节)。但是，请注意，这两种方法有一个明确的交界点：前者的外环对应于前者的内环(突触可塑性)。这提出了一种组合的整体方法，其中最外层的“进化”过程将设计一个自包含的、基于奖励的塑料网络，历经许多生命周期；反过来，这种进化的可塑性机器，在情节内奖励的指导下，会在任何给定的记忆引导任务(包括以前从未见过的新的此类任务)的许多情节中自动塑造网络自身的连接，从而重塑网络的连接性能够在每一集中从环境中提取、存储和操作与任务相关的信息。总体结果将是能够自动获取新的元学习任务的代理的进化，我们在这里讨论的是涵盖一种重要类型的“认知”任务。这就是本文的目的。

A.2进化与终身学习的相互作用

能够终身学习的进化代理具有悠久的历史[Ackley和Littman，1991年；Hinton等人，1987年；Floreano和Urzelai，2000年；Soltoggio等人，2008年；Soltoggio和Steil，2013年](参见Soltoggio等人[2017]进行审查)。进化和终身学习的相互作用产生了复杂的动态。一个例子是鲍德温效应[Baldwin,1896,Hintonetal.,1987]，在这种效应下，学习可以指导进化：在每个生命周期中最初学习的有益特征越来越多地融入基因组，因为自然选择有利于个体“出生更近””到最终的有益表型1。

这扩大了进化的范围，使其能够产生不太可能单独发现的表型[Hintonetal.,1987]。它还使终身学习更快、更可靠但也更受限制和更不灵活(即“渠道化”[Waddington,1942])。

B取消可塑性的结果：多元学习系统的重要性

在图A2中，我们展示了运行完全相同实验的结果，但寿命可塑性被禁用(删除方程1中的ΠP(t)项)。

请注意，此控制实验仅涉及两个级别的学习：外循环中的进化，以及多次试验后未分化内循环中的RNN操作。因此，它完全等同于基于优化递归网络的标准双循环元学习方法，例如RL2[Duanetal.,2016]或LearningtoReinforcementLearn[Wangetal.,2016]。请注意，我们使用在外循环中进行进化而不是梯度下降，因为在每次通过时通过数千个时间步反向传播梯度是不可行的。

（1个用Baldwin[1896]的话来说：“这个原则通过确定的确定的系统发育[即进化的]变异线的生存来保证早期一代的确定的个体发生[即学习的]适应的方向。..因此，在个体发育适应设定的方向上存在着持续的系统发育进展。..

这完全消除了Lamarkian[sic]因素”。）

图A2：与图2(左)相同，但禁用了可塑性。网络无法学习训练任务或预留任务，证明了所有三个学习系统的必要性。

正如预期的那样，这个双环系统无法进化出自主认知学习系统(图A2)。虽然训练集中的一些任务被部分记忆在‑weights中，但即使在这些训练集任务上的性能仍然比整个系统低得多(图2，蓝色曲线)，而且关键的是，保留测试任务的性能仍然是偶然的.这与我们的三系统模型的成功形成对比，如图2所示。这证实了所有三个学习系统(进化、可塑性和循环)对于该模型的成功都是必要的。

我们的假设是，这种负面结果是由于系统中的两个学习级别与实验所需的三个学习级别之间的不匹配造成的。由于我们的“认知”任务(需要记忆和处理信息的任务)构成了元学习任务的一种简单形式，因此构建能够执行此类任务的代理必然涉及三个学习层次(见图A5)。通过尝试仅在两个学习级别(进化和RNN激活)上硬塞这个过程，我们要求循环网络通过其操作解决两个学习级别：情节数据的情节内存储和处理，以及情节间通过奖励了解手头的实际任务。显然，这超出了这种简单网络的能力。相比之下，通过承认三个学习循环并在层次结构中引入一个额外的学习系统(可塑性系统，通过生命周期之间的进化进行优化，进而优化episode之间的RNN)，相同的网络现在能够获得这些任务。这强调了考虑给定实验中发生的多个学习循环的实际重要性[Wang，2021]。

C跨时间解码

按照神经科学文献中的既定方法，我们使用基于相关性的分类器来解码来自神经活动的任务相关信息[Meyers等人，2008年；Stokes等人，2013年；King和Dehaene，2014年；Miconi，2017年].

每个试验由250个网络并行执行。我们将此批次分为125次训练运行和125次测试运行。我们分别为两个可能的目标响应中的每一个平均训练集的网络活动；对于每个时间点，这为我们提供了两个神经活动的平均向量，每个向量代表了此时两个目标响应之一的“原型”神经活动。然后，对于试验期间的任何一对时间点t1、t2，我们计算每次测试运行中时间t2的神经活动向量与时间t1的两种响应平均训练活动模式(刻板印象)中的任何一种之间的相关性，和

选择具有最高相关性的那个作为我们对此测试运行和这个时间点的目标响应的解码估计。然后，我们计算所有125次测试运行中此解码的平均准确度。这为我们提供了解码性能值，该值显示在图中解码矩阵的点t1、t2处。

请注意，基于相关性的分类器捕获包含在整个网络的集体模式中的信息，而不是孤立的单个神经元，这与(比如说)基于回归的分类器不同，后者可能专注于提供特殊信息的单个神经元。

D DMS任务和简化的Harlow任务之间的等价性

因为这里使用的任务涉及简单的刺激和操作，所以很容易忽视它们构成了实际的元学习任务，尽管是一种有限的类型。为了强调这一点，我们在这里展示了延迟匹配样本任务(“相同还是不同？”)与每集进行两次试验的Harlow任务的简化版本完全相同。

在开创性的Harlow任务[Harlow,1949]中，在每一集中，猴子必须(通过连续的反复试验)确定两个物体中哪一个包含食物。经过足够多的情节后，猴子能够在一次试验中解决新的情节，因为在第一次试验中收到的信息会立即识别出两个物体中哪个包含食物。

考虑此任务的简化版本，其中相同的两个对象用于所有情节(该对象包含每个情节随机变化的奖励)，并且每个情节仅包含两个试验。还假设第一次选择是被动的，即第一次试验中要揭开的物体是由实验者在猴子的视野下随机挑选的，而不是猴子自己选择的。在第二个试验中，猴子选择两个对象之一并开始食用食物(如果他选择正确)作为奖励，就像在标准的Harlow任务中一样。请注意，这些修改不会影响任务的基本元学习性质。

然而，此任务不仅与我们的延迟匹配样本任务类似，而且完全相同。第一个二元刺激表示在第一次试验中发现了两个对象中的哪一个。第二个二元刺激表示该物体下是否存在某种食物。代理的响应表示在第二次试验中要选择哪个对象，如果它选择了正确的对象，则会获得奖励(食物)。正如读者可以验证的那样，正确的响应与DMS任务的响应完全相同：要获得奖励，如果代理看到刺激1然后1或0然后0，则必须产生响应1，否则响应0。(请注意，在这个观点中，每一集都代表两个试验，而不仅仅是一个。)

这里的重点并不是说这些简单的任务代表了元学习的全部复杂性(例如，每个此类任务中可能序列的总集合受到刺激的缺乏和简单性的强烈限制)。相反，我们希望指出它们共享一般元学习的一个重要元素，即需要为每一集获取和操纵不可预测的信息。此外，如讨论中所述，该框架原则上可以扩展到更复杂、明确的元学习任务。这里讨论的实验虽然范围有限，但允许以合理的计算成本实现各种简单的认知任务，同时提供一些生物学相关性。

E模型的扩展

在这里，我们描述了可以扩展系统以提高生成网络的学习能力的方法。

E.1任务

出于计算效率的原因，上述框架是Yang等人介绍的框架的简化。[2019].特别是，我们只使用二元刺激和反应，而不是原始研究的实值(循环)刺激和反应。杨等。[2019]在他们的实验中还包括更多任务，这些任务具有生物学相关性的额外优势 (其中许多任务是神经科学文献中的经典任务)。因此，一个简单的方法改进我们的模型只是为了让它更类似于Yang等人的原始框架。[2019].

我们强调，尽管这里使用的任务很简单，但它们是真正的元学习任务：必须在每一集中适当地获取、存储和利用新的信息项。每个试验都是一个完整的独立情节这一事实类似于Omniglot任务(任意刺激与特定反应之间的关联)。事实上，如果我们将试验扩展到包括几个非二进制刺激，则可以在此框架中实现Omniglot任务本身的同源物：显示两个任意“提示”刺激；然后是对每个提示的预期反应(为每个试验任意选择)；然后显示两个提示之一；最后记录网络的响应(这应该与该特定提示的预期响应相同，如前所示)。

此外，如果我们允许每次试验有多个响应(和返回信号)，我们还可以在我们的任务集中包括强化学习任务，例如强盗任务，每个这样的“试验”仍然是一个完整的独立事件.因此，尽管它很简单，但形式主义可以涵盖所有形式的元学习，包括元监督学习[Hochreiteretal.,2001]和元强化学习[Wangetal.,2016,Duanetal.,2016].

E.2寿命可塑性

也许我们模型中最简单的方面是对生命周期突触可塑性的处理。虽然节点扰动是奖励调节可塑性的强大模型[Fiete等人，2007年，Miconi，2017年]，但它显然并不意味着对突触可塑性过程的整体进行建模；例如，它无法实现简单的Hebbian学习(在零奖励或恒定奖励下，预期权重变化为0，这确实是奖励调制Hebbian学习成功执行强化学习的要求[Frémauxetal.,2010])。此外，在当前系统中，调制信号R由算法外部施加。一种更现实(并且可能更强大)的方法是让调制信号处于网络本身的控制之下，也就是说，使R(t)成为网络的输出，如[Miconietal.,2019]中所述。

此外，在上述模型中，支持节点扰动方法的神经活动随机扰动以固定概率统一应用。然而，在自然界中，这种随机性来源被认为受专用大脑结构的控制，例如在鸟鸣学习模型中[Ölveczkyetal.,2005]。因此，将随机性置于网络的控制之下是未来工作的另一种可能性。

E.3非生物替代品

我们的模型自始至终都使用了受生物学启发的方法(进化、神经调节突触可塑性、递归神经网络等)。我们之所以选择基于生物学的方法，既是出于内在兴趣，也是因为它们允许广泛灵活地参数化所涉及的各种系统，尽可能多地置于优化和学习的控制之下。

然而，非生物方法也可以纳入该框架。

例如，我们考虑过的替代方案是使用反向传播和梯度下降作为生命周期学习规则，以替代突触可塑性(假设有监督学习信号可用)。在这种情况下，进化将指导网络的初始化，同时有数千个时间步)。我们注意到，这样的设置基本上会使上面的两个循环与进化MAML相同(例如Song等人[2019])，底部的两个循环与L2RL/RL2[Wangetal.,2016,Duan等人，2016]。这样的选择将权衡生物相关性和灵活性，再次可能获得更高的性能，至少对于某些受监督的任务而言。

另外，虽然这里我们只考虑基于突触可塑性和反复激活的记忆机制，但还有其他非生物形式的长期终身记忆。特别是，信息可以存储在嵌入式键值对的显式库中，通过某种注意机制访问，如神经图灵机[Gravesetal.,2014]和MERLIN架构[Wayneetal.,2018]。此处描述的框架可以应用于这种显式记忆形式，以替代或结合突触可塑性，这可能允许实验者评估两种方法的相对优势，以实现自主认知学习。

（脑记忆产生和巩固建模研究总结（3假设3发现3创新符合13篇脑科学实验和假设））

E.4缺失的循环：一生的经历

在模型的当前形式中，每个生命周期都由一个试验块组成。每个人都被初始化，执行一项任务，然后再次重新初始化。这当然是不现实的。实际上，动物从其一生的经验中获得了大量的知识，这些知识是在许多不同的问题中积累的，这极大地提高了它们在成年后的表现。在动物文学中，生命早期学习的例子包括感觉皮层的调谐，某些鸟类的歌曲学习等。这种长期的生命经验的获取和转移在人类中尤为发达，它构成了人类的重要组成部分所谓的“常识”知识，被认为对智能人类行为至关重要[MarcusandDavis,2019]。

换句话说，这里描述的模型故意排除了一个额外的学习循环，与这里考虑的三个循环分开：生命体验循环，设置在进化循环和任务循环之间(见图A3)。这种选择源于对简单性(和计算效率)的渴望。然而，本模型可以通过不重新初始化任务之间的网络并在每个生命周期中添加更多任务来实现这个额外的循环。这可能使我们能够研究支持一生中稳健持续学习的机制的出现，包括一生中跨任务的信息前向传输(“生活经验”，包括“常识”通过在一生中添加更多任务而不重新初始化))，以及防止学习任务之间的干扰(“灾难性遗忘”通过在每个生命周期内重复以前遇到的任务)。

F学习循环：智能行为出现的一个基本组成部分

本文的一个目标是强调多个学习循环，在一个层次结构中相互嵌套，其中每个循环优化前一个循环的学习，控制智能代理的出现。如前所述[Miconietal.,2019,Wang,2021]，这种层次结构扩展了元学习中常见的“内环”和“外环”之间的传统二分法。

与标准的元学习一样，从循环的角度思考，并询问在每个循环中学到了什么、如何获取以及如何存储，有助于管理过程的复杂性。

一个潜在的问题是明显的任意性风险：一个过程是否作为循环实现通常是由实验设计者任意决定的。例如，在标准的bandit元任务中，元学习循环遍历episode，而episodes循环遍历试验(即拉臂)。但是，如果程序员决定将试验实现为时间延长的过程(向手臂移动、抓住手臂、拉动它等)，在时间步长上循环怎么办？这种武断的实施决定是否为流程添加了另一个学习循环，并为学习添加了另一个“元”？

我们发现以下定义很有用：

‧如果在循环的每一遍中，在循环的同一遍中获取、存储和利用一些新的、不可预测的信息，则循环构成一个实际的学习循环。

‧如果在一个循环中学到的东西有望改进另一个循环中的学习，则两个循环处于层次结构中(一个是另一个的“元”)。

请注意，这些定义针对的是上面提到的示例：虽然手臂拉动可以实现为“循环”，但在每次拉动(从一只手臂的瞬间返回)中学到的东西只能在未来的试验中被利用，或者等价地，在上层循环(即剧集循环)的同一遍。因此，在学习方面，试验，即使它们被实现为循环，仅作为其上层循环(情节循环)的“宏观时间步长”，不构成实际的学习循环，并且不添加“元”到过程。

事实上，实际的学习循环可以以一种有原则的方式来定义，使它们独立于任意的实施选择，这表明这些循环不仅仅是偶然出现的，而是在智能行为的出现中构成真正的、基本的、客观可量化的组成部分。

基于这个框架，我们可以通过询问有关它的具体问题来描述每个循环，包括：

‧循环的是什么？

‧学到了什么？

‧基础是什么(即要学习的东西存放在哪里)？

‧算法是什么？

我们发现这些问题有助于防止自然学习中涉及的多个循环之间的混淆。这种分类的一个例子如图A4所示。

阅读原文参考完整代码原论文。