快速适应性很重要，但不是元学习的全部目标

AI科技大本营

发布于 2019-10-21 15:52:44

5430

发布于 2019-10-21 15:52:44

实践证明，基于梯度的元学习在学习模型初始化、表示形式和更新规则方面非常有效，该模型允许从少量样本中进行快速适应。这些方法背后的核心思想是使用快速适应和泛化（两个二阶指标）作为元训练数据集上的训练信号。但是，其他可能的二阶指标很少被关注。在本文中，研究者提出了一种不同的训练信号——对灾难性干扰的鲁棒性。与仅通过快速适应性最大化学习的表示相比，通过引导干扰最小化学习的表示更有利于增量学习。

以下为论文内容详细介绍，AI科技大本营（ID:rgznai100）编译：

背景介绍

当在大型数据集上训练和使用 IID 采样进行训练直至收敛时，人工神经网络被证明是非常成功的函数逼近器。但是如果没有大的数据集和 IID 采样，他们很容易产生过拟合和灾难性的遗忘。最近的研究表明，基于梯度的元学习能够成功地从元数据集中提取问题的高级平稳结构，从而可以在不过度拟合的情况下进行小样本泛化，它也证明可以减轻人们对更好的持续学习的遗忘。

基于梯度的元学习器具有两个重要组成部分。（1）元目标：算法在元训练期间最小化的目标函数；（2）元参数：元训练期间更新的参数，以最小化所选的元目标。这种元学习框架最流行的实现之一是 MAML。MAML 将最大化快速适应和泛化作为元目标，通过学习模型初始化（一组用于初始化神经网络参数的权重），解决了少样本学习的问题。这个想法是对固定任务结构进行编码，这些结构来自用于初始化模型的固定任务的权重分布，以使得从该初始化开始的常规SGD 更新对于少样本学习有效。

尽管 MAML 为元目标和元参数所做的选择是合理的，但我们还有许多其他选择。例如，除了学习模型初始化外，我们还可以学习表示形式、学习率、更新规则、因果结构甚至是完整的学习算法。类似地，除了使用少样本学习目标，我们还可以定义一个将其他二阶指标最小化的元目标。

本文在元目标中将鲁棒性与干扰相结合，研究该方式是否会改善元学习目标上增量学习基准的性能。最近，Javed 和 White 提出了一个目标——MRCL，该目标通过最大程度地减少干扰来学习表示，并表明这种表示极大地提高了增量学习基准上的性能。但是，他们没有与通过少样本学习目标获得的表示形式进行比较。

另一方面，Nagabandi 发现在元训练时并入增量学习的影响（例如干扰）并没有在元测试时提高他们的持续学习基准的性能。那么，对于有效的增量学习而言，Javed 和 White 引入的新目标是否必要？对于元学习无干扰表示，是否仅使用快速适应就足够了？

问题表述

为了比较这两个目标，我们采用了在线持续学习预测任务(CLP)：这是一个既需要快速适应和对干扰鲁棒性的任务。该任务定义如下：

它由初始的观测目标

，误差函数

，过渡动态

，集合长度 H，集合

（

）组成。一个CLP任务的样本 S，由长度为 H 的潜在高度相关的样本流组成，该样本流的长度为 H，从 X1 开始，遵从 H 步的过渡动态，从而得到了

此外，我们将样本的损失定义为

。CLP 任务的学习目标：通过一次看到一个数据点，从单个样本

最小化任务的期望误差

。标准神经网络（没有任何元学习）在 CLP 任务上效果不佳，因为它们难以通过单次传递从高度相关的数据流中进行在线学习。

比较两个目标

为了在 CLP 任务上运用神经网络，我们提出了一个元学习函数

：一个受参数 θ 控制的深度神经网络，映射关系为

。接下来我们要学习另一个函数 gw，它的映射关系为

。通过组合这两个函数，我们得到了

，这个新函数能够适应我们的 CLP 任务。我们将 θ 作为元参数，它由最小化元目标学习得到，并将在元测试时间内被固定。学习到 θ 后，我们使用在线 SGD 更新，从单条轨迹

中学习 gw 。

算法 1 .元训练：MAML 作为目标

对于元训练，假设

给出了 CLP 任务的分布，我们要考虑两个元目标用于更新元参数 θ ：（1）MAML 形式的少样本学习目标；（2）MRCL，不仅最大化快速适应，而且还要最小化干扰。两个目标分别由算法 1 和算法 2 实现，两者之间的主要区别用红色突出显示。需要注意的是 MAML 使用

的完整批来执行 K 次内部更新，而 MRCL 每个更新只使用

的一个数据点。MRCL 的这种特性，可以将增量学习的影响（例如灾难性的遗忘）考虑在内。

算法 2. 元训练：MRCL 作为目标

数据集、实施细节和结果

使用 OMNIGLOT 的 CLP 任务

Omniglot 是由 50 个不同字母组成的超过 1623 类字符的数据集。每个字符有20 个手写图像。我们将数据集分为两部分，前 963 个类别构成了元训练数据集，而剩余 660 个构成了元测试数据集。为了在这些数据集上定义 CLP 任务，我们对 200 个类的有序集合

进行了采样。X 和 Y 构成了这些类别的所有图像。样本 S 是一系列的图像：每个类有 5 张图像，我们会先看到 C1 的 5 张图像，然后再看到 C2 的 5 张图像，依次类推。此时集合长度

。值得注意的是，采样操作定义了用于元训练的任务的分布

。

元训练

我们使用 MAML 和 MRCL 目标学习了一个编码器：具有 6 个卷积和 2 个全连接层的深层 CNN。记卷积参数为 θ，全连接层参数为 W。由于 MRCL 在 H=1000 时的计算开销太大需要展开计算图 1000 次），我们将两个目标进行了近似。对于 MAML，我们通过最大化 5 张五路分类器的快速适应习

。

对于 MRCL，与算法2中遍历

时不执行内部梯度不同，我们在遍历

时一次执行五步。对于内部循环中的第 k 个五步，我们将

上的元误差进行累积，并在最后使用累积的梯度更新元参数，该过程如算法 4 所示。这样一来，我们再也不会展开计算图超过五步（类似于经过时间的截断反向传播），并且仍会考虑元训练中的干扰影响。

算法 3. 元训练

算法 4. 元训练：MRCL 的近似实现

最终，MAML 和 MRCL 都使用5个内部梯度步骤和类似的网络结构，这样它们就可以进行公平的比较了。此外，对于这两种方法，我们尝试使用了内部学习率 α 的多个值，并报告了它的最佳取值结果。有关超参数的信息如表 1 所示：

表 1. 超参数信息

元测试

在元测试时间，我们从元测试集中采样了 50 个 CLP 任务。对于每个任务，我们使用算法 3 从单条轨迹

中学习 W，并计算在

上的精度。如图 1（a）和图 1（b）所示，x 轴的每个点代表目前为止模型看到的样本类别数，随着样本类别数的增多，各条目标对应曲线的精度都在逐步降低。从图 1（a）中我们可以看到，MRCL 学习的表示比 MAML 学习的表示对灾难性干扰的鲁棒性要强得多。而且从图 1（b）我们看到，较高的训练准确率也导致更好的泛化性能（这表明 MRCL 不仅仅只是存储训练样本）。

图 1. 在增量学习中，比较由 MAML 和 MRCL 学习到的表示的性能。SR-NN 没有使用基于梯度的元学习；相反地，它通过规范表示层中的激活，使用元训练数据集来学习稀疏表示。我们使用 SR-NN 作为基线进行比较。

作为健全性检查，我们还对三个时期的数据进行了 IID 采样来训练分类器，结果如图 1（c）和图1（d）所示：即使 MAML 和 MRCL做了同样好的 IID 采样，由两种目标学习到的表示的质量具有可比性，而且 MRCL 具有更高的性能，因为它更适合于增量学习。

讨论

MRCL 和 MAML 区别背后的直觉

在直观上，MRCL 和 MAML 之间的主要区别在于内部梯度步骤。对于 MAML，内部梯度由对所有类的整批数据的 SGD 更新组成。作为结果，MAML 的目标仅仅是最大化快速适应和泛化能力。对于 MRCL，内部梯度步骤涉及对高度相关的数据流进行在线 SGD 更新。因此，该模型不仅必须从单个轨迹适应任务，而且还必须防止后续内部更新干扰较早的更新。这将激励模型学习一种防止忘记过去知识的表示。

为什么要学习与网络初始化相反的编码器

在这项工作中，我们学习了一个给定的表示

，而非一个网络的初始化。我们从经验上发现，对于高度相关的数据流进行在线学习，网络初始化是无效的归纳偏差。当学习涉及数千个 SGD 更新的长轨迹时，尤其如此。

总结

在本文中，我们比较了两个元学习目标，这些目标有助于学习增量学习的表示。我们发现，MRCL（一个直接最小化干扰的目标）在学习此类表示上要比 MAML（一个仅最大化泛化能力和快速适应的目标）要好得多。这与 Nagabandi 等人的发现相反。

一个可能的解释是，他们在工作中也具有检测任务变化的机制。根据检测到的任务，代理可以选择使用其他神经网络作为模型。这样的任务选择机制会使减少干扰的重要性降低。通过使用元学习来持续适应，我们的观点进一步得到了支持，而这是他们论文中使用单一模型进行持续适应的基线之一。对于此基准，他们确实观察这一现象，即通过优化 MAML 目标而学习到的初始化无法有效地防止遗忘。

原文链接：

https://www.arxiv-vanity.com/papers/1910.01705/

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2019-10-16，如有侵权请联系 cloudcommunity@tencent.com 删除

编程算法

神经网络

本文分享自 AI科技大本营微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

编程算法

神经网络

登录后参与评论

0 条评论

热度