专栏首页AI科技大本营的专栏快速适应性很重要,但不是元学习的全部目标

快速适应性很重要,但不是元学习的全部目标

实践证明,基于梯度的元学习在学习模型初始化、表示形式和更新规则方面非常有效,该模型允许从少量样本中进行快速适应。这些方法背后的核心思想是使用快速适应和泛化(两个二阶指标)作为元训练数据集上的训练信号。但是,其他可能的二阶指标很少被关注。在本文中,研究者提出了一种不同的训练信号——对灾难性干扰的鲁棒性。与仅通过快速适应性最大化学习的表示相比,通过引导干扰最小化学习的表示更有利于增量学习。

以下为论文内容详细介绍,AI科技大本营(ID:rgznai100)编译:

背景介绍

当在大型数据集上训练和使用 IID 采样进行训练直至收敛时,人工神经网络被证明是非常成功的函数逼近器。但是如果没有大的数据集和 IID 采样,他们很容易产生过拟合和灾难性的遗忘。最近的研究表明,基于梯度的元学习能够成功地从元数据集中提取问题的高级平稳结构,从而可以在不过度拟合的情况下进行小样本泛化,它也证明可以减轻人们对更好的持续学习的遗忘。

基于梯度的元学习器具有两个重要组成部分。(1)元目标:算法在元训练期间最小化的目标函数;(2)元参数:元训练期间更新的参数,以最小化所选的元目标。这种元学习框架最流行的实现之一是 MAML。MAML 将最大化快速适应和泛化作为元目标,通过学习模型初始化(一组用于初始化神经网络参数的权重),解决了少样本学习的问题。这个想法是对固定任务结构进行编码,这些结构来自用于初始化模型的固定任务的权重分布,以使得从该初始化开始的常规SGD 更新对于少样本学习有效。

尽管 MAML 为元目标和元参数所做的选择是合理的,但我们还有许多其他选择。例如,除了学习模型初始化外,我们还可以学习表示形式、学习率、更新规则、因果结构甚至是完整的学习算法。类似地,除了使用少样本学习目标,我们还可以定义一个将其他二阶指标最小化的元目标。

本文在元目标中将鲁棒性与干扰相结合,研究该方式是否会改善元学习目标上增量学习基准的性能。最近,Javed 和 White 提出了一个目标——MRCL,该目标通过最大程度地减少干扰来学习表示,并表明这种表示极大地提高了增量学习基准上的性能。但是,他们没有与通过少样本学习目标获得的表示形式进行比较。

另一方面,Nagabandi 发现在元训练时并入增量学习的影响(例如干扰)并没有在元测试时提高他们的持续学习基准的性能。那么,对于有效的增量学习而言,Javed 和 White 引入的新目标是否必要?对于元学习无干扰表示,是否仅使用快速适应就足够了?

问题表述

为了比较这两个目标,我们采用了在线持续学习预测任务(CLP):这是一个既需要快速适应和对干扰鲁棒性的任务。该任务定义如下:

它由初始的观测目标

,误差函数

,过渡动态

,集合长度 H,集合

)组成。一个CLP任务的样本 S,由长度为 H 的潜在高度相关的样本流组成,该样本流的长度为 H,从 X1 开始,遵从 H 步的过渡动态,从而得到了

此外,我们将样本的损失定义为

。CLP 任务的学习目标:通过一次看到一个数据点,从单个样本

最小化任务的期望误差

。标准神经网络(没有任何元学习)在 CLP 任务上效果不佳, 因为它们难以通过单次传递从高度相关的数据流中进行在线学习。

比较两个目标

为了在 CLP 任务上运用神经网络,我们提出了一个元学习函数

:一个受参数 θ 控制的深度神经网络,映射关系为

。接下来我们要学习另一个函数 gw,它的映射关系为

。通过组合这两个函数,我们得到了

,这个新函数能够适应我们的 CLP 任务。我们将 θ 作为元参数,它由最小化元目标学习得到,并将在元测试时间内被固定。学习到 θ 后,我们使用在线 SGD 更新,从单条轨迹

中学习 gw 。

算法 1 .元训练:MAML 作为目标

对于元训练,假设

给出了 CLP 任务的分布,我们要考虑两个元目标用于更新元参数 θ :(1)MAML 形式的少样本学习目标;(2)MRCL,不仅最大化快速适应,而且还要最小化干扰。两个目标分别由算法 1 和算法 2 实现,两者之间的主要区别用红色突出显示。需要注意的是 MAML 使用

的完整批来执行 K 次内部更新,而 MRCL 每个更新只使用

的一个数据点。MRCL 的这种特性,可以将增量学习的影响(例如灾难性的遗忘)考虑在内。

算法 2. 元训练:MRCL 作为目标

数据集、实施细节和结果

  • 使用 OMNIGLOT 的 CLP 任务

Omniglot 是由 50 个不同字母组成的超过 1623 类字符的数据集。每个字符有20 个手写图像。我们将数据集分为两部分,前 963 个类别构成了元训练数据集,而剩余 660 个构成了元测试数据集。为了在这些数据集上定义 CLP 任务,我们对 200 个类的有序集合

进行了采样。X 和 Y 构成了这些类别的所有图像。样本 S 是一系列的图像:每个类有 5 张图像,我们会先看到 C1 的 5 张图像,然后再看到 C2 的 5 张图像,依次类推。此时集合长度

。值得注意的是,采样操作定义了用于元训练的任务的分布

  • 元训练

我们使用 MAML 和 MRCL 目标学习了一个编码器:具有 6 个卷积和 2 个全连接层的深层 CNN。记卷积参数为 θ,全连接层参数为 W。由于 MRCL 在 H=1000 时的计算开销太大需要展开计算图 1000 次),我们将两个目标进行了近似。对于 MAML,我们通过最大化 5 张五路分类器的快速适应习

对于 MRCL,与算法2中遍历

时不执行内部梯度不同,我们在遍历

时一次执行五步。对于内部循环中的第 k 个五步,我们将

上的元误差进行累积,并在最后使用累积的梯度更新元参数,该过程如算法 4 所示。这样一来,我们再也不会展开计算图超过五步(类似于经过时间的截断反向传播),并且仍会考虑元训练中的干扰影响。

算法 3. 元训练

算法 4. 元训练:MRCL 的近似实现

最终,MAML 和 MRCL 都使用5个内部梯度步骤和类似的网络结构,这样它们就可以进行公平的比较了。此外,对于这两种方法,我们尝试使用了内部学习率 α 的多个值,并报告了它的最佳取值结果。有关超参数的信息如表 1 所示:

表 1. 超参数信息

  • 元测试

在元测试时间,我们从元测试集中采样了 50 个 CLP 任务。对于每个任务,我们使用算法 3 从单条轨迹

中学习 W,并计算在

上的精度。如图 1(a)和 图 1(b)所示,x 轴的每个点代表目前为止模型看到的样本类别数,随着样本类别数的增多,各条目标对应曲线的精度都在逐步降低。从图 1(a)中我们可以看到 ,MRCL 学习的表示比 MAML 学习的表示对灾难性干扰的鲁棒性要强得多。而且从图 1(b)我们看到,较高的训练准确率也导致更好的泛化性能(这表明 MRCL 不仅仅只是存储训练样本)。

图 1. 在增量学习中,比较由 MAML 和 MRCL 学习到的表示的性能。SR-NN 没有使用基于梯度的元学习;相反地,它通过规范表示层中的激活,使用元训练数据集来学习稀疏表示。我们使用 SR-NN 作为基线进行比较。

作为健全性检查,我们还对三个时期的数据进行了 IID 采样来训练分类器,结果如图 1(c)和图1(d)所示:即使 MAML 和 MRCL做了同样好的 IID 采样,由两种目标学习到的表示的质量具有可比性,而且 MRCL 具有更高的性能,因为它更适合于增量学习。

讨论

  • MRCL 和 MAML 区别背后的直觉

在直观上,MRCL 和 MAML 之间的主要区别在于内部梯度步骤。对于 MAML,内部梯度由对所有类的整批数据的 SGD 更新组成。作为结果,MAML 的目标仅仅是最大化快速适应和泛化能力。对于 MRCL,内部梯度步骤涉及对高度相关的数据流进行在线 SGD 更新。 因此,该模型不仅必须从单个轨迹适应任务,而且还必须防止后续内部更新干扰较早的更新。这将激励模型学习一种防止忘记过去知识的表示。

  • 为什么要学习与网络初始化相反的编码器

在这项工作中,我们学习了一个给定的表示

,而非一个网络的初始化。我们从经验上发现,对于高度相关的数据流进行在线学习,网络初始化是无效的归纳偏差。当学习涉及数千个 SGD 更新的长轨迹时,尤其如此。

总结

在本文中,我们比较了两个元学习目标,这些目标有助于学习增量学习的表示。我们发现,MRCL(一个直接最小化干扰的目标)在学习此类表示上要比 MAML(一个仅最大化泛化能力和快速适应的目标)要好得多。这与 Nagabandi 等人的发现相反。

一个可能的解释是,他们在工作中也具有检测任务变化的机制。根据检测到的任务,代理可以选择使用其他神经网络作为模型。这样的任务选择机制会使减少干扰的重要性降低。通过使用元学习来持续适应,我们的观点进一步得到了支持,而这是他们论文中使用单一模型进行持续适应的基线之一。对于此基准,他们确实观察这一现象,即通过优化 MAML 目标而学习到的初始化无法有效地防止遗忘。

原文链接:

https://www.arxiv-vanity.com/papers/1910.01705/

本文分享自微信公众号 - AI科技大本营(rgznai100),作者:CSDN App

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-10-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 迁移学习前沿研究亟需新鲜血液,深度学习理论不能掉链子

    在本篇系统综述中,作者采用了定量方法来选出对该领域的重大进展,并使用文献计量学耦合性度量来识别出来研究的前沿。另外,本论文还进一步分析了该领域的“经典”与“前沿...

    AI科技大本营
  • 算法开发人员的安身之本:如何将机器学习与各行各业进行深度结合

    近10年来,机器学习发展势头迅猛,被广泛应用于搜索系统,推荐系统、垃圾邮件检索、信用评分、欺诈检测、股票交易、医疗、自动驾驶、人脸识别等多个方面。机器学习所散发...

    AI科技大本营
  • CNN vs RNN vs ANN——3种神经网络分析模型,你pick谁?

    这个问题很有意义。机器学习算法并没有什么不足之处,那么为什么数据科学家要选择深度学习算法呢?神经网路能够提供给我们哪些传统机器学习提供不了的功能呢?

    AI科技大本营
  • 互联网寒冬,2019年程序员该何去何从?

    都说IT 行业是一个变化非常快的行业,它需要我们持续去学习新的知识和技能。 但是,工作以后,我们经常会发现自己学习的东西很少了,倒不是没有时间去学习, 而是学习...

    Java架构技术
  • TW洞见 | IT小小鸟生存指南-学习起步篇

    文章作者来自ThoughtWorks:王健,图片来自网络。 经常跟公司的年轻人聊天(说起来好伤悲),他们大多在充满激情的同时表达出自己对于学习的迷茫。面对快...

    ThoughtWorks
  • 迁移学习前沿研究亟需新鲜血液,深度学习理论不能掉链子

    在本篇系统综述中,作者采用了定量方法来选出对该领域的重大进展,并使用文献计量学耦合性度量来识别出来研究的前沿。另外,本论文还进一步分析了该领域的“经典”与“前沿...

    AI科技大本营
  • 「自然语言处理(NLP)」“句子向量可直接用二进制表示??”

    本文共计两篇paper,第一篇主要针对常规的句子向量表示需要占用大量内存的问题,创新性的采用二值化来表示句子向量从而减少资源消耗,提高低配资源平台的适用...

    ShuYini
  • 华为青年研究员获NeurIPS最佳论文奖:4856篇投稿,仅有21%录取率

    尽管经历了审稿信息泄露、大会名称更换、 200 多位黑人论文作者拒签的种种风波,但依然抵挡不住今年 NIPS 大会 8400 名技术人的踊跃前来。

    AI科技大本营
  • CCAI专访 | 杨强教授谈深度学习泡沫、迁移学习机遇与人工智能入门

    文 | 胡永波 7 月 22 - 23 日,由中国人工智能学会、阿里巴巴集团 & 蚂蚁金服主办,CSDN、中国科学院自动化研究所承办的第三届中国人工智能大会(C...

    AI科技大本营
  • 如何使用思维导图解读java开源项目

    我们在阅读项目的时候往往是无头无脑的随便看源码,其实这是种错误的学习的方法。学习得多注重积累,有输入就要有输出,学习更需要有针对性。

    java思维导图

扫码关注云+社区

领取腾讯云代金券