AI的元学习之路

花落花飞去

发布于 2018-02-01 09:41:25

9840

发布于 2018-02-01 09:41:25

文章被收录于专栏：人工智能

人类的智能的一个关键点在于能力多样性 —— 我们能胜任各种各样的任务。而目前的AI系统则擅长掌握单一技能，例如围棋，Jeopardy（美国的一档电视智力竞赛节目），甚至是直升机特技飞行。但是，当你让一个AI系统去解决一些看似简单的问题时，它却很难完成。赢得Jeopardy冠军的答题程序不能跟人进行哪怕一小段的对话，能够胜任专家级特技飞行员的直升机控制程序，却不能在空中完成一个简单的新任务，比如定位导航到一团火焰的上方，在上盘旋以将其熄灭。相比之下，人类可以灵活地适应各种不可预见的突发情况，并作出处理。我们如何才能使我们的AI助手获得多样性的能力呢？

有几种致力于解决此类问题的技术，我将在这篇文章中对它们进行讨论，并介绍我们实验室最新的一种技术，称为模式不可知的元学习。（您可以在这里查看研究论文，以及底层技术的代码。）

目前的AI系统能从零开始掌握复杂的技能，这个过程使用大量时间和经验可以理解。但是如果我们希望我们的AI助手能够获得更多技能和适应更多环境，我们不能每项技能都从零开始对它进行事先的训练。相反，我们需要我们的AI助手学习如何通过使用以前的经验来更快地学习新的任务，而不是孤立地考虑每个新的任务。这种学会学习的方法或着说元学习能力，是实现多功能AI助手的关键一步——使它们可以在整个生命周期内不断地学习各种各样的任务。

那么，什么是元学习，它用于哪些场景？

早期的元学习方法可以追溯到20世纪80年代末和90年代初，包括JürgenSchmidhuber的论文和Yoshua和Samy Bengio的着作。现在元学习已成为一个热门话题，最新的论文层出不穷，最常使用的技术超参数和神经网络的优化，找到良好的网络架构，少量样本 - 拍摄图像识别和快速强化学习。

各种最近的元学习方法。

少量样本学习

2015年，Brendan Lake等。发表了一篇论文，他们想挑战让现代机器学习方法从一个新概念的单个或者少量的样本中掌握这个概念。例如，Lake提到人类可以学习从一张图片中识别出“新颖的两轮车”（例如右图所示），而机器不能从单张图片中得到概念。（在看到一种新字体的单个字符后，人类就能举一反三来画一个其他字符）。在论文中，Lake引入了一个手写字符数据集—— Omniglot，它由 MNIST 转换而来，有1623个字符类，每个字符类有20个例子。在ICML2016会议上，两个深度学习模型的论文紧随其后支持这一点，使用记忆增强神经网络和顺序生成模型 ; 这表明深层模型有可能从一些例子中学习如何学习，尽管离人类的水平还相去甚远。

最新的元学习方法如何？

元学习系统通过大量的任务进行训练，然后测试其学习新任务的能力; 一个任务的例子可能是在5个可能的类别中对新的图像进行分类，给出每个类别的一个例子，或者让系统在学习一次成功通过迷宫的经验之后，更好更快地去通过新的迷宫。这与许多标准的机器学习技术不同，那些技术只会对单个任务进行训练然后用训练中的例子来进行测试。

元学习机制的，能够依靠少量样本进行的图像分类，例图来自 Ravi＆Larochelle 17年论文。 __

在元学习中，该模型被训练来学习“元训练集”中的任务。训练中有两种优化机制 - 学习新任务的学习者和训练学习者的元学习者。元学习的方法通常分为三类：递归模型，度量学习和学习优化。

递归模型

这些方法训练一个递归模型，例如LSTM，按顺序接收数据集，然后处理来自任务的新输入。在图像分类设置中，可能是先传入（图像，标签）这样的一对一对数据的有序数据队列，接着就是需要分类的新的实例。

递归模型法的使用，输入Xt和相应的 Yt标签，图片来自Santoro et al. '16。

元学习者使用渐变下降，而学习者只是推出这个递归网络。这种方法是最常用的方法之一，并已用于的少量样本的分类和回归，以及元强化学习。由于其灵活性，这种方法往往比其他方法效率更低，因为学习者网络需要从头开始学习策略。

度量学习

这种方法涉及学习一个度量空间——在其中进行学习非常有效。这种方法主要用于学习样本较少的机器分类。直观地说，如果我们的目标是从少量的示例图像中学习，那么一个简单的方法是将要分类的图像与你已有的示例图像进行比较。但是，正如你可能会想到的那样，直接在像素空间进行比较图像的效果不佳。相反，你可以训练一个Siamese网络或在经过学习的度量空间中进行比较。像上面提到的方法一样，元学习是使用渐变下降（或者你最喜欢的神经网络优化器）来执行的，而学习者在对应的经过学习的度量空间中，通过不同的比较策略来进行反馈，例如以最邻近为标准。这些方法在进行学习样本较少的机器分类中十分有效，虽然他们还没有在其他元学习领域如回归或强化学习中得到证明。

学习优化器

最后的办法是学习一个优化器。在这种方法中，有一个网络（元学习者）学习更新另一个网络（学习者），以便学习者有效地学习任务。对于更好的神经网络优化，这种方法已被广泛研究。元学习者通常是一个递归网络，所以它可以记住自己之前是如何更新学习者的学习模型的。元学习者可以通过强化学习或监督学习进行训练。Ravi＆Larochelle最近证明了这种方法的优点，用于样本较少的图像分类，提出了学习者模型应该是一个“经过学习的优化过程”这一观点。

学习初始化为元学习

可以说，转移学习的最大成功故事是使用ImageNet预训练初始化视觉网络权重。特别是，在接近任何新的视觉任务时，众所周知的范例是首先收集标记的任务数据，获取预先训练的ImageNet分类网络，然后使用渐变下降对收集的数据进行网络微调。使用这种方法，神经网络可以更有效地从适度大小的数据集中学习新的基于图像的任务。但是，预培训只能走得这么远。由于网络的最后一层仍然需要大量适应新的任务，所以太少的数据集（如在少数情况下）仍将导致严重的过度拟合。此外，我们不幸的是没有一个类似的非视觉领域，如语言，语言和控制预培训计划。1我们能从ImageNet微调的成功中得到什么启发吗？

模型不可知的元学习（MAML）

如果我们直接优化一个初始表示，那么是不是可以通过少量的例子进行有效的微调呢？这正是我们最近提出的算法，模型不可知的元学习（MAML）背后的想法。像其他元学习方法一样，MAML培训各种各样的任务。它通过几个梯度步骤训练可以快速适应新任务的表示形式。元学习者试图找到一个初始化，它不仅适用于各种问题，而且还可以快速（少数步骤）和高效（仅使用几个例子）进行调整。下面是一个可视化 - 假设我们正在寻找一组参数 \ theta\theta具有很强的适应性。在元学习（粗线）的过程中，MAML优化了一组参数，使得当梯度步骤采取相对于一个特定的任务我i（灰线），参数接近最优参数\ theta_i ^ *\theta_i^*为任务我i。

MAML方法的图表。

这种方法非常简单，并且具有许多优点。它没有对模型的形式做出任何假设。这非常高效 - 没有为元学习引入额外的参数，学习者的策略使用已知的优化过程（梯度下降），而不必从头开始。最后，它可以很容易地应用到一些领域，包括分类，回归和强化学习。

尽管这种方法很简单，但是我们惊讶地发现，这种方法在流行的少量图像分类基准Omniglot和MiniImageNet 2上能够大大优于现有的方法，包括现有的方法要复杂得多或者特定领域。除了分类之外，我们还试图学习如何使模拟机器人的行为适应不同的目标，类似于本文顶部的动机 - 多功能性。为此，我们将MAML与政策梯度方法结合起来进行强化学习。MAML发现了一个让模拟机器人在单梯度更新中适应其运动方向和速度的策略。请参阅以下视频：