谷歌大脑研发出通用永久记忆模块，神经网络首次实现终身学习

新智元

发布于 2018-03-27 16:05:47

1.2K0

发布于 2018-03-27 16:05:47

文章被收录于专栏：新智元

【新智元导读】今天为大家介绍的这篇论文提出了一个在深度学习过程中使用的终身记忆模块，该模块利用快速最近邻算法来提高效率。这一记忆模块可以很容易地添加到有监督神经网络的任何部分。为了显示其灵活性，研究者把它加到了许多网络中，从简单的、用图像分类进行测试的卷积网络，到深度的、序列到序列的递归卷积模型。在各种情况下，经过加强的网络都获得了一次性终身学习的能力。模块记住了过去几千步的训练样本，并可以从中泛化。

带记忆的增强型神经网络是最近的研究热点。许多研究设计了一个记忆组件，用于标准递归神经网络的记忆泛化。在递归网络中，从一个时间点传递到下一个的状态可以被解释为当前样本的网络记忆表征。从记忆的固定长度向量表征移到更大更多样化的形式，是这些研究采用的核心方法。而自从Santoro等人在2016年的研究中在基于记忆的模型和一次性学习（one-shot learning）之间构建了联系，许多针对一次性学习的研究也涌现了出来。

尽管最近取得了一些进展，经过记忆强化的深层神经网络在终身学习和一次性学习（one-shotlearning）方面仍然是有限的，尤其是在记住罕见事件方面。我们今天为大家介绍的这篇论文提出了一个在深度学习过程中使用的大规模的终身记忆模块，该模块利用快速最近邻算法来提高效率，从而扩展到大型记忆的规模。除了最近邻查询之外，模块是完全可微分的，并且在没有额外监督的情况下可以端对端地训练。它是终身的，也就是说，不需要在训练期间重置它。

这一记忆模块可以很容易地添加到有监督神经网络的任何部分。为了显示其灵活性，研究者把它加到了许多网络中，从简单的、用图像分类进行测试的卷积网络，到深度的、序列到序列的递归卷积模型。在各种情况下，经过加强的网络都获得了一次性终身学习的能力。模块记住了过去几千步的训练样本，并可以从中泛化。研究者在Omniglot数据集上进行了目前最先进的一次性学习，并首次展示了大规模机器翻译任务中递归神经网络的终身学习和一次性学习。

论文要解决的问题——罕见事件的学习

从计算机视觉到语音识别再到机器翻译，机器学习系统在许多领域都获得了成功。神经机器翻译是如此成功，以至于对某些语言“组”来说，它已经接近了人类翻译的平均水平。但此处平均词汇是一个关键因素。当一个句子和丰富的训练数据中的某一句很类似时，翻译会很准确。然而，当遇到一个罕见的词汇，比如Dostoevsky（德语中是Dostojewski）时，许多模型会处理失败。Dostoevsky的正确德语翻译在模型的训练数据中出现的次数不够，模型无法学习其译文。

也许和这位著名俄国作家相关的例句最终会被加入到训练集中，但还有许多其他种类的其他罕见词汇或罕见事件。这给现有的深度学习模型带来了一个问题：必须扩展训练数据，并且重新训练模型来应付这些罕见词或事件。与此不同的是，人类则可以从一个例子中进行学习，终身不忘。

论文提出的办法——终身记忆模块

这篇论文的作者提出了一个可以在多种神经网络中实现一次性学习的终身记忆模块。这一模块包括多个键值对。键是神经网络特定层的激活信息，值则是对于给定样本的ground-truth的目标。这样，随着网络被训练，它的记忆就会增加，同时变得更有用。最终它能基于过于具有相似激活信息的知识给出预测。当面对一个新样本时，网络将其写入记忆，以供以后使用，即使这一样本只出现了一次。

拥有长期记忆具有很多优势。一次性学习本身就很有价值，在一些任务中更是不可或缺。即使是拥有大量训练集的真实世界的任务，比如翻译，也可以从长期记忆中获益。最后，因为从记忆可以回溯到训练样本，这就有可能对模型所做决策进行解释，由此可以更有针对性的改进模型。

终身记忆模块的评估

如何评估一次性终身学习模型的性能，这一点还不十分清楚，因为大多数深度学习评估都聚焦于平均性能，没有一次性学习的组件。论文作者尝试用多种方法进行了评估，以证明其记忆模块确实有效：

1.作者在众所周知的一次性学习任务Omniglot进行评估，这是唯一一个带有明确一次性学习评估的数据集。评估结果显示，加入记忆模块后，超越了此前的最好结果；

Omniglot数据集上的结果。虽然只使用了一个简单的卷积神经网络，记忆模块的增加仍然使模型在1-shot和multi-shot学习任务中的表现接近复杂得多的模型。

2.作者人为设计了一个要求一次性终身学习的任务。在这一任务中，标准模型表现较差，而作者的模型表现较好；

3.最后，作者训练了一个带有一次性终身学习模块的英语-德语翻译模型。它仍然保持了非常好的平均性能，且可以进行一次性学习。定性来看，模型可以翻译像Dostoevsky这样的罕见词汇。定量来看，如果模型在评估前可以看到相关的翻译，它在评估时获得的BLEU分数就会显著增加。

论文作者指出，终身记忆模块可以添加到不同的深度学习模型中，并且可以在不同层上给网络一次性学习的能力。记忆模块中有一些部分还可以再调整，并进行更细致的研究。用正确的键达到查询平均值的更新规则应该被参数化。较之仅仅返回单一近邻，我们也可以返回多个近邻来让网络的其他层去处理。论文作者将这些问题留待未来的研究。

论文地址：https://arxiv.org/pdf/1703.03129v1.pdf

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2017-03-28，如有侵权请联系 cloudcommunity@tencent.com 删除

深度学习