前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【ICML2016】谷歌 DeepMind 论文下辑

【ICML2016】谷歌 DeepMind 论文下辑

作者头像
新智元
发布2018-03-22 17:46:20
8170
发布2018-03-22 17:46:20
举报
文章被收录于专栏:新智元新智元

【新智元导读】深度学习重要会议 ICML2016 接收谷歌 DeepMind 9篇论文,新智元系统整理,继上篇之后,本次邀请国家千人计划专家、平安科技数据平台部总经理肖京进行点评:《用记忆增强的神经网络进行单点学习》提出了新的存储读写更新策略;《深度生成模型中的单点泛化》延续了去年 Science 那篇小数据学习文章(Lake et. al.)的工作,不过,小数据学习(one-short learning)尚处于初步阶段,本文提出的方法还有待提高。其他3篇,《蒙特卡洛目标变分推断》提出了首个为重要性采样设计的无偏梯度估计器,性能堪比目前使用的有偏估计器;《深度强化学习的竞争网络架构》提出了一种叫“竞争网络”的全新架构,使强化学习代理玩ATARI 2600达到目前最高水平;《关联长短记忆》表明,冗余关联记忆可以成为新的神经网络基础单元。成功夺得 ICLR2016 最佳论文奖的 DeepMind,在 ICML2016 是否也能拔得头筹呢?

  1. 用记忆增强的神经网络进行单点学习(One-shot Learning with Memory-Augmented Neural Networks)
  2. 深度生成模型中的单点泛化(One-Shot Generalization in Deep Generative Models)
  3. 蒙特卡洛目标变分推断(Variational inference for Monte Carlo objectives)
  4. 深度强化学习的竞争网络架构(Dueling Network Architecture for Deep Reinforcement Learning)
  5. 关联长短时记忆(Associative Long Short-Term Memory)

关注新智元(AI_era)回复“0616”下载论文(请直接在公众号回复)

1. 用记忆增强的神经网络进行单点学习

【肖京点评】近年在记忆增强神经网络领域的相关工作取得了一些很有趣的进展,比如14年Graves等人提出的神经图灵机,这篇文章的方法也是基于记忆增强神经网络的体系架构。这种架构通过加入可读写的外部存储器层,实现用极少量新观测数据就能有效对模型进行调整,从而快速获得识别未见过的目标类别的meta-learning能力,也就是可以利用极少量样本学习。这种调整不是简单通过对新观测信息在存储器中查找匹配,而是基于强大深度神经网络架构,结合长期观测得到的深度模型与根据新信息对存储内容灵活有效的读写更新。

相比神经网络图灵机,这篇文章的新意在于提出了新的存储读写更新策略,LRUS(Least Recently Used Access),每次写操作只选择最少被用到的存储位置或者最近被用的存储位置。这样的策略完全由内容决定,不依赖于存储的位置,而神经网络图灵机的更新策略则是由信息内容和存储位置共同决定的。因此,神经网络图灵机更适用于时序性较强的分类或回归问题,而本文提出的方法则没有这方面的限制。文中的一系列实验结果展现了所提方法的优越性,同时也提出了该方法的一些局限及继续研究的方向,比如存储器不能跨任务共用的问题,以及如何与主动学习结合选择有效的样本等。

摘要

虽然近期深度网络的应用有些突破,但还有个长久以来的挑战没有解决,那就是“单点学习” (one-shot learning)。传统的基于梯度的网络需要大量数据来学习,需要大量的迭代训练。当遇到新的数据,模型必须重新学习参数来把新的信息充分包含进来,以避免做出灾难性的推断,但这个过程是低效的。拥有强化记忆的架构,比如神经图灵机 (Neural Turing Machine; NTM),提供了快速编码和获取新信息的能力,因此有避免传统模型缺陷的潜力。这里,我们展示了记忆增强神经网络快速吸取新数据,并只需要少量例子就能利用新数据做出准确预测的能力。我们也介绍一种新的访问外部存储空间的方法,这种方法是基于存储的内容,而不是像之前的方法那样额外使用了基于存储地址的专注 (focusing) 机制。

1. 引言

许多问题要求通过少量数据进行快速推断。“单点学习” (one-shot learning) 的极限情形,单个观测可以导致行为的急剧变化。

这种灵活适应性是人类学习的一个被赞颂的方面,在从运动控制到抽象概念的获得等方面都有体现。例如,推测一个只听过一两次的单词的全部用法,这样的任务对机器智能是个难点。

不过,以前的工作确实提示了一个从稀疏数据进行快速学习的可能策略,而相关的概念叫做“元学习” (meta-learning)。虽然这个说法在各种意义下被使用,但元学习一般指的是一种学习方案,其中代理人按两层来学习,每层对应不同的时间尺度。快速学习发生在一个任务之内,比如,学习在一个特定数据集内准确分类。这种学习受到通过多个任务逐渐积累起来的知识的引导,这种知识描述了任务结构在目标领域中的变化方式。这种两级组织的元学习一般被描述为“学会学习” (learning to learn)。

有人提出拥有记忆容量的神经网络能够进行元学习。这些网络通过权重更新来移动它们的偏置 (bias),并且通过学习快速地在存储器中暂存表达来调节它们的输出。比如,被训练用来进行元学习的 LSTM (长短期记忆) 能够通过少量例子学会从未见过的二次函数。

拥有记忆容量的神经网络让我们有可能在深度网络中进行元学习。但是,无结构循环架构中使用记忆的特定策略不大可能适用于每个新任务需要快速编码大量新信息的场景。可规模化的解决方案有以下要求:1. 信息必须以稳定且可以按元素寻址的方式存储,2. 参数的个数不应该与存储容量挂钩。这两个特性并不自然地在诸如长短期记忆这类共享记忆架构中出现。但是,近期的一些架构,比如神经图灵机以及记忆网络满足这两条。因此,我们从记忆增强神经网络 (Memory-Augmented Neural Network; MANN) 的视角研究元学习。MANN 指代的是拥有外部记忆的网络,而不包括基于内部记忆的架构,比如 LSTM。

这种方法结合了通过梯度下降缓慢学习数据的抽象表达以及通过外部记忆模块快速学习新信息这两种手段,从而可以支持元学习,扩展了深度学习的适用范围。

(略)

5. 总结

通过渐变学习来编码跨任务的背景信息,而更灵活的记忆资源存储了新任务的专门数据。我们的主要贡献是展示了一类特定的 MANN 对于元学习的用途。这些深度学习框架包含了专用的、可寻址的记忆资源,其结构上独立于进程控制的具体实现机制。这里测试的 MANN 在两个元学习任务上的性能优于 LSTM,并且在只有稀疏的训练数据的情况下在分类和回归任务上表现良好。

一个关键的方面是,这里研究的那些任务都不能仅仅通过死记硬背来完成。新的信息必须被灵活地存储和访问,而正确的结果要求的不仅仅是准确的数据获取。特别地,推断需要基于新数据和长期经验做出,这种能力有时候被称为“归纳转移” (inductive transfer)。MANN 适应这两种挑战,因为它结合了灵活的存储能力和用于表示学习的深度架构。

MANN 可能有助于进一步研究人类元学习的计算基础。

下一步的可能研究包括:

  1. 元学习能否自行发现最优寻址程序
  2. 这里测试的任务共享了许多高层结构,如果测试任务的范围更大,可能还是会引起连续学习面临的常见挑战。
  3. 测试 MANN 在主动学习任务下 (需要主动选取观测什么) 的表现

2. 深度生成模型中的单点泛化

【肖京点评】简单地说,这篇文章延续了去年 Science 杂志那篇小数据学习文章(Lake et. al.)的工作,把那篇文章的贝叶斯推理思想和基于深度学习的 generative 模型结合起来,建立基于反馈(feedback)和关注(attention)的序列 generative 模型,实现 synthesis-for-analysis 模式的多步迭代优化。相比 Lake 等人单纯通过 analysis(贝叶斯推理),本文的一系列实验展示了更好的效果。

不过,小数据学习的研究(one-short learning)尚处于初步阶段,比如在图像生成方面,相比之前基于“风格”(style)和“内容”(identity)分离的一些成功技术,本文提出的方法并没有展现更好的结果。

摘要

人类善于仅凭单个例子对新概念和经验进行推理。特别是,人类拥有单次泛化的能力:遭遇新概念,理解其结构,然后生成这个概念的有意义的变型。我们基于深度生成模型发展了一套有这种重要能力的机器学习系统;这种模型结合了深度学习的表达能力和贝叶斯推断的推测能力。我们开发了一类基于反馈和注意的序列生成模型。这两个特征让生成模型在密度估计和图像生成方面都达到了领域前沿。我们用3个任务来展示我们模型的单点泛化能力:无条件采样,生成给定概念的新实例,以及生成一系列概念的实例。所有情形中,我们的模型都可以在仅仅看一次实例的情况下生成有意义且多样的样本,因此我们的模型提供了一类重要的单点机器学习的一般性模型。

1. 引言

人类拥有单次泛化能力。本文中我们开发了拥有这种能力的新模型——可以从实际中可能遇到的数据流做出单次推理,仅使用有限形式的领域知识,并能应用到不同种类的问题。

有两种单点泛化的方法。Salakhutdinov et al. (2013) 发展了一个结合了玻耳兹曼机和等级狄利克雷过程的概率模型,可以学习层级概念类别,并且提供了强大的生成模型。最近,Lake et al. (2015) 等人把贝叶斯规划学习所具有的单点泛化能力视为“神经网络模型的一大难题”。通过把深度神经网络嵌入到层级隐变量模型,并与近似贝叶斯推断的推测能力结合,这个问题是可以克服的。得到的深度生成模型是一般性的图像模型,准确且可规模化,并且具有重要的单点泛化能力。

深度生成模型通过层级隐变量来描述观测数据的生成过程。基于有向图的模型越来越流行,其中包括离散隐变量模型如 sigmoid 置信网络以及深度自回归网络,和连续隐变量模型如非线性高斯置信网络和深度隐高斯模型。这些模型使用深度网络来描述条件概率分布,可以学到拥有丰富的非线性结构。这些模型有些好的性质:对隐变量的推断让我们能提供对数据的因果性解释;相关概念的类比推理很自然地成为可能;遗漏的数据可以作为额外的隐变量;实现了最小描述长度原理,可用于压缩目的;可用来学习环境模拟器,让基于模拟的计划成为可能。

我们的方法有两个中心原理:反馈和注意力。这两个原理让我们的模型能体现“通过合成来分析的原理” (analysis-by-synthesis)。其中,对观测到的信息做出的分析被连续集成到对其构建出的解释。分析通过注意力机制实现,让我们能选择性地处理和引导信息。对数据的诠释通过一系列隐变量获得,这些隐变量通过计算数据的概率来推测。这种构造的目的是引入内部反馈来让模型有“思考时间”,以便从每个数据点更有效地提取信息。我们把这种模型称为序列化生成模型。

我们的贡献包括:

  1. 发展了序列化生成模型,推广了已有的方法,让序列化生成和推断、多模 (multi-modal) 后验近似,以及一类新的生成模型成为可能。
  2. 展示了结合注意力机制与推断对生成模型带来的明显提高。
  3. 证明了我们的生成模型能够进行单点泛化,在只看图片一次就生成有意义的变化。

2. 注意力的种类

任何让我们有选择地把信息从模型的一个地方引导到另一个地方的机制,都可以被认为是一种注意力机制。分类模型里的属于“读”注意力,生成模型里的属于“写”注意力或生成注意力,对输出变量选择性地更新。不同的注意力机制可以用相同的计算工具实现。

空间变换注意力指的是专注于图像里物体的形状、大小等信息。

(略)

5. 单点泛化

区分单点学习与单点推断:本文的模型智能进行单点推断,不能进行单点学习;后者的区别在于,还需要根据新来的数据更新模型。

6. 总结

我们开发了一类拥有单点泛化能力的通用模型,可以模仿人类认知的一个重要特征。序列泛化模型是变分自编码器的自然扩展,提供了密度估计和图像生成的前沿模型。这些模型是基于反馈和注意力原理,可以计算一定步骤下数据点的概率。空间注意力机制的使用,极大地提高了模型的泛化能力。空间变换对于读和写都是高度灵活的注意力机制。我们的模型在一系列任务上都能生成有意义且不同的样本,并且只需要看新例子一次。这个方法也有局限,仍然需要较多数据来避免过度拟合,希望在今后的工作中能解决这个问题

3. 蒙特卡洛目标变分推断

摘要

深度潜变量模型方面,近来的进展大部分来自于灵活、可放缩的变分推断(variational inference)的发展。这种类型的变分训练涉及到使用变分后验(posterior)中的样本计算所需梯度,以此将 log 概率的下界最大化。最近,Burda等人(2016)提出了一种方法,通过对概率使用多样本(multi-sample)的重要性采样的估计来获得更紧确(tighter)的下界;他们展示了对它进行优化将会产生使用更多计算力、获得更高概率的模型。这个方法的出现表明了这种多样本目标(multisample objectives)的重要性,并带来了几种相关方法的成功表现。

我们将这种多样本方法扩展到离散潜变量,分析了估计其中的梯度时会遇到的困难。随后,我们提出了第一个为重要性采样目标而设计的无偏梯度估计器,并在训练生成模型、结构化输出的预测模型的方面对它进行了评估。基于每个样本低方差的学习信号所得到的估计器,比起为单样本变分目标而提出的NVIL估计器要更为简单和高效,能够与目前使用的有偏估计器相竞争。

1. 引言

使用神经网络作为参数的有向潜变量模型近来广受关注,这是因为近期在变分推断方法上的进展使得人们能够高效地训练这种模型。变分方法的一个重要缺陷是,使用一个未充分表达(insufficiently expressive)的变分后验来训练一个强大的模型,可能会导致模型仅仅使用一小部分能力。解决这个问题最直接的途径是,开发更具表达能力的但仍然可被追踪的变分后验。

然而,一个过分简单的后验会对于模型产生恶劣影响。这可以被看作是由变分方法优化的下界的形式所带来的结果。变分后验学习的是只覆盖真实后验的高概率部分,而真实分布则被假定为一种简单的形状,能够用变分后验来简单地逼近。

一种将这种影响降到最低的简单方法是,当计算边缘似然估计时,对多个样本进行平均操作。我们将会把通过对独立样本做平均来计算似然估计的目标称之为蒙特卡洛目标。当使用一个对多样本做平均的目标时,用以生成样本的分布就不再能明显表示变分后验了,取而代之的是,由于与重要性采样之间的联系,这被认为是一种提议分布(proposal distribution)。

这种类型的多样本目标被应用于生成模型的建模(generative modelling)、结构化输出的预测、以及硬注意力(hard attention)模型。由于多样本目标对于log似然来说是一个比比单样本目标更好的代理(proxy),因此用多样本目标训练的模型有可能会达到更好log似然。

不幸的是,当模型中并非所有的潜变量都是连续变量时,使用多样本目标来学习提议分布会是很困难的,因为通过对目标求导获得的梯度估计器会有非常高的方差。

这篇论文中,我们为多样本目标提出了一种新的无偏梯度估计器,在朴素估计器中用方差低得多的每个样本的学习信号替代了单一的学习信号。与为单样本变分目标所设计的NVIL估计器不同,我们的估计器不需要为了降低方差而学习任何额外的参数。我们预期,高效的无偏梯度估计器的存在,会令将离散潜变量整合入能够进行端对端训练的大型系统变得更为简单。

(略)

5. 结果

5.1 生成模型建模

我们首先将我们提出的估计器用于训练生成模型,聚焦于sigmoid信念网络(SBN),它包含了含有二项潜变量的层。SBN被用于为一些针对含有离散潜变量的模型的变分训练方法做评估。

图1 随着基于验证集(validation set)训练的进行、训练目标发生进化。左边的图将用VIMCO训练的模型与用NVIL训练的模型进行了比较,从中可以发现,优化多样本目标时,VIMCO比NVIL效率高得多,并且VIMCO的优势随着样本数量的增加而扩大。当使用中等数量的样本时,NVIL的表现会有微弱的提升,直到在K达到10时开始下降。右边的图显示了VIMCO和RWS之间的比较。这两种方法的表现非常相似,当使用2样本时,VIMCO的表现更佳,而当使用更多样本时,RWS的学习速度略快于VIMCO。

图1:生成模型建模:在SBN网络中用MNIST数据基于验证集进行的多样本目标训练,VIMCO和NVIL(左图)、RWS(右图)训练效果的比较。方括号中的数字标明了在训练目标中使用的样本数量。

根据验证分数(validation score),我们为每种方法和样本数量的组合选择了最佳的模型,并基于为每个数据点使用1000提议样本(proposal samples)的测试集,估计了它们的负log似然。表1中记录的结果表明,VIMCO和NVIL在2个样本上的表现稍好于RWS。不过,随着样本数量逐渐提升,VIMCO和RWS的表现稳步提升,而NVIL则基本保持不变,在K达到50时已经是相当糟糕的表现了。总体而言,虽然VIMCO似乎在我们所选取的样本数量中对于RWS有微弱的优势,RWS和VIMCO的表现是非常相似的。

5.2 结构化输出预测

第二组实验中,我们评估了我们提出的估计器在训练结构化输出预测模型时的效果。我们选择了一个被Raiko等人(2015)和Gu等人(2016)用来为二项潜变量模型进行梯度估计器的评估的基准测试,需要根据MNIST数据集中数字的上半部分来预测数字的下半部分。

图2显示了基于验证集训练三层模型后获得的多样本界限值(bound value),它是参数更新次数的函数。左图展示了从先前分布(prior)中采样并训练模型的结果,表明模型的效果随着样本数量的增加有了极大的提升。虽然NVIL在1个或2个样本时的表现要优于2个样本的VIMCO,随着样本数量增加,情况有了逆转,在20个样本和50个样本时,VIMCO的效率都比NVIL高得多。提高样本数量对于模型表现有如此大的影响,这一事实有力表明,从先前分布中产生的样本极少能很好地解释观测到的现象。

图2中,右图展示了使用学习到的提议分布的训练结果。很显然,这会为所有的方法和样本数量的组合都带来很大的表现提升。事实上,用这种方法得到的最差的结果也要优于从先前分布中采样获得的最好的结果。从相对表现来说,这里的情形与生成模型建模实验中的非常相似:VIMCO比NVIL表现更佳,并且VIMCO的优势随着样本数量的增加而扩大。在这个实验中,不同方法之间的表现差距相当小,这可能是因为任务变得简单了。

图2:结构化输出预测:在一个3隐层的SBN中,基于验证集训练多样本目标,使用VIMCO与使用NVIL通过从先前分布中采样(左图)、从学习到的提议分布中采样(右图)的比较。方括号中的数字标明了训练目标中使用的样本数量。

6. 讨论

这篇论文中,我们介绍了VIMCO,第一个专为多样本目标设计的、推广了经典变分下界的无偏通用梯度估计器。通过利用目标函数的结构,它简单且高效地降低了方差,无需额外的计算耗费,消除了其他通用无偏估计器(比如NVIL)所依赖的学习基线的需求。

我们通过将VIMCO应用于生成模型和结构化输出预测模型来展示了它的高效性。它的表现始终优于NVIL,并且能够与目前使用的有偏估计器相抗衡。

虽然经典变分方法在使用未充分表达的变分后验时可能会表现得非常糟糕,通过简单地增加目标中使用的样本数量,多样本目标提供了一种优雅的方式用计算力来交换拟合质量。将黑盒变分推断方法与这种目标相结合,可能会让黑盒变分推断的效率得到切实的提高。因此,我们希望这个方法将会提高黑盒变分推断的吸引力与应用性。

4. 深度强化学习的竞争网络架构

摘要

近几年有许多将深度表征运用于强化学习的成功例子。其中,许多应用使用的仍然是传统的架构,比如说卷积网络、LSTM 或是自动编码器。这篇论文中,我们提出了一种用于无模型(model-free)强化学习的全新神经网络架构。我们的竞争网络代表了两个不同的估计器:一个是状态价值函数的估计器,另一个是基于状态的行动优势函数的估计器。将其分离开的主要好处是,不改动基础强化学习算法就能泛化学习。结果表明,有许多价值相似的行动时,这种架构的策略评估更好。不仅如此,竞争架构使我们的RL代理在ATARI 2600的表现超过了目前最领先的方法。

1. 引言

我们将提出的这个网络架构命名为“竞争架构”(dueling architecture),它将状态价值的表征与(依赖状态的)行动优势的表征明显区分开。竞争架构中包括了 2 条代表价值与优势函数的流,它们共用一个卷积特征学习模块。就像图1显示的那样,2 条流在一个特殊的整合层中相互结合,生成一个对于状态-行动价值函数Q的估计。这个竞争网络应当被理解为一个单独的、有 2 条流的Q网络,在现有的算法中可以替代流行的单流Q网络,比如深度Q网络(DQN)。竞争网络会自动生成对于状态价值函数和优势函数的分别估计,无需任何额外的监督。

图1:上方是一个流行的单流Q网络,下方是竞争Q网络。竞争网络有 2 条流,用以为每个行动分别估计(标量)状态价值和优势。这两种网络都会为每个行动输出Q值。

直观看,不了解每个状态下每个行动的效果时,竞争架构能了解哪些状态是(或不是)有价值的。这对于那些行动不会以任何相关的方式影响到环境的状态来说尤为有用。为了展示这一点,请想象图2里的显著性地图(saliency maps)。这些地图是根据 Simonyan 等人(2013)提出的方法,通过将训练后的关于输入视频的价值流与优势流相结合而生成的(实验部分描述了具体方法)。图中显示了两种不同时间步长下的价值显著性地图与优势显著性地图。

在一种时间步长中(见下图中上面两张图),价值网络流对于道路、特别是地平线区域(那里会有新的车辆出现)投注了许多注意力,它也注意着分数。而优势流则不太关注视觉输入,因为它的行动选择在前方没有车辆时与图像实际上是无关的。然而,在第二种时间步长下(见下图中下面两张图),优势流对画面投以了注意力,因为有车辆在前方,令它的行动选择与前方车辆非常相关。

图2:观看、注意和驾驶:一个训练完的竞争架构在ATARI游戏 Enduro 的价值显著性地图与优势显著性地图(红色标注)。价值流学会对路面投以注意。优势流学会只在前方有车辆时投以注意,以此避免碰撞。

实验中我们展示了,多余行动或是相似行动被添加到学习问题中时,竞争架构能更快在策略估计中识别出正确的行动。

我们也评估了竞争架构将会对充满挑战的ATARI 2600测试任务带来的益处。这个领域中,一个具有某种结构和某些超参数的RL代理(agent)必须能够通过仅仅观察图像像素和游戏分数就学会玩 57 种不同的游戏。结果表明,我们的方法使对于 Mnih 等人(2015)和 van Hasselt 等人(2015)单流基线的极大提升。将优先回放(prioritized replay)与我们提出的竞争网络相结合,形成了这个流行的领域中最领先的方法。

3. 竞争网络架构

我们新架构的核心意义是,就像图2中显示的那样,对于许多状态来说,无需为每个行动选择都估计价值。例如 Enduro 游戏中,只有当可能发生碰撞时,才有必要了解要往左还是往右移动。在一些状态中,了解要采取什么行动至关重要,然而许多其他状态下,行动选择对于事态发展毫无影响。但对于基于自展(bootstrapping)的算法,每个状态下状态价值的估计都非常重要。

为了将这种意义落到现实,我们设计了一种单个Q网络的架构(见图1),我们将它称为竞争网络。竞争网络的底层和原始的DQN一样,是卷积的。但是,不像DQN在卷积层之后紧随的是单独一序列全连接层,我们使用了两列(或者说流)全连接层。这些流拥有为价值函数和优势函数提供分别估计的能力。最后,两条流相互结合,生成了一个单独的Q函数输出。

5. 讨论

竞争架构的优点,部分在于它高效学习状态-价值函数的能力。竞争架构中,价值流V随着每次Q值的更新而更新——这与单流架构中的更新有所区别,单流架构中只有一个行动的价值得到更新,其他所有行动保持不变。我们的方法中这种对于价值流更频繁的更新使得价值流V获得了更多分配的资源,因此带来了对于状态价值的更好的逼近,这对于让基于时间差分的方法——比如Q学习——能成功运行是很有用的。实验中反映出了这种现象:当行动数量很大时,竞争架构相对于单流Q网络的优势也随之扩大。

更重要的是,给定状态下,不同Q值的差别相对于Q值的量级非常之小。例如,用 Seaquest 游戏训练完DDQN后,有记录的状态中,各状态之间的平均行动差距(给定状态下最好与次好行动的价值差)大约是 0.04,而对各状态计算的平均状态价值差不多是 15。这种在量级上的差别可能在更新中导致少量噪音,因此让接近贪婪的策略发生急剧转变。拥有两条独立流的竞争架构在这个问题上是稳健的。

5. 关联长短时记忆

摘要

我们探索了一种新的方法,在增加记忆但不增加网络参数数量的情况下,增强循环神经网络。该系统具有基于复数向量的关联记忆,与全息化归表示(Holographic Reduced Representation,HRR)和长短时记忆(LSTM)网络紧密相关。使用 HRR 存储更多的信息时,每次提取信息都会因干涉产生更多的噪音。我们的系统创建了冗余的存储副本,从而减少提取时的噪声。实验结果表明,我们的系统在多回忆任务上学习得更快。

我们解决了 LSTM 的两个限制。一个限制是 LSTM 内存单元数目和递归权重矩阵的大小相关联。具有 N_h 个内存单元的 LSTM 需要循环权重矩阵大小为 O(N_h^2)。第二个限制是 ,学习表示像数组这样的数据结构时,LSTM 是一个糟糕的选择,因为它缺少在读写时对记忆进行索引的机制。

为了解决这个限制,此前人们将软/硬注意机制应用于外部记忆,以增强循环神经网络。我们通过使用关联 LSTM,提供了一种全新的寻址机制,以分布式向量表示的方式对各项进行无位置存储,实现了存放键值对的关联数组,该数组基于两个特征:

  1. 联合 LSTM 和 HRR 思想,能够存储键值。
  2. 直接使用 HRR 会损耗极大的存储。我们使用冗余存储来增加内存的能力,降低内存访问的噪音。

图4. 从1到10字符的可变长度的 episodic copy 任务中,每个序列的训练成本。关联长短时记忆能快速学习,几乎像固定长度 episodic copy 一样快。Unitary 循环神经网络相对于固定长度任务缓慢地收敛。

(略)

8. 结论

冗余关联记忆可以成为新的神经网络基础单元。将冗余关联记忆整合到具有多个读写头的循环构架中,能提供灵活的关联存储和提取、高负荷能力和并行记忆访问。值得注意的是,关联长短时记忆的负荷能力高于 LSTM 的负荷能力,但却并未引入更大的权重矩阵。而且,关联长短时记忆的更新方程可以精确地模仿 LSTM,这表明关联长短时记忆是一般性构架,只要能使用 LSTM 的地方就能使用关联长短时记忆

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2016-06-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档