首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Google提出新型生成分布式记忆模型,实现以压缩形式高效存储信息

图源:pixabay

原文来源:arXiv

作者:Yan Wu、Greg Wayne、Alex Graves、Timothy Lillicrap

「雷克世界」编译:嗯~是阿童木呀、KABUDA、EVA

导语:长期以来,在机器学习方面已经尝试了各种各样的新方法以增强具有快速记忆存储能力的神经网络,但有关该“如何最有效地使用记忆”这一基本问题仍悬而未决。最近,谷歌提出了一个受Kanerva稀疏分布式记忆启发的条件生成记忆模型——Kanerva 机器,可以提供有效的压缩和存储复杂数据。

我们提出了一个以端到端方式进行训练的记忆系统,它可以快速适应新数据并生成类似的样本。受Kanerva稀疏分布式记忆(sparse distributed memory)的启发,这个记忆系统拥有具有鲁棒性的分布式阅读和书写机制。这种记忆是可解析的,它通过贝叶斯(Bayesian)更新规则实现最佳的在线压缩。我们将其定义为一个分层的条件生成模型,其中记忆提供了一个丰富的数据相关先验分布。因此,自顶向下的记忆和自底向上的感知被结合起来,生成了表示观察的代码。根据经验,我们证明了,自适应记忆显著地改善了在Omniglot和CIFAR数据集上训练的生成模型。与可微神经计算机(Differentiable Neural Computer,DNC)及其变体相比,我们的记忆模型具有更大的容量,而且更容易进行训练。

图1:Kanerva机器的概率图模型,左:生成模型;中间:阅读推理模型;右:写入推理模型;电线表示近似推理,虚线表示精确推断

在机器学习方面的近期研究已经考核了各种各样的新方法以增强具有快速记忆存储的神经网络。然而,“如何最有效地使用记忆”这一基本问题仍未解决。例如,在诸如可微神经计算机(Graves等人于2016年提出)等模型中,基于槽的外部记忆常常会将阅读和书写分解成单个的槽,尽管神经网络控制器在原则上可以学习更多的分布式策略。因此,信息不会在记忆槽中共享,并且必须为新的输入而补充额外的槽,即使它们对现有的记忆来说是冗余的。同样,匹配网络(Matching Networks,Vinyals等人于2016年提出;Bartunov和Vetrov于2016年提出)和神经情景控制器(Neural Episodic Controller。Pritzel等人于2017年提出)可以直接存储数据的嵌入。因此,它们要求内存容量随着被存储的样本数量而增加。与此相反,神经统计学家(Neural Statistician、Edwards和Storkey于2016年提出)通过对它们的嵌入求平均值而总结出一个数据集。其结果的“统计信息”是非常小的,但是大量的信息可能会被平均的过程抛弃,这与拥有大量记忆的需求相冲突,这些记忆本可以捕捉到过去经验的细节。

可以这样说,以往科学家们所开发的关联记忆体系结构提供了有关该如何设计在重叠表示中存储数据的高效记忆结构的深入见解。例如,Hopfield Net(于1982年)开创了在动态系统中以低能态存储模式的想法。这种类型的模型是具有鲁棒性的,但其容量受限于循环连接的数量,而循环连接又受输入模式的维度约束。玻尔兹曼机(Boltzmann Machine,Ackley等人于1985年提出)通过引入潜变量来提升这个约束,但代价是需要较慢的读写机制,即通过吉布斯采样(Gibbs sampling)。Kanerva的稀疏分布式记忆模型(Kanerva于1988年提出)解决了这个问题,该模型通过将寻址引入分布式记忆存储区,从而提供快速读取和写入功能,并将容量从输入维度中解离出来,而分布式记忆存储区的大小与数据维度无关。

图2:在学习期间,负变分的下界(左),重建损失(中心)和KL散度(右)。KL散度的下降表明我们的模型学会了使用记忆

在本文中,我们提出了一个受Kanerva稀疏分布式记忆启发的条件生成记忆模型。我们通过可学习的地址和重新计算的潜在变量对Kanerva的原始模型(Rezende等人于2014年、Kingma和Welling于2013年、Bornschein等人于2017年提出)进行了泛化。通过利用我们的记忆模型的分析易处理性,我们解决了学习有效记忆书写操作这一具有挑战性的问题。我们推导出贝叶斯记忆更新规则,该规则最佳地折衷保存旧内容和存储新内容。由此产生的分层生成模型具有一个记忆相关的先验,能够快速适应新数据,除了来自编码器自底而上感知之外,还提供自顶向下的知识,以形成表示数据的潜在代码。作为一种生成模型,我们所提出的模型提供了一种全新的方式,通过自适应记忆丰富VAE模型中常常过度简化的先验(Rezende等人于2016年提出)。作为一种记忆系统,我们的模型提供了一种有效的方式来学习在线分布式写入,它可以提供有效的压缩和存储复杂数据。

图3:左:重建输入和重建中使用的权重,其中每个容器表示一个记忆槽上的权重。权重广泛分布在记忆槽中。右:通过迭代阅读去噪。在每个面板中:第一列显示原始图案,第二列(盒子内)显示损坏的图案,下面的列显示1,2和3次迭代后的重建

本文提出了一种将慢学习神经网络与快速自适应线性高斯模型相结合的新型记忆模型——Kanerva 机器(Kanerva Machine)。虽然我们的体系结构受到了Kanerva的开创性模型的启发,但我们通过训练一个生成式模型来灵活地学习观察到的数据分布,消除了统一数据分布的假设。通过将记忆实现为生成式模型,我们可以通过采样从记忆中检索出看不见的模式。这种现象与建构记忆性神经科学实验的观察结果相符(Hassabis等人于2007年提出)。

Kanerva模型的概率解释已经在前人的研究中得到了发展。Anderson(于1989年)研究了Kanerva稀疏分布式记忆的条件概率解释,并将二进制数据推广到具有两个以上值的离散数据。Abbott等人于2013年提出了一种基于重要性采样的近似贝叶斯解释。据我们所知,我们的模型是第一次将Kanerva的记忆模型泛化到连续的、非均匀的数据中,同时保持了贝叶斯推理的解析形式。此外,我们还通过与深度神经网络的集成,证明了它在现代机器学习中的潜力。

图4:来自CIFAR中样本的比较

其他模型在生成环境中将记忆机制与神经网络相结合。例如,Li等人于2016年提出,使用注意力从记忆矩阵中的一组可训练参数中检索信息。需要注意的是,这个模型中的记忆不会在学习之后更新。因此,记忆不会像我们的模型那样快速地适应新的数据,因此不适用于本文所探讨的基于场景的学习。Bornschein等人于2017年提出,使用离散(分类)随机变量寻址外部记忆,并与生成模型的其余部分一起训练寻址机制,尽管目标是可变的。然而,模型中的记忆是通过以原始像素的形式存储图像来填充的。尽管这为快速自适应提供了一种机制,但对于大型数据集而言,存储原始像素的成本可能是无法承受的。我们的模型利用图像中的统计规律,通过感知层的编码器、学习地址和贝叶斯记忆更新规则,学习以压缩的形式存储信息。

有效记忆模型的核心是记忆有效更新。虽然近期研究了学习这种更新机制的各种方法(Graves等人于2016年,Edwards和Storkey于2016年,Santoro等人于2016年提出),但我们设计了一个模型,在不损害神经网络的灵活性和表达能力的前提下,使用了一个精确的贝叶斯更新规则。我们的模型及其可扩展结构的引人注目的性能表现,表明了将经典统计模型和神经网络相结合,可能是机器学习中新型记忆模型一个有潜力的发展方向。

原文链接:https://arxiv.org/pdf/1804.01756.pdf

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180410A1D58M00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券