机器如何拥有记忆？DeepMind最新解读，发布最新长程记忆模型和建模基准

量子位

发布于 2020-02-21 11:20:38

5030

发布于 2020-02-21 11:20:38

文章被收录于专栏：量子位

赖可编译量子位报道 | 公众号 QbitAI

人可以轻易记起几年前的事情，并根据那时的记忆在当下继续思考。这个能力对于计算机来说，就非常困难。

研究者也一直在为此努力。去年底，为了让计算机有更长程的记忆和推理，Deepmind发布了一个新的模型和数据集。

近日，DeepMind官方博客发表了最新的文章，对此进一步解读。文章既回顾了计算机处理“记忆“的历史，也解读了新的模型和数据集获得的进展。

回顾：深度学习如何处理记忆

设计出交流电系统的发明家尼古拉曾经说：

没有基于持久印象的记忆或记忆能力。我们所说的记忆就是对重复刺激的反应性增强。

△尼古拉·特斯拉

在AI领域，最早的、也应用最广泛的记忆结构是循环神经网络(RNN)，被称为长短期记忆(LSTM)，适合于处理和预测时间序列中间隔和延迟非常长的重要事件。

但是它的计算效率低下，模型里的模型中可学习参数的数量会随内存大小呈二次增长。内存大小为64KB的LSTM就会产生大小为8GB的参数。

于是，DeepMind提出了新的构架DNC，即可微分神经计算机，使用了更大的内容矩阵来增强LSTM。

DNC使用注意力操作来从矩阵中读取内容。类比人的视觉注意力，人会被想要关注的事物吸引注意力。比如一个人会把注意更多地放在朋友的面部表情上，而不是鞋子。在DNC中，内存模型可以处理过去的特定事件和数据。

与DNC类似，带有附加注意力机制的RNN在翻译和回答问题上都表现出色。

自然语言模型的发展

统计语言建模既能推进记忆架构的发展，也能够促进AI领域对普遍智能的发展。

语言模型通过连续预测文本流中的下一个单词来工作。它可以用来模拟现有的文本，也可以用来生成新的文本。在模拟过去方面做得越好，预测就变得更加准确，生成的文本也更真实。

通过对上下文的概率建模，可以进行文本预测和生成。而增加上下文会提升文本质量。因此长程依赖关系是语言模型的重要挑战。

WikiText-103是被广泛使用的长程语言模型。由英文维基百科文章组成，由Salesforce AI的研究人员开发。文章平均大约有3600个单词，在开发的时候，远远超过了当时最先进模型的内存窗口。

然而，谷歌研究人员最近发现，一种Transformer变体——叫做TransformerXL——可以保持对过去网络活动的记忆，并可以使用超过1000个单词的上下文。

模型的发展提出了新的问题：这些基准测试会很快饱和吗?因此，DeepMind发布了新的的语言模型基准测试。

数据集PG-19

DeepMind发布的新语言建模基准数据集，名为PG-19。

数据来源于古登堡计划在线图书馆的古籍 (Project Gutenberg online library)，选择了1919年之前出版的文本。对文本很少预处理，例如，不限制单词长度，不审查数字。

PG-19的大小是之前的语言建模基准测试的两倍以上，有的文本长度是WikiText-103的10倍以上。

△PG-19与其它语言建模基准比较

新的长程记忆模型

DeepMind还提出了一个新的长程记忆模型Compressive Transformer。这是一种长时间连续的关注序列模型。

它的灵感来源于睡眠对记忆的压缩和巩固。

当模型经过一系列的输入时，类似于记忆片段的颗粒状记忆会被收集，随着时间的推移，它们最终会被压缩。

△用粗压缩颗粒状短期记忆来描述过去

DeepMind发现，在不使用额外训练数据集的情况下，Compressive Transformer在为WikiText-103和Enwik8这两个基准建立自然语言模型上，有最先进的性能。

它还可以用于语音建模，尤其是处理罕见单词，并可在增强学习代理中使用，来解决记忆任务。

使用PG-19基准后，Compressive Transformer的最强性能也能够获得提升，可以编写类似书籍的摘要。

Compressive Transformer能够产生多种风格的叙述，多角色对话，第一人称日记，或第三人称散文。尽管该模型对语言的理解不是建立在现实世界的基础上的，也不是建立在现实世界中发生的事件的基础上，但是通过捕捉更长程的相关性，能够出现更连贯的文本。

记忆构架的未来

当努力创建操作时间超过几天、几周甚至几年的智能体时，在每个步骤中对所有原始数据进行计算是不切实际的。即使目前计算能力增长，仍需要为记忆开发压缩和稀疏的架构，来构建操作的表示和推理。

DeepMind认为，能够捕捉到日、月、年经验相关性的模型即将问世。实现更强大推理，需要对过去进行更好的选择性关注，以及更有效的压缩机制。

传送门

https://deepmind.com/blog/article/A_new_model_and_dataset_for_long-range_memory

https://arxiv.org/abs/1911.05507

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2020-02-12，如有侵权请联系 cloudcommunity@tencent.com 删除

NLP 服务

本文分享自量子位微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！