前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >机器如何拥有记忆?DeepMind最新解读,发布最新长程记忆模型和建模基准

机器如何拥有记忆?DeepMind最新解读,发布最新长程记忆模型和建模基准

作者头像
量子位
发布2020-02-21 11:20:38
4730
发布2020-02-21 11:20:38
举报
文章被收录于专栏:量子位量子位
赖可 编译 量子位 报道 | 公众号 QbitAI

人可以轻易记起几年前的事情,并根据那时的记忆在当下继续思考。这个能力对于计算机来说,就非常困难。

研究者也一直在为此努力。去年底,为了让计算机有更长程的记忆和推理,Deepmind发布了一个新的模型和数据集。

近日,DeepMind官方博客发表了最新的文章,对此进一步解读。文章既回顾了计算机处理“记忆“的历史,也解读了新的模型和数据集获得的进展。

回顾:深度学习如何处理记忆

设计出交流电系统的发明家尼古拉曾经说:

没有基于持久印象的记忆或记忆能力。我们所说的记忆就是对重复刺激的反应性增强。

尼古拉·特斯拉

在AI领域,最早的、也应用最广泛的记忆结构是循环神经网络(RNN),被称为长短期记忆(LSTM),适合于处理和预测时间序列中间隔和延迟非常长的重要事件。

但是它的计算效率低下,模型里的模型中可学习参数的数量会随内存大小呈二次增长。内存大小为64KB的LSTM就会产生大小为8GB的参数。

于是,DeepMind提出了新的构架DNC,即可微分神经计算机,使用了更大的内容矩阵来增强LSTM。

DNC使用注意力操作来从矩阵中读取内容。类比人的视觉注意力,人会被想要关注的事物吸引注意力。比如一个人会把注意更多地放在朋友的面部表情上,而不是鞋子。在DNC中,内存模型可以处理过去的特定事件和数据。

与DNC类似,带有附加注意力机制的RNN在翻译和回答问题上都表现出色。

自然语言模型的发展

统计语言建模既能推进记忆架构的发展,也能够促进AI领域对普遍智能的发展。

语言模型通过连续预测文本流中的下一个单词来工作。它可以用来模拟现有的文本,也可以用来生成新的文本。在模拟过去方面做得越好,预测就变得更加准确,生成的文本也更真实。

通过对上下文的概率建模,可以进行文本预测和生成。而增加上下文会提升文本质量。因此长程依赖关系是语言模型的重要挑战。

WikiText-103是被广泛使用的长程语言模型。由英文维基百科文章组成,由Salesforce AI的研究人员开发。文章平均大约有3600个单词,在开发的时候,远远超过了当时最先进模型的内存窗口。

然而,谷歌研究人员最近发现,一种Transformer变体——叫做TransformerXL——可以保持对过去网络活动的记忆,并可以使用超过1000个单词的上下文。

模型的发展提出了新的问题:这些基准测试会很快饱和吗?因此,DeepMind发布了新的的语言模型基准测试。

数据集PG-19

DeepMind发布的新语言建模基准数据集,名为PG-19

数据来源于古登堡计划在线图书馆的古籍 (Project Gutenberg online library),选择了1919年之前出版的文本。对文本很少预处理,例如,不限制单词长度,不审查数字。

PG-19的大小是之前的语言建模基准测试的两倍以上,有的文本长度是WikiText-103的10倍以上。

PG-19与其它语言建模基准比较

新的长程记忆模型

DeepMind还提出了一个新的长程记忆模型Compressive Transformer。这是一种长时间连续的关注序列模型。

它的灵感来源于睡眠对记忆的压缩和巩固。

当模型经过一系列的输入时,类似于记忆片段的颗粒状记忆会被收集,随着时间的推移,它们最终会被压缩。

用粗压缩颗粒状短期记忆来描述过去

DeepMind发现,在不使用额外训练数据集的情况下,Compressive Transformer在为WikiText-103和Enwik8这两个基准建立自然语言模型上,有最先进的性能。

它还可以用于语音建模,尤其是处理罕见单词,并可在增强学习代理中使用,来解决记忆任务。

使用PG-19基准后,Compressive Transformer的最强性能也能够获得提升,可以编写类似书籍的摘要。

Compressive Transformer能够产生多种风格的叙述,多角色对话,第一人称日记,或第三人称散文。尽管该模型对语言的理解不是建立在现实世界的基础上的,也不是建立在现实世界中发生的事件的基础上,但是通过捕捉更长程的相关性,能够出现更连贯的文本

记忆构架的未来

当努力创建操作时间超过几天、几周甚至几年的智能体时,在每个步骤中对所有原始数据进行计算是不切实际的。即使目前计算能力增长,仍需要为记忆开发压缩和稀疏的架构,来构建操作的表示和推理。

DeepMind认为,能够捕捉到日、月、年经验相关性的模型即将问世。实现更强大推理,需要对过去进行更好的选择性关注,以及更有效的压缩机制

传送门

https://deepmind.com/blog/article/A_new_model_and_dataset_for_long-range_memory

https://arxiv.org/abs/1911.05507

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-02-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 回顾:深度学习如何处理记忆
  • 自然语言模型的发展
  • 数据集PG-19
  • 新的长程记忆模型
  • 记忆构架的未来
  • 传送门
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档