DeepMind 新算法NEC:让 AI 在学习速度上超越人类

【新智元导读】 DeepMind 研究团队的新论文Neural Episodic Control提出了一种称为NEC的新算法,使得“更广泛环境下的学习速度大幅度提高”。他们的智能体能够在获得经验后丰富快速锁定到最成功的策略上,而不是等待许多优化步骤。这个AI可以更快地理解新的经验,并以此为依据采取行动,这将使它能够更快地达到人类学习的速度。

拥有了学习能力的机器似乎已经完胜人类,尤其是在进行面部识别、视频游戏或者下围棋时。

但且慢,有一个关键领域智能机器还被人类甩在身后:学习速度。比如说,在掌握一些经典视频游戏的玩法时,人类花2小时就能学会,而机器要学习200个小时。

现在,人类学习的速度比深度学习机器快10倍。正是这样的“优越性”使得“AI战胜人类”暂且只是担忧。但是,多亏谷歌(或者都怪谷歌?),这个现状即将改变。

据位于伦敦的谷歌子公司 DeepMind 的 Alexander Pritzel 介绍,他们已经制造深度学习机器,这个AI可以更快地理解新的经验,并以此为依据采取行动,这将使它能够更快地达到人类学习的速度。

NEC算法改变了什么

深度学习通过使用神经网络层来识别数据中的模式和趋势。当一层侦测到一个模式时,它会将该信息发送到下一层,然后再发送到下下层。随着数据持续传递,所有层都知道了这一信息。

例如在面部识别中,一层可能找寻图像中的边,下一层则找出这些边的环形模式(如眼睛和嘴的轮廓),再下一层负责三角模式(如双眼和嘴构成的图形)。所有这些之后,最终输出面部的识别结果。

通过修改或调整内部因素,例如层之间的连接强度,系统学习的方式就会不同。然而,变化必须缓慢地引入,因为一层的剧烈变化对所有后续层都会产生同样的影响。这基本上就是为什么深度神经网络学习和训练的时间更长。

Pritzel 声称他们已经找到了这个问题的解决方案——他们称之为“神经情景控制”(neural episodic control)。他们表示,使用这种技术已经使得“更广泛环境下的学习速度大幅度提高”,因为他们的智能体能够在获得经验后丰富快速锁定到最成功的策略上,而不是等待许多优化步骤。

NEC算法简述

在DeepMind研究团队 3月6日提交到 arXiv 的论文《Neural Episodic Control》中指出,NeuralEpisodic Control(NEC)是一种深度强化学习智能体,可以快速吸收经验并以此为依据采取行动。该智能体使用价值函数的 semi-tabular 表征:一种过去经验的缓冲,包含了表征的缓慢变化状态和价值函数的快速更新评价。该智能体包含了三个组成部分:一个处理像素图像的卷积神经网络,一组记忆模块(每个行动一个),一个将从行动记忆中读取的信息转化为Q(s, a) 值的最终网络。

对于每个行动

,NEC有一个简单的记忆模块

,其中

是动态尺寸向量束,每一个包含相同数量的向量。记忆模块则从键到相应值以随机关联的方式采取行动,很像程序中找到的词典数据类型。因此我们把这种记忆模块称为differentiable neural dictionary (DND)。

在DND上有两种可能的操作:查询和写入。如图1所示。

图1

图2展示的是作为NEC智能体执行单一行动的一部分。

图2

算法1简要描述了NEC的算法。

算法1

论文地址:https://arxiv.org/abs/1703.01988

当然,这又是一柄双刃剑

DeepMind 的方法是在试图复制人类和动物的学习方法。首先,它复制了大脑前额叶皮层中发生的事情——识别熟悉的情况,并根据已知情况采取行动。在面对不熟悉的情况时,它会复制海马体中发生的事情,而非采用试错法。试错法是指产生成功结果的行为被重复,不产生成功结果的行为被避免。

加快学习过程的是“记住一切”,而不是“选择性记忆”。

“我们的架构并没有尝试去学习什么时候写入记忆,因为学习这一点会花费大量的时间。相反,我们选择将所有经验写入记忆,并允许其大量增长——与现有记忆架构相比。”DeepMind研究团队解释说。

有可能像人类一样被教导的AI就像一把双刃剑。一方面,它增大了AI对人类可能获得的优势的威胁。另一方面,它也带来了更美好的前景,因为它开启了一大堆新的、令人兴奋的可能性,有希望带来使我们的生活更美好的新技术。

无论如何,时间会证明一切。

原文地址:https://www.technologyreview.com/s/603868/how-deepminds-memory-trick-helps-ai-learn-faster/

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2017-03-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏玉树芝兰

如何快速梳理领域文献

给研究生上课的时候,有一次作业是让他们就某一个具体领域做文献分析。这个作业基本上就没有很完满而愉快地完成过。

1252
来自专栏灯塔大数据

每周学点大数据 | No.10何谓大数据算法

No.10期 何谓大数据算法 Mr. 王:下面我们就来谈谈大数据算法与一般算法的区别和联系。 小可:好。 Mr. 王:前面我们讲了如何评价一个算法,在相对比较...

3508
来自专栏AI科技评论

【深度】机器学习如何帮助Youtube 实现高效转码?

GAIR 今年夏天,雷锋网将在深圳举办一场盛况空前的“全球人工智能与机器人创新大会”(简称GAIR)。大会现场,雷锋网将发布“人工智能&机器人Top25创新企...

3795
来自专栏AI研习社

利用好奇心做稀疏反馈任务的学习

AI 研习社按:近期,Unity 发布了版本 0.4 的机器学习智能体工具包(ML-Agent toolkit v0.4),其中最为突出的新功能是通过额外的基于...

972
来自专栏用户画像

Youtube视频推荐算法的前世今生

在这个阶段,YouTube认为应该给用户推荐曾经观看过视频的同类视频,或者说拥有同一标签的视频。然而此时,YouTube的视频已是数千万量级,拥有标签的部分却非...

4102
来自专栏机器之心

前沿 | DeepMind提出新型架构IMPALA:帮助实现单智能体的多任务强化学习

3468
来自专栏AI科技评论

学界丨从一个失败的强化学习训练说起:OpenAI 探讨应该如何设计奖励函数?

AI科技评论按:在当下,强化学习算法以一种惊奇、不可思议的方式进入到了我们的视野中。AI 科技评论此前也做过不少相关的覆盖和报道,而在 OpenAI 的这篇文章...

29611
来自专栏AI科技评论

不一样的论文解读:2018 KDD best paper「Embeddings at Airbnb」

Airbnb 的 Real-time Personalization using Embeddings for Search Ranking at Airbnb...

1702
来自专栏AI研习社

博客 | DeepMind 开源TRFL,又一个强化学习复现、创新好帮手

雷锋网 AI 科技评论按:继今年 8 月谷歌开源发布了专为学术研究人员设计的简单但鲁棒的强化学习框架「多巴胺」(Dopamine)之后,早已被谷歌母公司收购但保...

1104
来自专栏AI科技评论

学界 | 清华与迈阿密大学独家解析:更新了朋友圈和微博动态,好友何时会点赞评论?

AI科技评论按:本文由清华大学媒体与网络实验室以及迈阿密大学物理系共同合作完成,作者包括:余林韵(清华大学计算机系博士生,已毕业加入今日头条人工智能实验室)、崔...

38812

扫码关注云+社区

领取腾讯云代金券