DeepMind提出增强想象智能体 这次能帮你赢游戏 | 2分钟读论文

来源 / Two Minute Papers

翻译 / 张丹婷

校对 / 囧囧

整理 / 雷锋字幕组

本期论文

"Imagination-Augmented Agents for Deep Reinforcement Learning"

用于深度强化学习的增强想象智能体

DeepMind发布的最新论文中提出了,用于深度强化学习的增强想象智能体(Imagination-Augmented Agents)。这个智能体的有趣之处在于,它用到了想象力。不仅能够获取当前信息、想象行动结果,还能制定计划,选择一种可以够达到最大预期值的方法。

研究发现,在软件中植入想象智能体,就能让它们更快地学习,论文描述了通过想象计划(imaginative planning)提高深度强化学习的新方法。

学会想象的智能体在玩 Sokoban(推箱子)游戏时,解决了 85% 的问题,而基准智能体完成了 65%。增强想象智能体的完成率也超过了没有使用想象计划的标准智能体的增强版本。

当然,这个通用算法,可以用在很多不同的问题上。推箱子这种小游戏只是展示这个新技术优异性能的一种方式。

▷观看论文解读大概需要 3 分钟

其实在两年前,DeepMind团队就推出了一种算法,能够通过观看视频,就把Atari Breakout(打砖块)玩得很溜。这个算法推出的时候可以说是轰动一时,短短两年,那篇论文已经被一千多篇研究论文引用。

这个算法的原理和动物学习新事物的方法类似。它会观察环境,尝试不同的行动然后看它是否奏效。如果奏效,它就会继续下去;如果不行,它就会去尝试其他的东西。

算法背后是基于神经网络和强化学习的结合。神经网络系统用来理解视频,而强化学习则会实施一系列高效的动作,也就是玩游戏的那部分。强化学习非常适合那些处于复杂多变的环境中的任务。我们需要根据周围的环境选择合适的动作,以便尽可能的多得分。

但是,就早期的算法而言,只要玩游戏的时间一长,它的表现就会变差。(比如,你家小汪在第一次吃到狗粮时开心得抓狂,但是越到后面刺激越弱,它也就不会为狗粮激动了。)

其中有两个重要的原因,一个是因为这个游戏需要长远考虑,这对强化学习算法是一个很棘手的问题。第二个原因是,玩家会犯一些难以挽回的错误。比如,把箱子推到一个了死角,那他就过不了这一关了,除非我们有一个算法,它能试很多次然后看箱子是不是固定不动。(唔,要实现还是非常有难度的)

根据本期论文显示,DeepMind增强想象智能体能够有效解决以上问题。

想知道它具体怎么操作?学霸们还请自行阅读论文以获得更多细节。

论文原址

https://arxiv.org/abs/1707.06203

原文发布于微信公众号 - AI研习社(okweiwu)

原文发表时间:2017-08-31

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

两个月入门深度学习,全靠动手实践!一位前端小哥的经验分享

王新民 编译自 Hackernoon 量子位 出品 | 公众号 QbitAI ? 在当前社会,技术日新月异,一个全栈工程师不及时学习新知识,掌握AI技能,再过两...

3837
来自专栏数据的力量

我的数据心经06:如何结合活动,设计科学的模型效果评估方案

以连载的方式,记录自己学习数据分析的所想所得,共勉,不定期发布。如果文章内容有用,请你分享给有需要的朋友,谢谢支持。

691
来自专栏数据派THU

第四范式程晓澄:机器学习如何优化推荐系统

本文经AI新媒体量子位(公众号ID:qbitai )授权转载,转载请联系出处 本文长度为9532字,建议阅读10分钟 本文为你介绍推荐系统的诞生土壤和早起演进、...

2595
来自专栏新智元

【魔性】DeepMind教AI玩跑酷,强化学习创造新动作(动图)

【新智元导读】 强化学习(RL)是通过激励系统来教导行为的方法。这是机器学习的一种重要方法,在智能控制机器人和分析预测等领域有许多应用。DeepMind 已经使...

3415
来自专栏计算机视觉战队

人工智能在《LOL&王者荣耀》游戏中的角色

近期LOL和王者荣耀游戏已经充斥着真个朋友圈,但是谁又知道在火热的游戏进行中,又有一批批IT男在完成另一项重要的任务,那就是利用深度学习的知识去完成游戏直播的智...

2926
来自专栏量子位

用自然语言指导强化学习agent打游戏,这是斯坦福的最新研究

问耕 编译整理 量子位 报道 | 公众号 QbitAI ? 斯坦福大学计算机科学系的三位学者,在近日发表的论文中,介绍了一个打Atari游戏的深度强化学习age...

3765
来自专栏目标检测和深度学习

EasyPR--中文车牌识别系统 开发详解(开源)

一个开源的中文车牌识别系统, Git地址为:https://github.com/liuruoze/EasyPR。   我给它取的名字为EasyPR,也就是Ea...

7348
来自专栏大数据文摘

数据也会说谎:常见的数据造假三种形态!

20110
来自专栏计算机视觉战队

人工智能在《LOL&王者荣耀》游戏中的角色

近期LOL和王者荣耀游戏已经充斥着真个朋友圈,但是谁又知道在火热的游戏进行中,又有一批批IT男在完成另一项重要的任务,那就是利用深度学习的知识去完成游戏直播的智...

1586
来自专栏专知

【业界】新的图像传感器给汽车装上眼睛

【导读】自动驾驶在技术上的进步很大程度上依赖各种传感设备,而各种图像传感器更是汽车能够看清周围世界的眼睛,这一领域也逐渐成为各大芯片公司竞争的焦点,我们来一览这...

2723

扫码关注云+社区