DeepMind提出想象智能体,更鲁棒AlphaGo逼近真实世界

【新智元导读】DeepMind 最新发布的两篇论文提出了有想象力和计划能力的智能体。这些智能体能够想象行动结果、制定计划,为最高效地完成任务提供了新方法。智能体对复杂而不完善的模型鲁棒性强,即使离开围棋这样的“完美”环境,也能采用灵活的策略来发掘其想象力。

DeepMind 两篇最新论文提出了有想象力和计划能力的智能体

《有想象和计划能力的智能体》——这是DeepMind 一篇最新博客的题目。该文介绍了 DeepMind 最近发表的两篇论文:Imagination-Augmented Agents for Deep Reinforcement Learning Learning model-based planning fromscratch。这两篇论文在 arXiv 上已经可以看到了。论文描述了一系列方法,用于基于想象的计划(imagination-based planning),同时也介绍了一些架构,这些架构为智能体学习和制定计划从而最高效地完成任务提供了新方法。这些架构很高效,对复杂而不完善的模型鲁棒性强,且能采用灵活的策略来发掘其想象力。

简单来说,这些研究发现,通过为其软件智能体植入类似想象力的东西,能够让它们更快的学习。研究描述了通过想象计划(imaginative planning)提高深度强化学习的新方法。

学会想象的智能体在玩 Sokoban(推箱子)这个游戏时,解决了 85% 的问题,而基准智能体完成了 65%。想象增强智能体同时也超过了没有使用想象规划的标准智能体的增强版本。

两篇论文摘要如下:

Imagination-Augmented Agents for Deep Reinforcement Learning

深度强化学习的想象增强智能体(Imagination-Augmented Agents)

我们在此介绍想象增强智能体(I2As),一种全新的结合了脱离模型及基于模型两方面的深度强化学习架构。现行的大多数基于模型的强化学习及计划方法会规定一个模型如何被使用以形成策略,I2As学习通过已学到的环境模型,将预测作为深度策略网络中补充的context,以随机的方式构建计划。与其他一些算法相比,I2As展现出了更高的数据有效性、更优的表现及更强的鲁棒性。

Learningmodel-based planning from scratch

基于模型计划入门

基于模型计划通常被视为做出序列决策的有效方法。但这种方法在实际操作中存在挑战,用于评估计划的模型并不参与制定计划。在此我们提出“想象力编码器(Imagination-basedPlanner)”,首个可制定、评估及实施计划的,基于模型的,可作出序列决策的智能体。在采取任何行动之前,它能够做出一系列想象的步骤,包括提出一个想象的行动,并利用其基于模型的想象来对此行动做出评估。所有想象出来的行为和结果都被以迭代的方式集合为“plan context”,对未来的想象出来的及实际的行动进行调节。这一智能体甚至能够决定想象的方式:测试不同的想象出来的行动,将一系列的行动连接起来,利用学到的策略在想象出来的状态中灵活选择来建立一个更为复杂的“想象树”。该智能体还能做出更经济、高效的计划,利用其想象来基于外部奖励及计算成本进行优化。这一架构能够学会解决连续控制问题,还能够学会详述自己在非连续解谜任务中所采取的计划策略。我们这一工作为学习和使用基于模型计划系统提供了新的方向。

想象增强智能体

DeepMind 的博客首先解释了“想象力(Imagination)”这个概念:

人类认知很厉害的一点在于,在你采取行动前,已经能想象出行动的结果。比如要在一张桌子的边上放一个玻璃杯子,我们很可能会停下来想一想,放得稳不稳?会不会掉下来?基于想象的结果,我们就会做出调整,防止杯子掉下来摔碎。这种审慎的推理基本上就是我们要说的“想象力”(Imagination)。我们的这种能力对每天的日常生活至关重要。

如果想让算法也能执行同样复杂的行为,它就必须也具有“想象力”,能够对未来进行推理,另外,还必须会用这种能力来制定计划。

已经有算法能够做到这一点了,比如 AlphaGo 就能利用内部模型(internal model)来分析行为将产生的结果,从而实现推理和计划。但这些模型之所以运行良好,是因为像围棋这样的运行环境是“完美”的,具有明确定义的规则,在几乎所有情况下都能准确预测结果。

然而,真实的世界是复杂的,规则的定义没有那么明确,不可预知的问题会经常出现。即使对于最智慧的智能体来说,在这些复杂的环境下进行“想象”都会是一个耗时、耗资源的过程。

DeepMind 在此介绍的智能体受益于“想象编码器(Imagination encoder)”—一种能为智能体的决策学习抽取一切有用信息并忽略掉无关信息的神经网络,这些智能体有如下显著特征:

  • 它们能够学习阐释其内部模拟过程。这使得它们可以使用粗略捕捉环境动态的模型,即使这些动态并不完美;
  • 它们能够高效地使用其想象力,这一点可以通过调整想象出的问题解决途径(trajectory)的数量来完成。编码器也增强了效率,能够通过想象抽取额外信息,而不单单依靠rewards。这些想象的途径可能含有有用的线索,即使其未必引发较高的奖励。
  • 它们能够学习不同的制定计划的策略,可以在继续当前想象的途径和从头开始之间做出选择。或者,可以利用精度和计算成本不同的想象模型。这提供了大量的、高效的规划策略,而不是在不完美环境中会受到限制的单一方法。

两款游戏成为测试智能体能力的绝佳环境

在多个不同游戏上,DeepMind 对该架构进行了测试,包括解密游戏Sokoban(推箱子)和宇宙飞船航行游戏。这两款游戏都需要提前计划和推理,这使得它们成为了测试智能体能力的绝佳环境。

在推箱子游戏里,智能体必须把箱子推到目标点。箱子只能被推,许多移动都不可逆(例如,箱子一旦被推入角落,就无法再拉出)。

在宇宙飞船游戏中,智能体需要点燃推进器来,而可以这么做的次数也是有限制的,必须与几个星球的引力相抗衡,这是一个复杂的非线性连续调节任务。

为了限制这两个任务的试错,智能体在失败后是不能重玩的。这就“逼迫”智能体在采取行动之前,先要想象不同策略带来的结果。

上图,DeepMind 可视化了特定时间点上智能体对5 种可能性的想象。根据这些信息,智能体决定采取什么行动。相应的轨迹在图中已经标明。

上图为智能体在进行宇宙飞船航行游戏。红线表示执行的轨迹操作,蓝线和绿线描述了智能体想象的轨迹。

两种任务中,想象增强的智能体的表现都优于作为基准的无想象智能体:它们可以通过更少的经验来学习,并且能够处理环境建模的缺陷。智能体能够从内部模拟中提取更多知识,因此可以用更少的想象步骤解决更多的任务,这优于传统的搜索方法,比如蒙特卡罗树搜索。

加入一个用于制定计划的组件后,智能体会学习用更少的步骤更高效地实现目标。在宇宙飞船任务中,它可以分辨环境中的引力强弱,这意味着想象的步骤数量不同。当为环境中的智能体提供多个模型时,每个模型的质量和成本都不同,它学会了做出有意义的权衡。最后,每执行一步,想象的计算成本都会增加,所以智能体会在一开始就想象出多个步骤的结果,并利用这些想象的结果做出行动。

原文地址:https://deepmind.com/blog/agents-imagine-and-plan/

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2017-07-30

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

IEEE特稿:神经形态芯片注定为深度学习而生,否则就是自取灭亡

【新智元导读】研究者声称神经形态芯片相比传统的CPU,耗能更小。但现在的问题是,研究者需要证明,神经形态芯片能够从研究实验室转移到商业应用中吗。用航空业打比方的...

4147
来自专栏大数据挖掘DT机器学习

微博推荐算法如何设计

在介绍微博推荐算法之前,我们先聊一聊推荐系统和推荐算法。有这样一些问题:推荐系统适用哪些场景?用来解决什么问题、具有怎样的价值?效果如何衡量? 推荐系统诞生很早...

62312
来自专栏腾讯云技术沙龙

郭律: 论机器学习平台与人工智能的关系

众所周知,现阶段的人工智能特别热门,研究人员也都想进入到这一领域,人工智能究竟是什么?我们有一个形象的比喻来说明什么叫做人工智能。

3734
来自专栏Python中文社区

数据挖掘入门与提升,从点数据到网络数据

提到社交网络分析,推荐系统、风控模型这些名词,相信你并不陌生,社交网络分析无非是 Pandas+Matplotlib,推荐系统大概率是余弦相似性、协同过滤,风控...

1072
来自专栏MixLab科技+设计实验室

AI与设计:技术思维与设计思维的mix

最近在思考一些机器学习给设计带来的思维转变,还有对交互设计的影响,本文把一些读书笔记,及感想总结而成,主要是涉及AI技术、技术思维、设计思维、设计工具、用户体验...

1343
来自专栏AI科技评论

开发 | Kaldi集成TensorFlow,两个开源社区终于要一起玩耍了

AI科技评论按:自动语音识别(Automatic speech recognition,ASR)领域被广泛使用的开源语音识别工具包 Kaldi 现在也集成了Te...

5956
来自专栏PaddlePaddle

知名深度学习框架的典型应用案例一览

TensorFlow在谷歌系的产品中应用非常多,比如Gmail, Google Play Recommendation, Search, Translate, ...

1405
来自专栏about云

数据挖掘快速入门

问题导读 1.什么是数据挖掘? 2.机器学习 与 数据挖掘在什么地方? 3.数据挖掘能解决什么问题? 1 数据挖掘 数据挖掘(Data Mining,简...

3628
来自专栏机器之心

前沿 | 物理学家提出新算法:将量子机器学习扩展到无限维度

选自phys.org 作者:Lisa Zyga 机器之心编译 参与:吴攀、李亚洲 物理学家已经开发出了一种可以处理无限维度(infinite dimensio...

2908
来自专栏AI研习社

数据科学、机器学习、人工智能,都有哪些区别?

当我向别人介绍我是数据科学家时,我常常被问到“数据科学和机器学习有什么区别”或者“这是否意味着你在从事人工智能工作?”类似问题我已经回答过很多次,答案可以总结成...

3959

扫码关注云+社区

领取腾讯云代金券