翻译:Ethon
强化学习旨在研究如何改善人工代理(agent)的决策过程,该技术近年发展的非常迅速。
对于强化学习,代理在观察一系列输入(如图像)的同时,会做出相应决策(如运动指令),有时当达成某项目标时还会受到奖励。
非模型的强化学习,旨在通过输入信息直接预测出最优的行为。如DeepMind的DQN,其可以以极其高超的水平玩Atari游戏或者通过代理来控制机器人。但是,这种技术完全是黑箱操作,且训练非常耗时,限制了其应用。
而基于模型的强化学习技术,则尝试让代理学习现实世界是如何运行的。这就允许代理可以提前进行“计划”,并通过“思考”长期的目标而选择更谨慎的行动。基于模型的强化学习技术取得了一系列的成功,比如AlphaGo,可以按照游戏规则虚拟的进行一系列落子。
但是,如果是在陌生环境中进行决策,那么代理虚需要从经验中学习规则或动机。因为,这种动态模型可以实现更高的效率和多任务学习,其创造出模型也具备足够的精度实现成功的决策。而这点,正是强化学习的长期目标。
为了促进这项研究挑战,我们和DeepMind合作,提出了PlaNet(Deep Planning Network)代理。它可以通过图像输入来学习“现实世界”的模型,并利用规则来进行成功的决策。PlaNet可以解决各种各样基于图像的控制任务,就最终的性能而言,其比那些基于非模型的代理的数据效率平均要高50倍。
PlaNet 如何工作
简而言之,PlaNet通过输入的图像来学习一个动态的模型,在利用模型进行高效的决策并进一步获取经验。与以前的图像规划方法不同,我们依赖于隐藏或潜在状态的紧凑序列。这被称为潜在动态模型(Latent Dynamics Model):不同于一个接一个图像的进行预测,我们对未来的潜在状态进行预测。那么,每一步的图像和将来就由对应的潜在状态产生。通过这样压缩图像集,代理可以自动的学习更多的抽象概念(比如物体的位移和速度),这使得代理可以更加容易的进行预测,而不是非要获取沿程的图像。
已训练的隐藏动态模型:输入图像的信息通过自编码网络集成到隐藏层(绿色)中。然后将隐藏层在时序上进行映射,并预测未来的图像(蓝色梯形)和奖励(蓝色方块)。
为了训练一个准确的隐藏动态模型,我们引入了:
虽然预测未来的图像可以使我们对模型进行训练,但编码和解码图像(上图中的梯形)需要大量的计算,这会减慢决策过程。但是,在紧凑的隐藏状态空间中规划非常迅速,因为我们只需要预测未来的奖励,而不是图像,来评估一个动作序列。
例如,代理可以想象球的位置和它到目标的距离在特定的动作中将如何变化,而不需要可视化场景。这允许我们在每次代理选择一个动作时,将10,000个想象的动作序列与一个大的批处理大小进行比较。然后执行找到的最佳序列的第一个操作,并在下一步重新计划。
隐藏空间规划:对于规划,我们将过去的图像(灰色梯形)编码为当前的隐藏状态(绿色)。从这里,我们可以有效地预测多个动作序列的预期奖励。然后执行找到的最佳序列的第一个操作(红框)。请注意,上图中低效的图像解码器(蓝色梯形)是如何消失的。
与我们之前关于世界模型(World Model)的工作相比,PlaNet的工作没有政策网络—它纯粹通过计划来选择行动,因此它可以从模型的当场改进中获益。
PlaNet Vs 非模型方法
我们将评估PlaNet在连续控制任务上的表现,代理将只有图像和奖励作为输入。我们在任务中提出了各种不同的挑战:
PlaNet代理接受了各种基于图像的控制任务的训练。动画显示了当代理解决任务时输入的图像。这些任务提出了不同的挑战:部分可观察性,与地面接触,接球的稀疏奖励,以及控制一个具有挑战性的两足机器人。
本项目提出了一个应用实例,证明了在基于图像的任务中,基于可学习模型的决策要由于非模型方法。下表将PlaNet与著名的A3C代理和D4PG代理进行了比较,后者结合了无模型RL的最新进展。这些对比数据来自DeepMind控制套件。PlaNet在所有任务上都明显优于A3C,最终性能接近D4PG,而与环境的交互平均减少了5000%。
所有任务只有一个代理
此外,我们训练一个单一的PlaNet代理来解决所有的六个任务。agent在不知道任务的情况下被随机放置在不同的环境中,因此需要通过图像观察来推断任务。在不改变超参数的情况下,多任务代理实现了与单个代理相同的平均性能。虽然在侧手翻任务中学习速度较慢,但在需要探索的具有挑战性的步行任务中,它的学习速度要快得多,最终表现也更好。
PlaNet代理在多个任务视频上的训练。代理观察前5个帧作为上下文来推断任务和状态,并在给定操作序列的情况下提前准确地预测50个步骤。
结 论
我们的研究展示了可用于构建自主RL代理的隐藏动态模型的应用可行性。未来,我们会进行更深入的研究,并致力于解决更具挑战性的任务,如在三维环境中建模以及现实的机器人任务。
我们对基于模型的强化学习带来的可能性感到兴奋,包括多任务学习、分层规划和使用不确定性估计的主动探索。
原文地址:
https://ai.googleblog.com/2019/02/introducing-planet-deep-planning.html