PlaNet:一种用于强化学习的深度规划网络

用户7623498

发布于 2020-08-04 11:38:42

7340

发布于 2020-08-04 11:38:42

文章被收录于专栏：决策智能与机器学习

翻译：Ethon

强化学习旨在研究如何改善人工代理（agent）的决策过程，该技术近年发展的非常迅速。

对于强化学习，代理在观察一系列输入（如图像）的同时，会做出相应决策（如运动指令），有时当达成某项目标时还会受到奖励。

非模型的强化学习，旨在通过输入信息直接预测出最优的行为。如DeepMind的DQN，其可以以极其高超的水平玩Atari游戏或者通过代理来控制机器人。但是，这种技术完全是黑箱操作，且训练非常耗时，限制了其应用。

而基于模型的强化学习技术，则尝试让代理学习现实世界是如何运行的。这就允许代理可以提前进行“计划”，并通过“思考”长期的目标而选择更谨慎的行动。基于模型的强化学习技术取得了一系列的成功，比如AlphaGo，可以按照游戏规则虚拟的进行一系列落子。

但是，如果是在陌生环境中进行决策，那么代理虚需要从经验中学习规则或动机。因为，这种动态模型可以实现更高的效率和多任务学习，其创造出模型也具备足够的精度实现成功的决策。而这点，正是强化学习的长期目标。

为了促进这项研究挑战，我们和DeepMind合作，提出了PlaNet（Deep Planning Network）代理。它可以通过图像输入来学习“现实世界”的模型，并利用规则来进行成功的决策。PlaNet可以解决各种各样基于图像的控制任务，就最终的性能而言，其比那些基于非模型的代理的数据效率平均要高50倍。

PlaNet 如何工作

简而言之，PlaNet通过输入的图像来学习一个动态的模型，在利用模型进行高效的决策并进一步获取经验。与以前的图像规划方法不同，我们依赖于隐藏或潜在状态的紧凑序列。这被称为潜在动态模型（Latent Dynamics Model）：不同于一个接一个图像的进行预测，我们对未来的潜在状态进行预测。那么，每一步的图像和将来就由对应的潜在状态产生。通过这样压缩图像集，代理可以自动的学习更多的抽象概念（比如物体的位移和速度），这使得代理可以更加容易的进行预测，而不是非要获取沿程的图像。

已训练的隐藏动态模型：输入图像的信息通过自编码网络集成到隐藏层（绿色）中。然后将隐藏层在时序上进行映射，并预测未来的图像（蓝色梯形）和奖励（蓝色方块）。

为了训练一个准确的隐藏动态模型，我们引入了：

循环状态空间模型： 隐藏动态模型同时包含确定性的和统计性的分量，这允许其对可靠决策所需的各种可能的条件进行预测，同时对过往的信息进行记忆。试验表明这两种分量对于高效的预测都非常重要。
潜在超调目标: 通过在隐藏空间（Latent State）中加强单步预测和多步预测的一致性，我们将隐藏动态模型的标准训练目标函数推广到多步预测训练中。从而生生了一个快速和有效的目标函数，改善了长期预测效果，并与任何隐藏序列模型兼容。

虽然预测未来的图像可以使我们对模型进行训练，但编码和解码图像(上图中的梯形)需要大量的计算，这会减慢决策过程。但是，在紧凑的隐藏状态空间中规划非常迅速，因为我们只需要预测未来的奖励，而不是图像，来评估一个动作序列。

例如，代理可以想象球的位置和它到目标的距离在特定的动作中将如何变化，而不需要可视化场景。这允许我们在每次代理选择一个动作时，将10,000个想象的动作序列与一个大的批处理大小进行比较。然后执行找到的最佳序列的第一个操作，并在下一步重新计划。

隐藏空间规划:对于规划，我们将过去的图像(灰色梯形)编码为当前的隐藏状态(绿色)。从这里，我们可以有效地预测多个动作序列的预期奖励。然后执行找到的最佳序列的第一个操作(红框)。请注意，上图中低效的图像解码器(蓝色梯形)是如何消失的。

与我们之前关于世界模型（World Model）的工作相比，PlaNet的工作没有政策网络—它纯粹通过计划来选择行动，因此它可以从模型的当场改进中获益。

PlaNet Vs 非模型方法

我们将评估PlaNet在连续控制任务上的表现，代理将只有图像和奖励作为输入。我们在任务中提出了各种不同的挑战:

立摆任务，用一个固定的摄像头，这样小推车就可以移动到视线之外。因此，代理必须在多个框架中学习和记住信息。
手指旋转任务，需要预测两个独立的物体，以及它们之间的相互作用。
猎豹执行一项任务，该任务要考虑与地面的接触，这很难精确预测，因此需要一种能够预测多种可能的模型。
Cup任务，它只在球被捕获时提供一个稀疏的奖励信号。这就需要对未来进行准确的预测，从而制定出精确的行动序列。
行走任务，模拟机器人首先要躺在地上，然后必须先学会站立，然后才能行走。

PlaNet代理接受了各种基于图像的控制任务的训练。动画显示了当代理解决任务时输入的图像。这些任务提出了不同的挑战:部分可观察性，与地面接触，接球的稀疏奖励，以及控制一个具有挑战性的两足机器人。

本项目提出了一个应用实例，证明了在基于图像的任务中，基于可学习模型的决策要由于非模型方法。下表将PlaNet与著名的A3C代理和D4PG代理进行了比较，后者结合了无模型RL的最新进展。这些对比数据来自DeepMind控制套件。PlaNet在所有任务上都明显优于A3C，最终性能接近D4PG，而与环境的交互平均减少了5000%。

所有任务只有一个代理

此外，我们训练一个单一的PlaNet代理来解决所有的六个任务。agent在不知道任务的情况下被随机放置在不同的环境中，因此需要通过图像观察来推断任务。在不改变超参数的情况下，多任务代理实现了与单个代理相同的平均性能。虽然在侧手翻任务中学习速度较慢，但在需要探索的具有挑战性的步行任务中，它的学习速度要快得多，最终表现也更好。