加州大学伯克利分校研究人员开源RAD来改进强化学习算法

代码医生工作室

发布于 2020-06-16 15:22:08

8210

发布于 2020-06-16 15:22:08

文章被收录于专栏：相约机器人相约机器人

作者 | Michael Laskin、Kimin Lee、Adam Stooke、Lerrel Pinto、Pieter Abbeel、

Aravind Srinivas

译者 | 许学文

在第一次将图像增强应用在强化学习（RL）领域时，研究人员就得到了令人惊讶的结果，在 DeepMind 控制套件和基于 OpenAI ProcGen 环境的测试泛化能力上，对简单的 RL 算法仅数据增强这一项就可以让数据效率达到先进水平。

从视觉观察结果中学习是强化学习（RL）中的一个基本但有挑战性的问题。尽管算法的进步与卷积神经网络相结合已被证明是成功的秘诀，但当前的方法仍在两个方面有缺陷：

1、学习样本的效率

2、对新环境的泛化能力

为此，我们提出了 RAD：使用增强数据进行强化学习，这是一个简单的即插即用模块，可以增强任何 RL 算法。结果表明，在通用基准测试中，诸如随机裁切、颜色抖动、色块切除和随机卷积之类的数据增强可以使简单的 RL 算法在数据效率、泛化能力和处理速度方面，达到甚至超过复杂的前沿技术的表现。同时我们发现，仅数据多样性这一项就可以使 Agent 将注意力集中在来自高维观测的有意义的信息上，而无需对强化学习方法做任何更改。在 DeepMind 控制套件的 15 个环境中，我们证明了 RAD 在数据效率和性能方面都是最先进的。在几个 OpenAI ProcGen 基准上我们进一步证明了 RAD 可以显著提高测试时泛化能力。最后，在处理速度方面，我们定制的数据增强模块会比其他强化学习技术竞品更快。

项目地址：https://github.com/MishaLaskin/rad

实现方法

在论文中，我们展示了数据增强在使用或不使用策略的情况下是如何提高标准 RL 算法的性能和泛化能力的。在 DeepMind 控制套件上，我们将数据增强和 Soft Actor Critic（SAC）算法结合实现任务处理，并与 PPO 算法结合用于 ProcGen 环境。我们的方法没有改变基础 RL 管道，只是增强了基础数据。

结论

1、RAD 是最先进的算法，在大多数（5/6）的通用基准环境，包括 DMControl100k 和 DMControl500k 基准测试中，RAD 的效率都能达到甚至超过 CURL、Dreamer、PlaNet、SLAC、SAC+AE和 Pixel SAC 的表现。

2、在大多数（11/15）DeepMind 控制算法上，RAD 能快速达到其基础性能水平。在数据效率方面，它可以和当前最先进的算法 CURL 相媲美，甚至更优秀。下图展示了 RAD、CURL 和 Sate SAC 在数据效率纬度的对比：

3、在 DeepMind 控制套件上，通过单一方式增强数据后，随机裁剪相对于其他所有方式对最终性能的影响效果最为明显。在 500k 步数环境中，我们将 6 种常规的数据增强方式进行排列组合，对行人分别做了步行的性能测量，结果如下图：

4、RAD 在 ProcGen 环境 (如 BigFish 和 StarPilot) 上实现了最先进的测试时泛化能力。同时在 BigFish 环境中基于随机裁剪方式实现的 RAD 相对于基于像素的 PPO 算法可获得 55.8% 的增益。

5、无论是在 BigFish 环境还是在 StarPilot 环境，RAD 接受 100 次训练达到的水平都比基于像素的 PPO 算法接受 200 次训练达到的水平还要高，下图展示了训练结果：

6、在需要结构化泛化（例如：适应新的地图布局）的环境（例如：Jumper 和 CoinRun）中，随机裁剪的数据增强方式会失败。但是颜色增强（例如：随机卷积和颜色抖动）在类似 CoinRun 的环境上依然可以增强测试时性能，如下图所示：

为什么随机裁剪数据增强方式如此高效？

为了弄清楚为什么随机裁剪能在 DeepMind 控制套件上表现得如此优秀，我们分别观察了在使用各种各样的数据增强和没有使用数据增强策略时，通过卷积编码器处理的空间注意力图。我们注意到，在 DeepMind 控制套件上，相对于其他数据增强方式，随机裁剪不仅可以帮助编码器更准确的定位 Agent，而且更可靠。具体来说，当其他的增强方式将注意力放在干扰物上（例如：背景图上的星星）或者 Agent 状态捕获失败时，使用随机裁剪学习的策略可以快速可靠地从图像帧中提取出 Agent。这表明，空间观察抖动（spatial observation jittering）有助于提升基本 Agent 发展偶然事件感知能力（contigency awareness）。