【2天=100年】OpenAI用打Dota2的算法造了一只会转方块的机器手

新智元

发布于 2018-08-01 11:20:18

8560

文章被收录于专栏：新智元新智元

新智元推荐

来源：OpenAI Blog

新智元编辑部

【新智元导读】之前在DOTA2团队战中战胜人类玩家的OpenAI Five，现在被用于训练机器手，取得了前所未有的灵活度。这只机器手完全在虚拟环境中自我学习和训练，然后成功迁移到现实世界解决实际问题。OpenAI使用6144个CPU和8个GPU来训练，50小时内收集了大约100年的经验。

博客和论文地址：

https://blog.openai.com/learning-dexterity

https://d4mucfpksywv.cloudfront.net/research-covers/learning-dexterity/learning-dexterity-paper.pdf

还记得OpenAI那个在DOTA2有限制5v5团战中战胜人类玩家的OpenAI Five吗？

这次，OpenAI的研究人员将同样的算法和同样的代码用在了训练机器手上，所得到的机器手能以前所未有的灵活度操纵立方体、圆柱体等物体。

Dactyl自主学习的灵巧操作行为

这个系统名为Dactyl，与其他机器人系统不同的地方在于，它完全在模拟环境中进行训练，并将其虚拟世界中得到的知识转化为现实，并且适应现实世界的物理学。所有的行为都是自主发现的。

研究人员表示，他们的结果表明，完全可以在纯模拟环境中训练智能体，无需对现实世界进行精确的物理建模（一项极端复杂且浩大的工程），就能让智能体解决实际的任务。

虽然 Dactyl 机器手跟人手相比仍有一定距离，但这项工作表明，机器学习有可能解锁机器新的能力——将来，AI完全可以在虚拟世界中自己教自己新的技能，大大加快学习速度，然后转移至物理世界。

OpenAI还在这次研究中发现了一些令他们感到意外的结果：

首先，触觉感应对于操纵现实世界物体并不是必要的。Dactyl 机器手操纵只接收五个指尖的位置以及立方体的位置和方向。有限的传感器可以获得更好的性能，因为这些传感器可以在模拟器中有效建模，由很多传感器组成的传感器组建模起来非常复杂。

其次，为一个对象开发的随机化（Randomizations）也能推广到具有类似属性的其他对象身上。在玩转立方体后，OpenAI的研究人员打印了一个八角棱镜，结果 Dactyl 机器手仅使用他们为立方体设计的随机化就实现了高的性能。不过，操纵球体还略有难度，可能是因为他们没有随机化模拟滚动行为的参数。

此外，对于现实世界的机器人来说，要让运作性能高，好的系统工程与好的算法同等重要。

减少反应时间并没有改善性能。传统观点认为，减少动作之间的时间应该可以提高性能，因为状态之间的变化更小，因此更容易预测。但实验中，研究人员将机器手动作之间的时间减少到 40ms，训练时间反而变长，而且没有显著改善其在现实世界中的性能。他们得出的结论是，这种经验法则可能适用于线性模型，但可能不太适用于神经网络模型。

最后，使用真实数据来训练结果不一定更好。与模拟数据相比，真实数据有很明显的缺点，比如跟踪标记的位置信息有延迟和测量误差。更糟糕的是，实际配置的更改很容易让实际数据变得无效，而且收集足够多、足够有用的数据十分困难。最终 Dactyl 机器手的视觉模型，是在没有任何实际数据的情况下完成的。

机器手灵活控制物体有四大难点，一直未取得重大突破

Dactyl是一个使用Shadow Dexterous Hand操纵目标的系统。我们将一个木块或棱镜这样的物体放在Dactyl的手掌中，让Dactyl将其重新定位至不同的方向;比如旋转木块，让其新的一面朝上。网络仅负责观察指尖的坐标以及来自三个普通RGB相机的图像。

虽然第一个拟人化的机器手早在几十年前就出现了，但如何利用这些手有效地操纵物体，一直是机器人控制领域内的长期挑战。与运动之类的其他问题不同，人们在利用传统机器人方法实施灵巧的操作方面的进展一直很缓慢，并且当前的技术在操纵现实世界中的物体上仍然存在局限性。

要对机器手中的物体实施重新定向，需要解决以下问题：

在现实世界中奏效。强化学习在模拟和视频游戏中取得了许多成功，但在现实世界中取得的成果却相对有限。我们在真实的机器人身上对Dactyl进行了测试。
高维控制。Shadow Dexterous Hand的自由度为24，而一般的机器人手臂的自由度为7。
噪音和观察部分目标。 Dactyl是在真实世界中工作，因此必须处理噪声和延迟的传感器数据。当指尖的传感器被其他手指或物体遮挡时，Dactyl必须能够处理不完整信息。像摩擦和滑动等物理体系中的许多组成部分，是无法直接通过观察得到的，必须由推理得出。
操纵多个对象。 Dactyl在设计上的高灵活性，足以重新定向多个目标。也就是说，我们的方法不能使用仅适用于特定形状目标的策略。

无需任何人工输入：领域随机化，再现模拟奇迹！

Dactyl完全是在模拟环境中学习如何解决目标重定向任务（object reorientation task）的，无需任何的人工输入。在此训练阶段之后，学习策略会在没有任何微调的情况下对真实机器人起一定作用。

Dactyl在测试中达到最大50个连续旋转，实时视频

在操纵机器人的学习方法方面，通常会面临一个两难的选择。模拟的机器人可以轻松提供充足的数据来训练复杂的策略，但是大多数操作问题都无法准确地建模，从而无法使这些策略转移到真实机器人身上。即使是对两个物体接触时发生的情况进行建模（这是操作中最基本的问题）也是一个活跃的研究领域，并且目前没有广泛统一且接受的解决方案。直接在物理机器人上展开训练可以让策略从现实世界物理层面进行学习，但现今的算法需要多年的经验才能解决类似对象重定向这样的问题。

而领域随机化（domain randomization）是在模拟中进行学习的，旨在提供各种经验而不是将现实进行最大化。这种思路提供了最好的两种方法：在模拟中学习，可以通过扩展来快速收集更多的经验；不强调现实主义，可以解决模拟器只能近似模拟的问题。

利用MuJoCo物理引擎构建机器人系统的模拟版本。这个模拟仅仅是真实机器人的粗略近似:

对摩擦、阻尼和滚动阻力等物理属性进行测量是既麻烦又困难的。随着机器人的磨损，这些属性也会随时间而改变。
MuJoCo是一个刚体模拟器，这意味着它不能模拟手指上或肌腱的拉伸时的可变形橡胶。
机器人只能通过反复接触来操纵物体。然而，众所周知，接触力难以在模拟中准确地再现。

通过校准其参数来匹配机器人的行为，可以使模拟更加逼真，但在目前的模拟器中，许多这样的效果是无法精确建模的。

相反，该方法是在模拟环境的分布上对策略进行训练，其中物理和视觉属性是随机选择的。随机值是表示物理系统不确定性的一种自然方法，它还可以防止对单个模拟环境的过度拟合。如果策略可以在所有模拟环境中完成任务，则更有可能在现实世界中完成该任务。

6144个CPU和8个GPU，50小时内收集大约100年的经验

学习控制

通过构建支持迁移的模拟，我们减轻了在现实世界中控制机器人来完成模拟任务的困难，这是一个非常适合强化学习的问题。虽然用一只模拟的手来操纵物体这个任务已经有些困难，但是要在所有随机物理参数组合中学习进行这样的操作实际上要更加困难。

为了在不同环境中进行推广（generalize），策略可以在具有不同动态的环境中执行不同的操作。由于大多数动力学参数不能从单个观测中推断出来，所以我们使用LSTM（一种具有记忆的神经网络）使网络能够了解环境的动态。LSTM在模拟中实现的旋转大约两倍于不具有记忆的策略的旋转。

Dactyl使用Rapid学习，这是一个强化学习训练系统，之前解决了Dota2的OpenAI Five使用的也是它。我们使用了与OpenAI Five不同的模型架构、环境和超参数，但是使用的算法和训练代码是完全相同的。Rapid使用6144个CPU内核和8个GPU来训练我们的策略，在50小时内收集了大约100年的经验。

为了进行开发和测试，我们使用嵌入式运动跟踪传感器来验证我们的控制策略，以分别了解控制策略和视觉网络的性能。

学习观察

Dactyl的设计目的是能够操纵任意物体，而不仅仅是为了支持跟踪进行过特殊修改的物体。因此，Dactyl使用常规的RGB相机图像来估计物体的位置和方向。

我们使用卷积神经网络训练一个姿态估计器（pose estimator）。神经网络从机器手周围的三个摄像机中获取视频流，并输出目标的预估位置和方向。我们使用多台摄像机来解决模糊和遮挡问题。我们再次使用Unity游戏开发平台，仅在模拟中使用域随机化来训练这个网络，该平台可以模拟比Mujoco更广泛的视觉现象。

控制网络（control network）根据对象的姿态重新定位，视觉网络（vision network）将图像从摄像机映射到对象的姿态，通过结合这两个独立的网络，Dactyl可以通过观察来操纵对象。