DeepMind推出控制套件:为强化学习智能体提供性能基准

原文来源:arxiv

作者:Yuval Tassa, Yotam Doron, Alistair Muldal, Tom Erez,Yazhe Li, Diego de Las Casas, David Budden, Abbas Abdolmaleki, Josh Merel,Andrew Lefrancq, Timothy Lillicrap, Martin Riedmiller

「雷克世界」编译:嗯~阿童木呀、KABUDA

DeepMind Control Suite是一组连续的控制任务,具有标准化的结构和可解释性的奖励,旨在作为强化学习智能体的性能基准。这些任务是用Python编写的,由MuJoCo物理引擎驱动,从而使得它们易于使用和修改。我们这里涵盖了几个学习算法的基准。你如果对这方面比较感兴趣,可以在github.com/deepmind/dm_control上获得公开的控制套件(Control Suite),而所有任务的相关视频总结等可在youtu.be/rAai4QzcYbs上获得。

可以这样说,控制物质世界是通用智能一个不可分割的组成部分,也可以说是通用智能的一个先决条件。事实上,唯一已知的通用智能的例子就是灵长类动物,他们操纵这个世界已经有数百万年的时间了。

基准测试领域。顶端:机器人、球杯、卡杆、猎豹、,手指、鱼、单足跳者。底部:人形机器人、操纵器、钟摆、质点、Reacher、游泳运动员(6和15个连接点)、行走者。

物理控制任务有许多共同的属性,而且,将它们视为一类独特的行为问题是一种明智的选择。与棋盘游戏、语言和其他符号域不同的是,物理任务在状态、时间和行为上是基本连续的。它们的动力学受二阶运动方程的影响,而这意味着基础状态是由类似位置和类速度的变量组成的,而状态导数则类似于加速度。感官信号(Sensory signals)(即观察)通常携带有意义的物理单位,并且在相应的时间尺度上发生变化。

在这十年中,在诸如视频游戏这样的困难问题领域中,强化学习(RL)技术的应用取得了快速的进展。Arcade学习环境(Arcade Learning Environment,ALE,Bellemare 等人于2012年提出)是这些发展的重要促进因素,为评估和比较学习算法提供了一套标准基准。 DeepMind Control Suite为连续控制问题提供了一组类似的标准基准。

OpenAI Gym(Brockman等人于2016年提出)目前包括一组连续控制域,而且已经成为连续强化学习实际上的基准(Duan 等人于2016年、Henderson等人于2017年提出)。Control Suite也是一组任务,用于对连续的强化学习算法进行基准测试,其中存在着一些显著的差异。我们只专注于连续控制,例如将观察值与相似的单位(位置、速度、力等)分离,而不是将其连接成一个向量。我们统一的奖励结构提供了具有可解释性的学习曲线和综合性适用范围的性能度量。此外,我们强调使用统一设计模式的高质量的完整代码,提供可读、透明和易于扩展的代码库。最后,Control Suite与Gym一样,里面都有相同的域,而且同时增加了更多的域。

DeepMind控制套件是强化学习算法(基于物理控制)的设计和性能比较的起点。它提供了各种各样的任务(从几乎微不足道的任务到相当困难的任务)。统一的奖励结构可以实现对套件整体性能的评估。

Control Suite中所有任务的标注为数据(第一列)和挂钟时间(第二列)对比的平均返回值。 第一行显示使用低维特征作为输入的任务中的A3C、DDPG和D4PG的性能表现。第二行显示了D4PG在仅使用原始像素作为输入的任务上的性能表现。

这里展示的A3C、DDP和D4pg的结果组成的基线,是通过运用我们提出的理论,对这些算法进行良好的执行得到的。同时,我们强调,学习曲线不是基于穷举的超参数优化,并且对于给定的算法,在控制套件的所有任务中都使用相同的超参数。因此,我们期望能够获得更好的性能或数据效率,特别是在每个任务的基础上。

我们很乐意与更多的社区分享控制套件,并且希望有更多人能够注意到它的作用,我们期待着能够对套件进行多样化研究,并将社区所做出的贡献整合到未来发布的版本中。

未来研究方向

对于Control Suite的当前版本来说,里面还缺少一些元素。

有一些特征,比如缺乏丰富的任务,这是在设计中没有考虑到的。该套件,尤其是基准测试任务,旨在成为一个稳定、简单的学习控制起点。像复杂地形中的完全操纵和运动的任务类别需要对任务和模型的分布进行推理,而不仅仅是对初始状态进行操作。而所有这些都需要更为强大的工具,我们希望未来在不同的分支机构中能够进行共享。

以下几个特性并没有包含在当前发布的版本中,但我们打算在将来的版本中将其添加在内。 它们包括:一个四足行走的动作任务;一个交互式的可视化程序,用其便可以查看和扰乱模拟;支持C回调和多线程动态;MuJoCo TensorFlow封装器和Windows支持。

dm_control: DeepMind控制套件和控制包

此软件包含:

•一套由MuJoCo物理引擎驱动的Python强化学习环境。

•为Mujoco物理引擎提供python绑定的库。

如果你使用此软件包,请引用我们随附的技术报告。

安装要求

请按照以下步骤安装DM_control:

1.从Mujoco网站的下载页面下载Mujoco pro1.50。必须在安装dm_contect之前安装mujoco pro,因为dm_contect的安装脚本由mujoco的头文件生成python ctypes绑定。默认情况下,dm_contect假定mujo COZIP归档文件被提取为~/.mujoCO/mjpro150。

2.通过运行pip install git + git://github.com/deepmind/dm_control.git(PyPI包即将推出)或通过复制存储库并运行pip install / path / to / dm_control /来安装dm_control Python包。在安装时,dm_control在〜/mujoco / mjpro150 / include中查找步骤1中的MuJoCo头文件,然而这个路径可以使用headers-dir命令行参数进行配置。

3.为mujoco安装一个许可密钥,该密钥在运行时由dm_controls命令。有关详细信息,请参阅Mujoco许可密钥页面。默认情况下,dm_contect在~/.mujoco/mjkey.txt处查找mujo co许可密钥文件。

4.如果在非默认路径上安装许可密钥(例如mjkey.txt)或mujocopro提供的共享库(例如libmujoco150.so或libmujoco150.dylib),则分别使用mjkey_jmpATH和libm path指定它们的位置。

关于macOS上的自制软件用户的其他说明

1.只要你使用的是由Homebrew安装的python解释器(而不是系统默认的解释器),那么以上使用pip的说明应该有效。

2.要使Open GL正常工作,请通过运行brew来安装GLFW,然后安装来自Homebrew的GLFW包。

3.在运行之前,需要使用GLFW库的路径更新DYLD_library_path环境变量。这可以通过运行export dyld_library_path=$(brew--prefix)/lib:$dyld_library_path来完成。

控制套件快速入门

from dm_control import suite

# Load one task:

env = suite.load(domain_name="cartpole", task_name="swingup")

# Iterate over a task set:

for domain_name, task_name in suite.BENCHMARKING:

env = suite.load(domain_name, task_name)

# Step through an episode and print out reward, discount and observation.

action_spec = env.action_spec()

time_step = env.reset()

while not time_step.last():

action_spec.maximum,

size=action_spec.shape)

time_step = env.step(action)

print(time_step.reward, time_step.discount, time_step.observation)

详情请参阅技术报告:https://github.com/deepmind/dm_control/blob/master/tech_report.pdf

以下是一个已解决的控制套件任务的相关视频(启用了奖励可视化功能)。

本文来自企鹅号 - 雷克世界媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

资源 | OpenAI开源机器人模拟Python库mujoco-py:可高效处理并行模拟

选自OpenAI 机器之心编译 参与:黄小天 OpenAI 宣布开源一个高性能的 Python 库,它可用于使用 MuJoCo 引擎(在上年的机器人研究中开发出...

40340
来自专栏玉树芝兰

如何用 R 快速了解科研领域?

用好 R 环境下的 BiblioShiny 软件包 ,可以让你在友好的图形化界面,快速扫描科研领域。

18340
来自专栏阮一峰的网络日志

信息机器Memex

1945年,一个美国科学家Vannevar Bush在《大西洋月刊》上发表了一篇文章《As We May Think》,提出一种信息机器的构想,就像下图中的样子...

392110
来自专栏ATYUN订阅号

2017最流行的十大Python库

年末是你需要思考过去一年的成就的时候。对于程序员来说,这通常是回顾今年发布的或者最近流行的开源库,因为它们是解决特定问题的绝佳工具。 在过去的两个多年中,我们都...

45870
来自专栏阮一峰的网络日志

关于Slashdot

slashdot.org创办于1997年,是一个著名的科技新闻网站。它的稿件都是由读者投稿,编辑审核后发表。但是,真正有趣的部分却是它的读者留言。

9110
来自专栏Crossin的编程教室

用程序帮你炒股(2)

6月26日A股大跌,据估算市值蒸发4.5万亿。当日的领涨板块,你们感受一下: 银行 -4.66% 食品饮料 -6.94% 建筑装饰 -7.14% 有入市的...

47070
来自专栏大数据挖掘DT机器学习

数据挖掘知识点总结(Microsoft 关联规则分析算法)

前言 本篇继续我们的微软挖掘算法系列总结,前几篇我们分别介绍了:Microsoft决策树分析算法、Microsoft聚类分析算法、Microsoft Naive...

39360
来自专栏量子位

陈天奇团队发布NNVM编译器,性能优于MXNet,李沐撰文介绍

夏乙 若朴 编译整理 量子位 出品 | 公众号 QbitAI 亚马逊和华盛顿大学今天合作发布了开源的端到端深度学习编译器NNVM compiler。 先提醒一句...

50360
来自专栏腾讯移动品质中心TMQ的专栏

【Android场景化性能测试】UI流畅度篇

承接《Android场景化性能测试-方向与框架篇》,本篇详述UI流畅度的测试方法,重点在于获得流畅度SM数据之后,如何利用好。

89340
来自专栏数据科学与人工智能

【应用】从业务数据分析到机器学习应用的一次经历

本文通过一次完整的项目经历,从业务数据的分析开始,到产品优化建议,再到通过机器学习进行进一步的处理进行了比较完成的提炼。 腾讯电脑管家作为一款目前最流行的pc端...

13000

扫码关注云+社区

领取腾讯云代金券