还记得DeepMind那个会跑酷的AI吗?它打算用这套Python强化学习工具吊打OpenAI

还记得这个会跑酷的机器人吗?

5个多月前,DeepMind连发三篇强化学习论文,让机器人在仿真环境中自己就能学会灵活多变的各种动作,包括步行、跑动、跳跃、翻墙,等等。

视频内容

今天,DeepMind公布了这三篇论文中所用的强化学习控制套件dm_control,它是一套基于MuJoCo物理引擎的Python强化学习的开发环境,可以在一套标准化的架构上执行各种不同的强化学习任务,并使用可解释性奖励来评估强化学习算法的学习效果。

控制套件的GitHub代码库地址是:https://github.com/deepmind/dm_control

DeepMind还为该控制套件提供了一份完整的使用说明:

https://github.com/deepmind/dm_control/blob/master/tech_report.pdf

DeepMind说明文档的介绍

对于实体世界的控制,是通用智能的一个必备组分,甚至还可以说是先决条件。事实上,唯一已知的通用智能案例,就出现在业已操控世界数百万年之久的灵长类身上。

实体控制任务有着许多共通的特性,所以可以将其视为一大类独特的行为问题。不同于棋类游戏、语言或其他符号学领域,在状态、时间和行为的层面,实体任务从根本上就是连续的。其动力学遵循二阶运动方程,这就意味着其基本状态是由类似于位置和速度的变量所构成,而状态的导数则类似于加速度。感知信号(亦即观察)通常具备有意义的物理单位,并在相应的时间范围内随之变化。

2010年以来,强化学习(Reinforcement Learning)在电子游戏(Mnih, 2015)等难题上的应用取得了很大的进展。街机游戏学习环境(ALE,Bellemare et al. 2012)是这些进展的一个重要的推动因素,它为评估和比较这些学习算法提供了一套标准的衡量办法。对于连续控制的问题,DeepMind控制套件也在提供一套类似的标准。

在连续控制领域,拥有各种模拟环境的OpenAI Gym(Brockman等人,2016)已经成为此类连续强化学习算法(Duan等人,2016; Henderson等人,2017)事实上的标准。同样作为一系列连续强化学习的标准,DeepMind控制套件还有一些显著的差异。DeepMind专注于连续控制问题,例如,将观察与相似的单位分开(位置、速度、力等),而非把将它们连成一个向量。

我们统一封装的奖励结构可以提供可解释的学习曲线,并且汇总了全套算法的性能测量。此外,我们强调使用设计模式统一的高质量完整代码,同时提供可读性、透明性与可扩展性都很强的代码库。最后,DeepMind控制套件不仅拥有OpenAI Gym已有的各项环境,并且还增加了更多功能。

关于该套件的具体使用,DeepMind还专门上传了一段视频

视频内容

dm_control安装步骤及软件环境要求:

1. 从MuJoCo网站的下载页面下载MuJoCo Pro 1.50版本。注意:你必须在安装dm_control前安装好MuJoCo Pro,因为dm_control的安装脚本要根据MuJoCo的头文件生成Python Ctypes的绑定文件。默认情况下,dm_control会假定MuJoCo Zip文件将被提取到~/.mujoco/mjpro150文件夹。

2. 安装dm_control的Python包:可以运行pip命令“pip install git + git://github.com/deepmind/dm_control.git”(随后将推出PyPI);或直接克隆本代码库并执行“pip install /path/to/dm_control/”命令。在安装时, dm_control在~/.mujoco/mjpro150/include路径下查找步骤1中的MuJoCo头文件,你也可以用headers-dir命令行参数自定义该路径。

3. 在运行dm_control时,需要为MuJoCo安装许可证密钥。更为详细的信息,可参阅MuJoCo许可证密钥页面https://www.roboti.us/license.html。默认情况下,dm_control会在~/.mujoco/mjkey.txt路径下查找MuJoCo许可证密钥文件。

4. 如果将许可证密钥 (例如,mjkey.txt) 或MuJoCo Pro所提供的共享库(例如,libmujoco150.so或libmujoco150.dylib)安装到非默认路径,则需要分别使用MJKEY_PATH和MJLIB_PATH环境变量来指定其路径。

macOS用户使用Homebrew安装的有关说明:

1. 只要你是用Homebrew安装的Python解释器 (注意:不是系统默认的解释器),使用上述pip安装命令一般是可以正常工作的。

2. 使用OpenGL前,需要先通过“brew install glfw”命令从Homebrew安装glfw软件包。

3. 运行之前,需要先用GLFW库的路径来更新DYLD_LIBRARY_PATH环境变量,即运行命令“export DYLD_LIBRARY_PATH=$(brew --prefix)/lib:$DYLD_LIBRARY_PATH”。

dm_control快速开始代码:

更多使用细节,请查阅DeepMind所提供的说明文档:

https://github.com/deepmind/dm_control/blob/master/tech_report.pdf

你可以安装DeepMind这个dm_control试一试,看一看它比OpenAI的Gym到底强在哪里?

原文发布于微信公众号 - AI科技大本营(rgznai100)

原文发表时间:2018-01-03

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏企鹅号快讯

还记得DeepMind那个会跑酷的AI吗?它打算用这套Python强化学习工具吊打OpenAI

还记得这个会跑酷的机器人吗? 5个多月前,DeepMind连发三篇强化学习论文,让机器人在仿真环境中自己就能学会灵活多变的各种动作,包括步行、跑动、跳跃、翻墙,...

227100
来自专栏数据小魔方

一个关于Excel的秘密——微软向用户隐藏了什么?

一个关于Excel的秘密 ▌写在前面的话: 这是小魔方公众号开通的第一天,也是小魔方推送的第一篇文章,算是破壳日吧!感谢大家关注小魔方,同时小魔方也会持续努力更...

30570
来自专栏Python中文社区

用Python对鹿晗、关晓彤微博进行情感分析

專 欄 ❈大吉大利小米酱,Python中文社区专栏作者,Python爱好者,顽强地自学中,18线灵魂画手/段子手/脑洞女王。 简书: http://www....

36890
来自专栏PHP在线

初学者玩好Linux的建议

我把之前的一些学习经验和方法跟大家分享下,希望对大家有所帮助: 一、玩好Linux一定要经常折腾,说白了,就是动手能力一定要强。 我初学Linux那...

45760
来自专栏SeanCheney的专栏

《Python分布式计算》第1章 并行和分布式计算介绍 (Distributed Computing with Python)并行计算分布式计算共享式内存vs分布式内存阿姆达尔定律混合范式总结

本书示例代码适用于Python 3.5及以上。 ---- 当代第一台数字计算机诞生于上世纪30年代末40年代初(Konrad Zuse 1936年的Z1存在争议...

44780
来自专栏杨建荣的学习笔记

2017最后一天的学习-TensorFlow

中午吃过饭后,家人都去午休了,我就躺在沙发上看电视,然后稀里糊涂睡着了,突然自己问自己今天写点什么呢,然后在迷糊中突然想到了TensorFlow,好了,那今天就...

35840
来自专栏马哥教育

想学Python?这里有一个最全面的职位分析

Python从2015年开始,一直处于火爆的趋势,目前Python工程师超越Java、Web前端等岗位,起薪在15K左右,目前不管是小公司还是知名大公司都在热招...

51150
来自专栏人工智能头条

如何在Kaggle上受到万人敬仰?

16120
来自专栏星汉技术

计算机基础(一)

25870
来自专栏机器学习算法与Python学习

基于遗传算法(C#编写)的智能组卷系统优化

最近由于项目的需要,基于.Net 4.0框架和WPF开发window的客户端(开发环境为win7 旗舰版;Visual Studio 2013),在功能实现上需...

36180

扫码关注云+社区

领取腾讯云代金券