专栏首页量子位如何让强化学习走进现实世界?DeepMind要用“控制套件”推动

如何让强化学习走进现实世界?DeepMind要用“控制套件”推动

夏乙 编译整理 量子位 出品 | 公众号 QbitAI

火遍全球的AlphaGo让我们知道了强化学习打游戏究竟有多6,这么强大的算法什么时候才能打破次元壁,走进现实、控制物理世界中的物体呢?

DeepMind已经开始往这方面努力。他们昨天发布的控制套件“DeepMind Control Suite”,就为设计和比较用来控制物理世界的强化学习算法开了个头。

就像ALE(Arcade Learning Environment)极大推动了用强化学习打电子游戏的研究一样,DeepMind希望他们的Control Suite也能推动用强化学习控制实体的研究,比如说先让模拟环境中的机器人学会行走、游泳、搬东西等等。

Control Suite设计了一组有着标准化结构、可解释奖励的连续控制任务,还为强化学习Agent提供一组性能测试指标

这些任务基于MoJoCo物理引擎,所用的语言是Python。DeepMind在GitHub上放出的源代码中,就包含基于MoJoCo的Python强化学习环境,以及为MoJoCo提供Python绑定的软件库。

如上图所示,Control Suite中的任务可以分为14个领域,也就是14类物理模型,上排从左到右分别是:

体操机器人Acrobot,(两节钟摆)、杯中小球、倒立摆、猎豹形机器人、手指、鱼、单足跳跃机器人,下排从左到右分别是人形机器人、机械手、钟摆、质点、形似两节手臂的Reacher、游泳机器人、步行者。

DeepMind还测试了A3C、DDPG和D4PG强化学习算法在这些任务上的表现,:

这些结果也是强化学习完成控制任务的基线数据。

DeepMind Control Suite似乎很受欢迎,截止量子位发稿,已经在GitHub上收获了300多个星标。

Twitter网友们也在热烈讨论这个Control Suite。不过,DeepMind官推为这个套件所选的配图,可谓骨骼清奇,被不少网友质疑:这是……最优跑步方式?

O(∩_∩)O 最后放出来,给大家来观赏一下:

请勿模仿,请勿模仿,请勿模仿。

如果受伤了还怎么看下面的论文和代码呢~

论文: https://arxiv.org/pdf/1801.00690.pdf

代码: https://github.com/deepmind/dm_control

本文分享自微信公众号 - 量子位(QbitAI),作者:专注报道AI

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-01-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 是不是好奇号不够好奇,NASA要送机器蜜蜂上火星?

    在蜜蜂种群的生存受到严重威胁的地球,许多团队都在奋力研发蜜蜂机器人。如今,哈佛的Robobee上天入水,沃尔玛用于授粉的机器蜜蜂也已申请专利。

    量子位
  • DeepMind成立了一个新的秘密小组,还是研究AI与道德

    问耕 编译整理 量子位 出品 | 公众号 QbitAI 不只是王力宏在念叨AI与道德的关系。DeepMind也一直对这事儿念念不忘。现在DeepMind内部成立...

    量子位
  • 2018年哪项AI研究最紧迫?DeepMind联合创始人说是AI伦理

    原作 Mustafa Suleyman 维金 编译自 Wired 量子位 出品 | 公众号 QbitAI 2018年,正火热的人工智能会朝什么方向发展? Dee...

    量子位
  • 是不是好奇号不够好奇,NASA要送机器蜜蜂上火星?

    在蜜蜂种群的生存受到严重威胁的地球,许多团队都在奋力研发蜜蜂机器人。如今,哈佛的Robobee上天入水,沃尔玛用于授粉的机器蜜蜂也已申请专利。

    量子位
  • 人体骨骼关键点检测综述

    人体骨骼关键点对于描述人体姿态,预测人体行为至关重要。因此人体骨骼关键点检测是诸多计算机视觉任务的基础,例如动作分类,异常行为检测,以及自动驾驶等等。近年来,随...

    SIGAI学习与实践平台
  • 综述|人体骨骼关键点检测

    人体骨骼关键点对于描述人体姿态,预测人体行为至关重要。因此人体骨骼关键点检测是诸多计算机视觉任务的基础,例如动作分类,异常行为检测,以及自动驾驶等等。近年来,随...

    小白学视觉
  • 大量开发者会将访问token和API密钥硬编码至Android应用

    现如今,许多开发者仍然习惯于将access token(访问凭证)和API key(API密钥)等敏感内容编码到移动APP中去,将依托于各种第三方服务的数据资产...

    FB客服
  • 达观数据贾学锋:未来企业内50%以上的基础性文字处理工作将由计算机完成

    6月8日,由中国人工智能产业发展联盟(AIIA)、上海临港地区开发建设管理管委会、上海临港科技创业中心联合举办“2018年人工智能产业发展峰会暨中国人工智能产业...

    达观数据
  • 中国投资人怎么选择机器人投资对象

    随着现代科技的迅猛发展,机器人技术已广泛应用于人类社会的各个领域。国家更是重视机器人对中国科技的影响,在机器人项目上给予积极的政策支持,以促进机器人产业的发展。...

    机器人网
  • 谷歌AI研究大爆发:一年发218篇机器学习论文,近年研究人员增两倍

    李杉 编译自 Technology Review 量子位 出品 | 公众号:QbitAI 《自然》、《美国国家科学院院刊》、《美国医学会期刊》,这些都是当今世界...

    量子位

扫码关注云+社区

领取腾讯云代金券