学界 | 从虚拟到现实,DRL让小狗机器人跑起来了

Google 最新的一篇 paper 告诉我们:DRL 在真实机器人上面是可行的,只要我们尽可能减小 reality gap。

AI 科技评论按:本文首发于知乎专栏「智能单元」,作者 Flood Sung, AI 科技评论获其授权转载。

1. 前言

深度增强学习 DRL 在仿真机器人已经取得了很大的成功,同时,也在真实的机器人抓取(Robotic Manipulation)问题上有了很大的进展。然而依然会有很多搞机器人的朋友会质疑深度增强学习(Deep Reinforcement Learning)在真实机器人上的可行性,比如说能在大狗机器人上面通过 DRL 来实现吗?老实说我也觉得困难重重,最主要的问题就是所谓的 reality gap:真实机器人和仿真机器人存在很多的差别,在仿真中能够 work,大概率不能在真实环境中 work。

然而,Google 最新的一篇 paper 告诉我们:不!DRL 在真实机器人上面是可行的,只要我们尽可能的减小这个 reality gap:

视频内容

论文地址:https://arxiv.org/abs/1804.10332

看了上面的视频,不知道大家会不会被惊讶到?以前需要巨量人工来调整的控制算法,现在用一个两层的神经网络实现了!可能没有搞过机器人控制的朋友不太理解,就单单在四轴飞行器上调一个 PID 控制器都要调到崩溃!所以当真正在真实的四足机器人上用神经网络实现运动控制的时候,感觉真的有点难以置信!

如果我们要简单的说一下,未来就是机器人全神经网络化,全部不需要复杂人工编程,全部通过自己学习的方式来掌握运动是完全可能的!并且,可以比传统机器人控制算法做得更好!

下面我们来稍微说一下这篇 paper 的一些思想方法。

2. 构建一个足够接近真实的仿真环境就好!

四足机器人不同于机械臂,能够直接在真实环境中进行 DRL 训练,四足机器人训练成本显然要高太多,因为它到底要摔多少次才能走起来?就算土豪如 Google 也没那个钱来烧!所以,直接在真实环境中用 DRL 训练四足机器人是基本不可能的,那么我们能做的显然就只有在仿真环境中训练,然后迁移到真实机器人上了。那么,这里的核心就是 Reality Gap 的问题,如何减少 Reality Gap,让仿真环境足够真实?

这篇文章处理了以下几个部分:

1)构建一个更接近真实的仿真四足机器人模型。这个很好理解,比如让仿真机器人的尺寸,重心等等都和真实机器人基本一致。

2)构建一个更好的驱动器模型(Actuator Model)。这里的实验采用的是位置控制,也就是顶层的神经网络只输出目标位置,下层的执行还是实验传统 PD 控制器。所以呢,那就在仿真环境中调一个和真实差不多的电机控制器呗。

3)模拟好延迟 Latency。这一点对于机器人控制很重要,真实机器人在控制时由于硬件数据传输,延迟是不一样的,所以要在仿真中模拟好延迟。

对于仿真环境也就是上面三部分的处理。那么,接下来就是怎么训练的问题了。

3. 加点训练技巧 tricks 让神经网络的泛化能力加强

训练也是需要精细化调整的。这个工作直接使用 PPO 来训练,两层的神经网络,位置控制,为了使得训练效果更好,又做了下面三个处理技巧:

1)随机化动态参数(Dynamic Parameters),也就是仿真机器人中的各种参数数据,比如重量,摩擦力,IMU 的误差等等。

2)加上随机外部扰动(Random Perturbations), 上一条是机器人内部参数,这一条则是在外部施加一个额外的扰动力,比如模拟一下风什么的。

3)使用一个合适的观察空间(Observation Space),这一条则是针对具体的训练,一个合适的观察空间对于训练效果影响很大,特别如果维度太高的话就很难训练。所以这个工作仅仅使用了四足机器人基座的俯仰角,倾斜角,基座的角速度及 8 个电机的角度。而这就足够来训练。

上面的处理技巧很好理解,特别是前两个,就是通过随机化让神经网络的 generalization 泛化能力变强,这样的话即使迁移到真实环境,也能有较好的适应!

4. 一点小结

这个工作是一个极其工程化的工作,上面我们分析的这篇文章的主要方法其实都非常好理解,甚至谈不上所谓的创新。但是对于这种工作,能够 work 才是关键。Work 就是一切!Google 的这个工作可以进一步的提升大家对于深度学习应用到机器人上面的信心!相信接下来 Robot Learning 这个领域必然会有更大的发展!

本文分享自微信公众号 - AI科技评论(aitechtalk)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-05-07

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏奇点大数据

最前沿:从虚拟到现实,DRL 让小狗机器人跑起来了

深度增强学习 DRL 在仿真机器人已经取得了很大的成功,同时,也在真实的机器人抓取(Robotic Manipulation)问题上有了很大的进展。然而依然会有...

7730
来自专栏量子位

最近有啥ML比赛能表现自己的优秀?CVPR2018图像压缩大赛

原作 Michele Covell Root 编译自 谷歌博客 量子位 出品 | 公众号 QbitAI 新的一年来了,想给自己找个难度大的挑战?有哪些问题是有重...

32870
来自专栏AI科技大本营的专栏

别瞎搞!对自己定位不准,看再多机器学习资料也是白搭(附资源)

找资料也是门学问,别抓着机器学习就一拥而上。 作者 | Jason Brownlee 编译 | AI100(ID:rgznai100) 来看个小故事:机器学习火...

34580
来自专栏大数据文摘

AI大事件丨吴恩达再度出手创立AI制造业公司,李飞飞领衔谷歌中国AI研究中心,AI或将应用于成人电影

17750
来自专栏AI科技大本营的专栏

首发|贾扬清回应[1小时训练ImageNet]:要关注这10个技术细节,窝里斗没有必要

昨天,整个深度学习领域,几乎被一篇论文刷了屏。 论文指出,通过一种新的方法,能够大幅加速模型训练的过程,仅需1小时,就能训练完ImageNet这样的大规模数据集...

44060
来自专栏AI科技大本营的专栏

必读 | 六月份不容错过的十大重磅好文,机器学习和数据科学的小伙伴拿走不谢

作者 | Flavian Hautbois 翻译 | AI科技大本营(rgznai100) 参与 | JeyZhang,波波 上个月,我们发了很多文章。但是,机...

29060
来自专栏AI科技大本营的专栏

量子计算+人工智能——这才是未来科技的最大热门!

编译 | AI科技大本营 参与 | shawn 编辑 | 明明 90年代初,当卫奇塔州立大学(Wichita State University)的物理学教授El...

44970
来自专栏大数据文摘

开学了,如何用2017年最后三分之一学会深度学习?

16940
来自专栏机器之心

入门 | 从遗传算法到强化学习,一文介绍五大生物启发式学习算法

624100
来自专栏新智元

自然语言处理顶级会议 EMNLP 最佳论文出炉,聚焦神经网络 (下载)

【新智元导读】自然语言处理顶级会议 EMNLP2016 今天公布了本届大会最佳论文。本文介绍会议概况,节选主旨演讲、讲座及Workshop 等亮点介绍,最后给出...

530170

扫码关注云+社区

领取腾讯云代金券