首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >OpenAI探索机器人模拟训练新方法:仿真与真实世界无缝衔接

OpenAI探索机器人模拟训练新方法:仿真与真实世界无缝衔接

作者头像
量子位
发布2018-03-23 17:43:59
1K0
发布2018-03-23 17:43:59
举报
文章被收录于专栏:量子位量子位
问耕 编译整理 量子位 出品 | 公众号 QbitAI

OpenAI发布了一项新的机器人技术。

研究人员完全在仿真模拟环境中对机器人控制器进行训练,然后把控制器直接应用在实体机器人身上,通过这种方式让机器人在执行简单任务时,可以应对外界环境预料之外的变化。OpenAI已经用这一技术构建了闭环系统,取代原来的开环系统。

这个模拟器不需要匹配现实世界的情况,相反,OpenAI对相关环境采用了随机化的设置,包括摩擦力、动作延迟、传感器噪声等。这项研究表明,通用机器人可以在完全仿真模拟的环境中进行训练,只需要在现实世界中进行少量的自校准。

上面这个视频中,就是一个使用动态随机进行过模拟训练的机器人,任务就是把一个冰球推到目标点。尽管在真实世界中,研究人员在冰球上绑了一个袋子,改变了冰球的滑动性能,但机器人仍然能完成目标。

动态随机

OpenAI开发出了动态随机来训练机器人适应现实世界位置的动态变化。在训练过程中,研究人员随机抽取一组95个属性来定义环境动态,比如改变机器人身体各个部分的质量、改变操作对象的摩擦力和阻尼、置物台的高度、行动延迟观察噪音等等。

研究人员使用这种方法,训练了一个基于LSTM的策略,用以把冰球在桌子上推来推去。前馈网络在这个任务中失败了,而LSTM可以应用过去的观察,来分析世界的动态并相应的调整自己的行为。

从视觉到行动

OpenAI还是用了强化学习(RL)在模拟器中对机器人进行端到端的训练,并把得到的策略应用于一个实体机器人。这套系统不需要特殊传感器的帮助,就能把视觉直接映射到动作,并且可以根据视觉反馈进行调整。

这是机器人的相机视角。抓取方块的策略,使用了端到端的视觉到动作训练。在模拟情况下,夹子会随着方块的下滑而略微上移,以保持方块的位置。常见的RL算法,只能在扰动较小的情况下起效。

就在这个抓取任务上,OpenAI花了好几个月的时间来尝试传统的RL算法,但最终研究人员开发出一套新的算法:Hindsight Experience Replay (HER)。

HER的实现使用了不对称信息的actor-critic(演员-批评家)技术。演员是一个策略,批评家评估状态,并向演员发出训练信号。批评家可以获得完整的模拟器状态,演员只能访问RGB和深度信息,也就是现实世界中存在的数据。

成本

新的尝试增加了计算需求。动态随机让训练速度降低了3倍,而从图像学习而不是状态,让训练时长增加了5-10倍。

OpenAI认为有三种构建通用机器人的方法:训练大量的物理机器人、让模拟器不断接近真实世界、随机化模拟器然后把模型应用到真实世界。OpenAI的研究人员指出,他们越来越觉得第三种方式将是最重要的解决方案。

OpenAI在最后的视频中,展示了用简单的前馈网络在模拟器中训练的机器人,它无法适应真实世界,完成和模拟器中一样的任务。

关于这项研究的详情,OpenAI最近在arXiv上公布了两篇论文:

Sim-to-Real Transfer of Robotic Control with Dynamics Randomization https://arxiv.org/abs/1710.06537

Asymmetric Actor Critic for Image-Based Robot Learning https://arxiv.org/abs/1710.06542

OpenAI博客原文:https://blog.openai.com/generalizing-from-simulation/
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-10-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 动态随机
  • 从视觉到行动
  • 成本
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档