强化学习新方法,让后空翻回旋踢再也难不倒机器人 | 伯克利论文

夏乙 发自 凹非寺 量子位 出品 | 公众号 QbitAI

波士顿动力人形机器人的后空翻技能亮相时,惊艳了全球群众。

这么复杂的动作,不用说现实世界中的机器人,就算是在模拟器里,学起来也非常的难。

现在,加州大学伯克利分校和英属哥伦比亚大学最新研究的一种新方法,能教生活在模拟器中的机器人通过模仿人类,学会武打、跑酷、杂技等复杂技能。

后空翻回旋踢什么的,轻轻松松搞定~

(下文还会提到很多次“机器人”,基本都是生活在模拟器里的这种)

视频内容

让机器人、动画和游戏角色能灵活流畅地运动,是计算机图形学、强化学习、机器人等等领域的研究者都在追求的目标。

不同方法各有所长,当然也各有所短。

用强化学习方法教机器人(模拟器里的智能体),能学会的动作花样繁多,细致到拿东西、豪放到奔跑都能搞定,还可以给机器人设置一个明确的目的。但是,总难免上演一些羞耻或惊喜play。

而动作捕捉技术,能让机器人做出和真人一模一样,自然流畅毫无违和感的动作。但是,活学活用是不能指望的,每个动作、每个形态的机器人,都是需要单独训练的。

伯克利的科学家们取这两个领域所长,创造了一种新方法DeepMimic。这种方法既有深度学习模型的通用性,可以覆盖更多的动作类型和机器人形态,动作的自然流畅程度也可以媲美动作捕捉。

用这种新方法,机器人究竟是怎么学习新动作的呢?

简单来说是通过看动作片段来学习,人类的动作捕捉数据就是个很好的学习资料。给机器人展示一个动作样本,比如说下图这个侧空翻,右侧就是供机器人学习的示范样本。

参与这项研究的科学家们将示范动作分解成一个q^0,q^1,…,q^T的序列,q^T表示的是在机器人在t时间步的目标动作。而这个机器人学习的目标,就是要尽可能消灭t时间步的实际动作qT和目标动作q^T的差距。

机器人勤劳地不停练习练习练习,直到自己的动作不再羞耻,灵活性和仿真度能够媲美演示视频,像上图左侧那样。

指导这个练习过程的,是这样一个奖励函数:

除了空翻,用这种方法教出来的机器人还能学到中西舞蹈、南拳北腿、跑步打把势甚至鲤鱼打挺:

对着完美的动作捕捉样本,再copy一遍,有什么意思?这项研究当然不止于模仿。DeepMimic能让机器人通过模仿学会动作之后,再活学活用起来。

比如当一个机器人学会了投球,就可以去执行一个演示样本中没有的任务。我们可以在模拟器中,指定一个目标让它来投:

训练的机器人,也可以长得和演示样本不太一样。比如说还是用前边的后空翻样本,可以训练一个模拟波士顿动力Altas的机器人:

甚至不是人形的机器人,也可以用人形样本来训练。比如说这头霸王龙,就是跟人形样本学习的走路。在论文的主页上,他们还展示了更多的例子,甚至还有狮子和龙~

要更深入地了解DeepMimic,请看论文:

DeepMimic: Example-Guided Deep Reinforcement Learning of Physics-Based Character Skills

作者:Xue Bin Peng, Pieter Abbeel, Sergey Levine, Michiel van de Panne

PDF:https://arxiv.org/abs/1804.02717

https://arxiv.org/pdf/1804.02717.pdf

作者系网易新闻·网易号“各有态度”签约作者

原文发布于微信公众号 - 量子位(QbitAI)

原文发表时间:2018-04-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

黄志敏:数据新闻制作7步法,一张图抵3万字

27950
来自专栏量子位

如何看待和学习人工智能?这是五位哈佛博士生的AMA

问耕 发自 SMB 量子位 出品 | 公众号 QbitAI 最近,五位哈佛的在读博士生集体来到著名社区reddit,展开一场围绕人工智能和认知科学的AMA(As...

32850
来自专栏数据派THU

干货 | 清华大学郑方:语音技术用于身份认证的理论与实践

“网络空间身份认证”事关新时代的国家安全、经济安全、社会稳定、民众福祉等,这其中包括五个方面:

20840
来自专栏AI科技评论

学界 | 微软研究院资深主任研究员郑宇教授:多源数据融合与时空数据挖掘(一)

AI科技评论按:本文根据郑宇教授在中国人工智能学会AIDL第二期人工智能前沿讲习班*机器学习前沿所作报告《多源数据融合与时空数据》编辑整理而来,AI科技评论在未...

44180
来自专栏新智元

刚刚,黄仁勋发布全球最大GPU,超算级逆天算力,仅售39.9万美元

【新智元导读】今天在刚刚结束的GTC 2018上,英伟达CEO黄仁勋说两件大事,一是发布了迄今最大的GPU,二是暂定自动驾驶暂停研发。随后英伟达股价下跌3.8%...

552230
来自专栏大数据文摘

机器真的已经战胜人类医生了吗?医学AI标题党文章中的三大陷阱

21470
来自专栏AI科技评论

Facebook和Google们现在努力的AI方向,会不会错了?

深度学习的坎坷之路 2012年11月23日,应该是一个让时任谷歌人工智能实验室专家的Geoff Hinton倍感欣慰的日子,在这一天,纽约时报发布了名为《Sci...

39260
来自专栏机器学习人工学weekly

机器学习人工学weekly-12/17/2017

1. 第一当然是NIPS啦(注意看上一期NIPS在Facebook上的视频)。NIPS开完,各种资料分析就出来啦,对我们这种没有机会去现场的人来说是个福音。 t...

33160
来自专栏量子位

萌新误入AI歧途怎么办?MIT博士小哥哥给你指条明路

做研究,特别是在AI领域做研究,时常挑战人类的智力极限和心理极限。来自MIT的汤姆,入坑已有两年,并在坑里向广大准同行们发来了倾心打造的攻略,帮助大家在漫漫夜路...

12130
来自专栏PPV课数据科学社区

【案例】浅谈医学大数据是怎么回事?

编者按:本文作者陈遵秋,美国俄勒冈州,健康科技大学,公共卫生预防系,美国统计协会认证统计分析师;陈漪伊,美国俄勒冈州,健康科技大学,公共卫生预防系,生物统计助理...

32230

扫码关注云+社区

领取腾讯云代金券