前沿 | 不再需要动作捕捉,伯克利推出「看视频学杂技」的AI智能体

选自BAIR

作者:Xue Bin (Jason) Peng 和 Angjoo Kanazawa

机器之心编译

参与:刘晓坤、张倩、王淑婷

伯克利曾经提出 DeepMimic 框架,让智能体模仿参考动作片段来学习高难度技能。但这些参考片段都是经过动作捕捉合成的高度结构化数据,数据本身的获取需要很高的成本。而近日,他们又更进一步,提出了可以直接模仿 Youtube 视频人物高难度动作的新框架 SFV。

从 YouTube 视频中学习技能的智能体。

通过 SFV 学习到的智能体动作还原度很高,并且有很好的泛化至新环境的能力,例如从平地泛化到不规则地形。当然,仍然存在一些难以模仿的动作,例如某某鬼畜骑马舞。

无论是像洗手这样的日常任务还是惊人的杂技表演,人类都可以通过观察他人来学习一些令人难以置信的技能。随着 YouTube 等开源视频数据的激增,现在我们比以往任何时候都更容易找到感兴趣技能的视频片段。每分钟都会有 300 小时的视频传到 YouTube 上。但是,对机器人来说,从这些海量的视频中学习技能仍是一项非常艰巨的任务。大多数模仿学习方法都需要简洁的表征,比如从动作捕捉(mocap)中记录的表征。但是获取 mocap 数据相当麻烦,通常需要大量仪器。Mocap 系统容易局限于遮挡较小的室内环境,这会限制能够记录的技能类型。所以,如果智能体可以从视频片段中学习技能就再好不过了。

使用 Mocap 捕捉演员动作并复现 3D 角色的动作(电影《指环王》)。

在本文中,我们展示了一个从视频中学习技能的框架(SFV)。通过将计算机视觉领域最先进的技术与强化学习相结合,我们的系统使智能体能够从视频中学习各种技能。给定一个单目视频,视频中有人表演侧手翻或后空翻等动作,我们的智能体能够学习在物理模拟中再现该技能的策略,而无需任何手动姿势注释。

从视频中学习全身动作技能的问题在计算机图形学中受到了一些关注。以前的技术通常依赖于手工制作的控制结构,这些结构对要做的动作加了很大的限制。因此,这些方法限制了可以学习的技能类型,由此产生的动作也看起来非常不自然。最近,深度学习技术在 Atari 游戏和简单的机器人任务中进行视觉模仿取得了不错的结果。但是这些任务在演示和智能体的环境之间通常只有适度的领域变化,且主要是在动态相对简单的任务上进行持续控制。

框架

该框架包括三个阶段:姿势估计、动作重建和动作模仿。输入视频首先接受第一阶段姿势估计的处理,预测每一帧中角色的姿势。接下来,动作重建阶段将姿势估计结果固化为参考动作,并修复姿势估计结果可能带来的失真。最后,将参考动作输入到动作模仿阶段,利用强化学习训练智能体模仿动作。

整个流程包含三个步骤:姿势估计、动作重建及动作模仿。执行特定动作的人物视频片段和智能体模型充当输入,并学习一种控制策略,使智能体能够在物理模拟中再现该动作。

姿势估计

我们在一个给定的视频片段中使用一个基于视觉的姿势估计器来预测动作执行者在每一帧中的姿势 q_t hat。姿势估计器建立在人体网格恢复(human mesh recovery)的基础上,后者使用弱监督对抗性方法来训练姿势估计器以预测单目图像中的姿势。虽然需要姿势相关注释来训练姿势估计器,但一旦训练完毕,姿势估计器就可以应用于没有任何标注的新图像。

基于视觉的姿势估计器用于预测人物在每一帧中的姿势

动作重建

由于姿势估计器针对每个视频帧独立预测人物的姿势,因此各帧之间的预测可能不一致,导致出现抖动噪声。而且,尽管基于视觉的姿势估计器在近些年取得了显著进展,但它们仍然偶尔出一些大错,导致出现一些奇怪姿势。这些噪声可以呈现物理上无法模仿的姿势。因此,动作重建阶段的作用就是减轻这些噪声,以产生一些物理上更加可行的参照,使智能体更加容易模仿。为了做到这一点,我们优化了一种新的参考动作

,以实现以下目标:

公式中的 l_p(Q hat) 使得参考动作与原始姿势预测更加接近,L_sm(Q hat) 使得相邻帧的姿势更加相似,以生成更加连贯的动作。此外,W_p 和 W_sm 是不同损失的权重。

这一过程可以显著提高参考动作的质量,并且可以修复原始姿势预测里的大量噪声。

动作重建前后的参考动作对比。动作重建修复了一些失真,使参考动作更加流畅。

动作模仿

现在我们得到了参考动作

,接下来我们将训练智能体模仿该技能。动作模仿阶段使用与模拟 mocap 数据类似的强化学习方法。奖励函数鼓励策略将每一帧 t 中模仿智能体的姿势和重建参考动作 q^_t 之间的区别最小化,

这种简单的方法效果非常的好,智能体能够学习多种高难度杂技技巧,且每个技巧都仅通过一次视频展示习得。

智能体通过模仿视频片段学习多种技巧。

结果

总之,我们的智能体可以从 Youtube 的多种视频剪辑中学习 20 多种不同的技能。

我们的框架可以从视频演示中学习大量的技能组合。

即使智能体的形态和视频中的人物通常很不相同,其学习到的策略仍然可以重现很多种技能。作为更加极端的形态差异的示例,我们还可以训练一个虚拟的 Atlas 机器人来模仿人类的视频剪辑中的动作。

虚拟仿真机器人(Atlas)可以通过模仿视频剪辑学习多种动作组合。

使用虚拟智能体的一个好处是我们可以利用模仿过程来将其行为泛化到新环境中。这里我们模拟了让智能体学习适应不规则地形的动作,其中原始的视频剪辑记录的是在平地上的人物动作。

智能体在不规则的地形中也能做出模仿动作。

即使新环境和原始视频的环境很不相同,学习算法依然发展出了非常合理的策略来应对新的环境。

总而言之,我们的框架真的仅仅是使用了任何人都能想到用来解决视频模仿问题的明显方法。关键在于将问题分解为更好掌控的组成,为这些组成选择正确的方法,并有效地将它们整合到一起。然而,视频模仿技能仍然是一个极有挑战性的问题,目前仍然有大量的视频剪辑是我们无法重现的。

灵巧的舞步,例如江南 Style,仍然是很难模仿的。

但令人鼓舞的是,仅通过整合已有的技术,我们就能在这个难题上走出一大步。

论文:SFV: Reinforcement Learning of Physical Skills from Videos

  • 项目展示页:https://xbpeng.github.io/projects/SFV/index.html
  • 论文地址:https://xbpeng.github.io/projects/SFV/2018_TOG_SFV.pdf

基于动作捕捉的数据驱动的智能体可以生成高度自然的动作,而且与物理模拟相结合时可以提供对物理干扰、环境变化和形态差异的自然过程响应。动作捕捉仍然是最流行的动作数据来源,但是收集 mocap 数据通常需要配备大量仪器的环境和表演者。在本文中,我们提出了一种方法,使智能体能从视频中学习技能(SFV)。该方法基于深度姿势估计和深度强化学习,允许数据驱动的模仿利用网络上的大量公开视频片段,如 YouTube 上的视频。这有可能通过查询所需动作的视频记录来实现快速而简单的人物控制器设计。所产生的控制器对干扰具有鲁棒性,能够适应新设置,执行基本的对象交互,并能通过强化学习重新定位新形态。我们还进一步证明,该方法可以通过对观察到的姿势进行初始化得到的学习控制器进行正向模拟,进而根据静止图像预测人物的可能动作。我们的框架能够学习各种动态技能,包括运动、杂技和武术。

原文链接:https://bair.berkeley.edu/blog/2018/10/09/sfv/

本文为机器之心编译,转载请联系本公众号获得授权。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2018-10-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能快报

科学家研制出具有更好自学能力的计算机

物理研究门户网站phys.org发文称科学家开发出了一种基于神经启发的模拟计算机,它能够在执行任务时通过自我训练将自己变得更好。这个基于一种名为“储备池计算”的...

2846
来自专栏CDA数据分析师

入门 | 做数据科学如烤蛋糕?不服来看

面部识别、自动驾驶、机器人统治世界?!还有那个令人毛骨悚然的机器人女孩,索菲亚。emmm…还有黑镜?

1022
来自专栏专知

【博文推荐】本月机器学习Top 10 文章/教程汇总(2018.10)

【导读】本文由Mybridge发布,评估近1400篇机器学习文章后,挑选出上月中的机器学习Top 10的文章教程,现由专知编译如下。

1482
来自专栏人工智能头条

AI 迟早灭了程序员

就目前的 AI 来看,判断某项工作是不是会被机器替代,有俩前提,大前提:可以获得足够的有效数据(能自动生成数据则无敌),也就是说机器有快速进化的基础;小前提:人...

762
来自专栏专知

381页机器学习数学基础PDF下载

【导读】近期,由Marc Peter Deisenroth,A Aldo Faisal和Cheng Soon Ong撰写的《机器学习数学基础》“Mathemat...

1.3K4
来自专栏奇点大数据

2018年度人工智能技术趋势

“人工智能”一词最初是在1956 年Dartmouth学会上提出的。人工智能(Artificial Intelligence),英文缩写为AI,是研究、开发用于...

1192
来自专栏大数据文摘

职场 | 如何让你的数据直觉更敏锐

对于有大局意识的人来说,这无疑是一个很好的创业机会和职业选择。要想抓住职业机会,你需要超强的“码力”和深入的专业知识。

890
来自专栏机器之心

入门 | 做数据科学如烤蛋糕?不服来看

面部识别、自动驾驶、机器人统治世界?!还有那个令人毛骨悚然的机器人女孩,索菲亚。emmm…还有黑镜?

1372
来自专栏新智元

DeepMind 升级深度强化学习,仅10小时训练16个机器人灵活操纵物体

【新智元导读】DeepMind 研究人员改进深度确定策略梯度算法,在虚拟环境中训练机械臂叠协同完成堆叠积木的任务,每架机械臂的结果都被用于改进核心算法,10个小...

3906
来自专栏机器学习算法与Python学习

如何准备机器学习工程师的面试?

我之前面试一些公司的机器学习或者数据挖掘工程师的职位。感觉自己准备的不够充分。想了解下一般会问哪些问题,考察哪些方面的东西?? 周开拓 ~~~~~~~~~~~~...

2847

扫码关注云+社区

领取腾讯云代金券