SIGGRAPH2018论文:深度强化学习教机器人自己穿衣服!(附视频)


新智元报道 来源:gatech、boingboing.net

编辑:大明

【新智元导读】让智能体自己学会穿衣服一直是个难题,除了对衣服的布料的材质模拟存在困难之外,穿衣过程中目标与衣服之间的频繁复杂的交互也会导致计算成本过高。在Siggraph 2018上,研究人员试图通过深度强化学习,将布料模拟融入学习框架,教机器人学会自己穿衣服!

随着AI技术进步的日新月异,现在的机器人越来越智能,但不管是机器人还是虚拟模型,基本都处于“赤身裸体”的状态,即便是穿了衣服,也是靠着外部的力量或帮助穿上的。

如何让这些智能体学会自己穿衣服一直是个难题,因为衣服的布料多种多样,材质性质各不相同,而且在穿衣过程中,衣服和身体会发生频繁而复杂的相互作用。这两点是解决“机器人学穿衣”过程中面临的最大挑战。

现在,研究人员正试图攻克这个难题。在Siggraph 2018上的一篇论文《Learning to Dress: Synthesizing Human Dressing Motion via Deep Reinforcement Learning》中,来自佐治亚理工学院和谷歌大脑的研究团队描述了他们如何利用人工智能,来教虚拟人如何自己穿衣服。

本文表明,AI能够利用机器学习工具“自动发现强大的穿衣技能”,并设法训练出强大的穿衣模型,尽管对衣服布料的模拟计算成本很高。

本文作者表示,让AI 学会穿衣服的秘诀就是触觉,可以用于动态调整AI的协调性,以适应褶皱、光滑、或材质诡异的布料。

研究概览:将布料模拟融入深度强化学习框架

由于人和穿的衣服之间存在着复杂的相互作用,所以创建人物穿衣服的逼真动画是很具有挑战性的任务。我们采用无模型深度强化学习(deepRL)方法,实现自动发现由神经网络表示的、高鲁棒性的控制策略。

虽然深度强化学习方案在复杂运动技能的学习方面取得了一些成功,但学习算法的数据特征与实际任务所需的、计算成本高昂的衣服和布料模拟任务并不一致。

下面是研究人员制作的机器人穿衣视频演示,一起来看看,一共有3种衣服哟!

利用强化学习教机器人学会自己穿衣服(视频演示)

本文首次证明,通过设计合适的输入状态空间和奖励函数,可以把对布料的模拟结合到深度强化学习框架中,以便学习强大的穿衣控制策略。

我们利用触觉信息的显著表示,来指导虚拟人物穿衣的过程,并将其用于奖励函数中,在训练期间提供明确的学习信号。我们发现,为了学习涉及各种穿衣操作技能的长时间运动序列,比如“抓住T恤衫的边缘”或者“拉袖子”,有必要将整个穿衣任务分成几个子任务,并分别学习控制策略。

为此,本文引入了策略排序算法,该算法匹配从一个任务到输出分布的输出状态的分布,用于序列中的下一个任务。我们已经使用这种方法为几种穿衣任务生成角色控制器:即穿T恤,穿外套,以及在机器人辅助下穿袖子。

虚拟人在穿T恤衫、外套和医院的防护服

将穿衣任务分割为多个子任务

我们提出了一个强化学习框架,来训练虚拟角色在模拟环境中穿上衣服。我们的方法将穿衣任务分成一系列子任务,这些任务之间的转换由一个状态机实现指导。比如,穿上外套这个任务包括以下四个子任务:将袖子套在第一条手臂上,把第二条手臂向后伸,将第二只袖子套在手臂上,最后将身体重新转到原来的静止位置。

子任务控制器的奖励权重

对于每个子任务,我们制定一个单独的强化学习问题来学习控制策略。为了确保这些单独的控制策略在按顺序执行时能够组成成功的穿衣序列,我们引入了一个策略排序算法,该算法将每个子任务的初始状态分布与前一个子任务的最终状态分布相匹配。

这样得到的控制策略可以按照虚拟人与衣服的交互率实现按顺序应用。在通过子任务完成标准的状态机的转换下,产生多种成功的穿衣动作。

排序控制策略

由于每个子任务都是作为一个单独的穿衣过程而制定的,因此在转换点上直接执行策略往往会失败。 我们引入了一种策略排序算法,可确保不同策略之间的成功转换,从而实现按需要延长序列的任务。该算法主要由两个通道组成,在算法1伪代码中表示。

策略排序算法示意

部分插入衣服(蓝色圆柱体)的手臂相关计算的可视化呈现

虚拟人分别穿T恤、外套和医院防护服的动作示意图

最终研究政策的效果评估,x轴表示时间步长

在马尔可夫决策过程(MDP)中的手臂伸进和静止姿态的误差量度的比较

研究结论和未来前景

我们提出了一个系统,通过使用强化学习和物理模拟,学习如何建立虚拟人物穿衣的动画。在将整个穿衣任务划分为可管理控制的多个子任务后,系统会单独学习每个子任务,将这些任务与状态机连接,并将每个子任务的输入状态分布与先前子任务的输出分布相匹配。

我们发现,仔细选择对布料观察结果和奖励函数,对于这种策略的成功非常重要。我们的方法的结果不仅仅是穿衣序列,而是一个可以在各种初始条件下实现成功穿衣的控制器。

尽管该系统在几个穿衣任务上取得了成功,但仍有改进的余地。我们的系统目前执行的上半身的穿衣任务,要想将穿衣任务扩展至下半身,需要将平衡机制纳入控制器。

虽然我们建立的衣服观察空间足以完成所展示的任务,但是看看是否可以训练端对端控制器,利用模拟视觉来确定衣服的状态也是很有趣的事情。

我们的基于触觉的观察有助于跨越模拟效率和表示能力之间的鸿沟,但更完整的人体触觉感知模型可能用于各种应用。

最后,使用具有存储器的控制策略体系结构,可以减少必要子任务的数量,并将已学会的技能实现更大程度的推广。

参考链接及论文:

https://boingboing.net/2018/11/03/body-shaming-ais.html

https://www.cc.gatech.edu/~aclegg3/projects/learning-dress-synthesizing.pdf


原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2018-11-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

DeepMind开源了强化学习库“松露”,团队自身也严重依赖它

今天,DeepMind开源了一个基于TensorFlow的强化学习库,名字叫TRFL。

11310
来自专栏智能计算时代

机器学习与文本分析

image.png 原文作者:微软研究院杰出科学家Ashok Chandra博士,项目经理Dhyanesh Narayanan 译者:张鑫 ? 上个世纪七十年代...

41460
来自专栏大数据挖掘DT机器学习

PageRank算法(2):PageRank原理剖析

一、PageRank算法的简单举例 Google PageRank算法的思想精华在于:将一个网页级别/重要性的排序问题转化成了一个公共参与、以群体民主投票的方式...

74160
来自专栏量子位

DeepMind新论文:3D环境中教AI学人话,还要用形式语言指挥它们

李林 编译自 Arxiv 量子位 出品 公众号 | QbitAI 最近,DeepMind发了两篇论文,一篇是关于教AI学语言的Grounded Language...

30040
来自专栏AI科技评论

多图见证模拟机器人的逆天成长:论进化策略在强化学习中的应用

AI 科技评论按:本文是 otoro.net 的系列技术博客之一,以通俗可视化的方法讲解了进化策略(Evolution Strategies)中的诸多概念。本篇...

454100
来自专栏大数据文摘

分辨真假数据科学家的20个问题及回答

21730
来自专栏大数据文摘

资源 | 从医疗语音到灾难响应,这八大优质数据集快抱走

19730
来自专栏AI科技评论

动态 | 同济大学「智能大数据可视化实验室」开源FaceX,包含500余万张卡通人脸表情简笔画

AI 科技评论消息,日前,同济大学「智能大数据可视化实验室」(iDVX Lab) 开源了一个包含 500 余万张卡通人脸表情的高质量简笔画数据集 – FaceX...

15430
来自专栏数据小魔方

一点儿建议、一枚彩蛋~~~

这段时间写了太多的教程,感觉自己都写烦了,不知道大家看的烦不烦,今天没有教程,写一点儿心得总结下这段时间以来的经验和体会,顺便介绍一款图表插件,也将是小魔方下一...

43850
来自专栏AI星球

我与Python--从Hacker到探索Deep Learning

进入大学之后,我们逐渐“被教授”了C、C++、Java等编程语言,但为什么我会选择python作为最喜欢的编程语言呢?

13930

扫码关注云+社区

领取腾讯云代金券