李飞飞夫妇打造了两件秘密武器,让机器人快速学习人类技能

栗子 夏乙 发自 凹非寺 量子位 报道 | 公众号 QbitAI

聚精会神,紧盯电脑屏幕上的一支机械臂,捧着手机:移动、下降、抓住,抬起!

别误会,这位小姐姐并不是在远程抓娃娃,而是在为机器人创造学习资料。

在她和她的同道中人教育下,你将看到会端锅、会堆积木、会把螺丝螺帽组装在一起、甚至还会分拣物品的机器人。

从“抓娃娃”,到机器人学会种种技能,这两件看起来毫无关系的事情之间,斯坦福大学计算机视觉与学习实验室的一个团队正在用两项研究搭建桥梁。而带领这个团队的,正是最近从Google回到斯坦福教学岗位的李飞飞和她的丈夫 Silvio Savarese

我们先来看第一项研究,也就是这个“抓娃娃”的系统。

“抓娃娃”

前面看到的“抓娃娃”平台,名叫RoboTurk。现在,人类已经用它已经为机器人生产了137.5小时的教学视频,演示了3224次抓取、组装物品的动作。其中,有1071次成功的抓取,1147次成功的组装。

听起来很多?其实做起来并不难,生产这么多的教学资料,总共只用了22小时。

李飞飞团队说,这是因为他们的RoboTurk,本来就是个快速众包制造大规模机器人控制数据集的利器。

RoboTurk到底怎么用呢?

这个平台的一端,是要训练机器人的科学家们。他们根据自己的研究目的,用物理模拟器来创建任务,部署到云端,就可以在世界各地征集人类、创造数据集了。

李飞飞的团队甚至在设计、测试这个平台的时候就已经帮你亲测过了:他们把机器人模拟器放在北京的服务器上,然后在太平洋对岸的加利福尼亚的实验室里,通过RoboTurk来控制它们。

平台的另一端,是为机器人创造教学资料的人类们。

这些人类,需要一只iPhone(6s及以后的机型)和一台装了浏览器、能上网的电脑。

打开手机上的RoboTurk App,输入网页上显示的ID,就可以用手机控制云端环境里相应的机器人了,在电脑上的浏览器里看到实时反馈的视频。

这些演示过程,都会存储在云端,供科学家们用来训练强化学习算法,训练成功后,就可以部署这些算法,让它们去控制机器人了。

这个团队自己,就用MoJoCo模拟器创建了两个环境:

一个训练机器人学分拣(picking),把桌上的物体抓起放到旁边不同的小盒子里;另一个让机器人学组装(assembly),把螺帽放到正确的螺栓上。

看完这些介绍和例子,可不要对RoboTurk有什么误会。它并不是只能控制MoJoCo模拟出来的机器人,其他模拟器、环境,也同样可以用,甚至……

真正的实体机器人,也完全没问题。

Follow Me, Robot

这些大费周章的抓娃娃式训练,究竟是为了什么呢?当然是为了让机器人更快学会更多新技能。

想让机器人学会抓取、组装物品,模仿人类是种不错的方法,这种方法叫“模仿学习”(Imitation learning),在最近机器人研究中越来越常见。

但是,这种方法有一种天生的局限:它和AI学会给图像分类一样,也需要很多标注好的数据。

AI研究的不少子领域都有很充足的数据:图像识别领域有ImageNet,目标检测有COCO,机器问答有SQuAD。这几个领域的发展,都离不开这些数据集的滋润。

而机器人控制……却没有类似的大规模数据集,实验室要想研究模仿学习,只能自己零零星星地去收集数据。RoboTurk平台,就是为了让科学家们更快收集数据而生。

发布平台的同时,李飞飞夫妇的团队还发布了一个RoboTurk数据集,就是我们前面提到的137.5小时的教学视频。

虽然规模稍小,但也称得上机器人界ImageNet的雏形了。

分布式,学得更快

有了“机器人界的ImageNet”之后,想要快速训练出厉害的机器人,算法本身也得学得快才行。

所以,还是飞飞实验室,又开源了分布式强化学习训练框架SURREAL,用来加速学习过程。

训练成果很丰盛,机械臂用两个手指,就可以执行各种操作:

第一,捡起一个方块,这是最基础的操作。

动了位置,机械臂也能速速跟过去。

第二,增加一点难度,叠罗汉

它学会了,用手里的红方块,来调整底座绿方块的位置,然后更加稳妥地把红方块放上去。

第三,把不同质地的多个重物,分别放入所属的格子。

红色易拉罐,蓝色纸盒,白色利乐包,黄褐色的 (可能是) 面包。对号入座,不会放错。

下面,是双手技能的展示时间。

两只机械臂要各自完成不同的动作,互相配合,并不简单。

第一项任务,插入,插入 (上图) 。

第二项任务,按形状插入。

目前,这还不是双手技能,但也可以进化成双手技能。

正方形的插孔,对应正方形的柱子;圆形插孔对应圆柱。

只有物理性质匹配,才能获得更加长久的幸福

除此之外,生活也少不了柴米油盐。至少,先把锅端起来。

熟练的操作,当然不是与生俱来。

就像婴儿学步,日复一日,愈发矫健。

回过头去,看看训练之初的机器人,双手几乎没有一丝协调性

五个多小时后,插入操作已经毫无压力,孺子可教。

团队还发现,用SURREAL框架搭配上文的RoboTurk数据集服用,让人类教练来“手把手”训练机器人,疗效要比不经人类调教的AI好得多:

果然,没有看过人类演示的AI (左) ,虽然能找到锅的两个把手,但还是提不起来。

有了人类教练的指点 (右) ,端起锅来就不难了。

那么看一下,这个能够高效训练技能的框架SURREAL,长什么样子:

SURREAL框架,把一个分布式RL算法,分解成四个部分 (图中由左向右) :

一是演员 (Actors) ,负责生成经验;

二是缓冲池 (Buffer) ,负责储存经验;

三是学习者 (Learner) ,根据经验来更新参数;

四是参数服务器 (Parameter Server) ,负责储存参数。

演员部分,是多个演员是并行 (Parallel) 的,16个,32个,64个……都可以。

这样一来,AI可用的数据量,能够猛烈增长

数据生成学习过程分开,不需要全局同步 (Global Synchronization) 了,可扩展性 (Scalability) 也就增强了。

另外,框架支持在线 (On-Policy) 和离线 (Off-Policy) 两种策略更新方式。

团队说,系统可以直接部署在云端或者PC端 (如谷歌云、AWS、Azure) ,轻而易举,只需4层:

第一层,从配置器 (Provisioner) 开始,保障各个云平台的可复现性。 第二层,编配 (Orchestrator) ,用一个完善的云API来分配CPU/GPU资源,复制网络。 第三层,协议 (Protocal) 实现了高效的通信指令。 第四层,就是算法,用PyTorch实现的。

李飞飞夫妇的实验室

这两项研究背后,都是李飞飞夫妇的计算机视觉与学习实验室(SVL Lab)。众包平台RoboTurk,由他们的博士生Ajay Mandlekar主导;

RoboTurk团队

而SURREAL项目,共同一作是两位博士生Linxi Fan和Yuke Zhu。

SURREAL团队

关于Ajay同学,网络上资料并不多。不过,Linxi Fan和Yuke Zhu两位同学就足够大家学(mo)习(bai)了。

他们现在分别已经读到了博士的第三年和第四年,都积累了非常丰富的实习经历。

我们先来看看Linxi Fan同学:

读博第三年的他,2017年暑假在Google实习,跟着李飞飞、李佳和研究院Mei Han等人,研究神经架构和超参数的元学习。

之前,他还在参与过斯坦福NLP组、OpenAI、Yoshua Bengio带领的MILA、百度AI实验室、王弢和吴恩达带领的斯坦福自动驾驶项目等等。

在他的主页,你会看到更多勤奋的履历:

http://jimfan.me/

而Yuke Zhu,2017年暑假在DeepMind实习,之前的实习路程经过了艾伦人工智能研究院(AI2)、Snap、Twitter等等公司。

对于两项研究的最后两位作者,也是团队的指导老师,你们应该都很熟悉了。就是计算机视觉界的国民女神李飞飞,和她的丈夫、斯坦福大学副教授Silvio Savarese。

他们的实验室,除了上面两个项目之外,还有训练机器人在人群之中穿梭的JACKRABBOT,想训练AI从视频中识别人类行为的大规模数据集ACTIVITYNET等等研究。这些研究背后,是这样一群人类:

传送门:

最后,量子位当然会为爱学习的朋友们送上这些研究的传送门,请收好~

众包平台RoboTurk:

主页 https://crowdncloud.ai/

论文 RoboTurk: A Crowdsourcing Platform for Robotic Skill Learning through Imitation http://vision.stanford.edu/pdf/mandlekar2018corl.pdf

加速训练的SURREAL:

主页 https://surreal.stanford.edu/

论文 SURREAL: Open-Source Reinforcement Learning Framework and Robot Manipulation Benchmark https://surreal.stanford.edu/img/surreal-corl2018.pdf

这两项研究的论文,都发表在马上要在苏黎世进行的CoRL 2018大会上。

这个大会的全称是机器人学习大会(Conference on Robot Learning),由UC Berkrley、Google、微软、CMU、MIT等顶尖研究机构发起,Google、DeepMind、瑞士科研基金会(SNF)、Facebook、博世等赞助,自诞生起就被学界寄予厚望,今年是第二届。

在这里,你可以看到更多有趣的机器人研究项目: http://www.robot-learning.org/home/program#schedule

Enjoy~

原文发布于微信公众号 - 量子位(QbitAI)

原文发表时间:2018-10-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

什么时候应该听取机器决定?

15850
来自专栏新智元

AI设计出超高速自行车,冲击133迈跑赢汽车

【新智元导读】EPFL衍生公司开发了一款软件,利用深度学习自动设计符合空气动力学的自行车。现在AI设计出的这辆自行车有望打破现在人类设计的自行车行驶的世界纪录。

10300
来自专栏量子位

这里有10本书,陪你欢度机器学习的清凉暑假 | 丰盛的传送门

11410
来自专栏新智元

【看车知政:李飞飞团队最新成果】识别谷歌街景中汽车图像,预测人口政治倾向

来源:Stanford News 编译:常佩琦 【新智元导读】李飞飞领导的斯坦福大学视觉研究室近期将人工智能的研究成果应用到人口统计学中。研究人员通过算法对谷歌...

283110
来自专栏大数据文摘

吴恩达更新了!深度学习系列课程第5课放出,全剧终

275120
来自专栏钱塘大数据

人脸识别太强大,张学友演唱会又双叒抓逃犯了!

张学友作为90年代的歌坛传奇,是很多人的美好回忆,《吻别》、《心如刀割》一首首经典歌曲传唱至今,陪伴许多人度过青春岁月。

17540
来自专栏PPV课数据科学社区

数据可视化到底有什么用?

不过广义上,可视化无处不在, 打开浏览器, 网站就是个数据可视化, 背后是数据库密密麻麻的数据表, 到了你的浏览器就是浅显易懂的页面。

19510
来自专栏机器人网

罗塞塔探测器与彗星的“第一次亲密接触”

"罗塞塔"彗星探测器于格林尼治时间8月6日9时29分(北京时间17时29分)成功进入环绕"丘留莫夫-格拉西缅科"彗星的轨道,这也标志着欧洲航天局投入多年的彗星探...

34250
来自专栏算法+

音频算法之我思

下载地址:https://files.cnblogs.com/files/cpuimage/denoise.zip

47890
来自专栏机器人网

移动机器人定位技术盘点

70年代末,随着计算机的应用和传感技术的发展,移动机器人研究又出现了新的高潮。 特别是在80年代中期,设计和制造机器人的浪潮席卷全世界。一大批世界著名...

12010

扫码关注云+社区

领取腾讯云代金券