专栏首页AI电堂25分钟训练机器人学会6个动作,伯克利开发高效机器人操纵框架

25分钟训练机器人学会6个动作,伯克利开发高效机器人操纵框架

这个机械臂正在完成够、拿、移、推、点、开等6个动作。

而且动作娴熟,还不存在失误。

更令人意外的是,训练这个机械臂,只花了短短25分钟

即使有人为干扰,它也能够成功完成抓取动作。

还能抓起以前没有见过的物体形状。

这就是来自加州大学伯克利分校的一项新研究——高效机器操作框架Framework for Efficient Robotic Manipulation(FERM),专门对机械臂进行高效率操作的算法训练。

FERM为什么比其他方法效率高?

目前来看,大多数针对机器人训练的的RL算法效率都不是很好。

采用稀疏奖励的方法训练Dota5游戏的人机操作,使之成为达到人类玩家的高手水平,需要花180年的游戏时间。

训练一个机械臂的手势,则需要上千万的模拟学习的样本和两周的训练时间。

Sim2Real模拟学习这两个方法稍微好点。Sim2Real需要接受模拟训练,再将训练结果运用到现实事例中。

模拟学习则需要通过一系列的专业训练示范案例和监督学习,才能得出最后的训练策略,实验结果非常依赖于输入示范案例的质量。

FERM优势在于,既没有依靠模拟训练转换到现实,也不用高度依赖于输入的示范案例的质量。

而是基于非监督性表征学习和数据扩张技术,使用了pixel-based RL

因此,它仅仅需要10个Demo,25分钟的训练时间,就可以让机器人学会六个动作

FERM具体怎么训练?

FERM采用了基于像素的强化学习(pixel-based RL)方法。

具体而言,先收集小部分演示数据,并且将这些数据存放在“回放缓冲区”上。

然后,用观察结果结合对比损失量,来对编码器进行预训练。

而后,编码器和“回放缓冲区”运用一种线下的数据来加强RL算法,对RL智能体进行训练。

在论文中,研究人员总结了FERM主要优点:

1、高效率:FERM可以学习6种不同操作任务的最优策略,在15-50分钟的训练时间内完成每项任务。

2、简单统一的框架:框架结合现有的组成部分,将无监督的预训练和在线RL与数据扩充成一个单一高效的框架。

3、常规轻量设置:实施起来只需要一个机器人、一个GPU、两个摄像头、几个演示,以及稀疏奖励函数等等。

具体的实验结果如何?

实验结果

这项实验采用像素观察的方法执行了一系列任务。下图的每一栏显示了初始、中间、结果等三个状态。只有当机器人完成任务时,才会获得稀疏奖励。

这个训练算法的效率可谓很高了。具体完成时间如下图表格所示,在30分钟左右,它就可以让机器人学习操作任务。而简单的“够”(Reach)动作,则只需要三分钟

实验结果称,它不需要很多的Demo,也不需要到大量的设备,首次完成任务的平均时间为11分钟,并且可以在25分钟内训练出6个机械动作。

所以研究人员骄傲地说:

“据我们所知,FERM是第一个能在不到一小时的时间内,能通过像素点直接完成来自不同组、采用稀疏奖励方法的机器操作任务。”

而根据相关报告,未来十年,制造业将需要460万个岗位。许多制造商也都在转向自动化生产,机械自动化将占比越来越高。FERM这样的高效训练框架,可谓是制造业福音。

参考链接: https://venturebeat.com/2020/12/16/new-framework-can-train-a-robotic-arm-on-6-grasping-tasks-in-less-than-an-hour/

论文地址: https://arxiv.org/abs/2012.07975

源代码: https://github.com/PhilipZRH/ferm

本文分享自微信公众号 - AI电堂(aidiantang)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2021-01-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • TWS耳机的开挂人生

    2016年,苹果推出的 AirPods 以主动降噪+真无线TWS耳机,引爆市场。TWS 耳机正式开启开挂人生。

    AI 电堂
  • 干货 | 数亿个晶体管怎么放进芯片的?

    芯片一般是指集成电路的载体,也是集成电路经过设计、制造、封装、测试后的结果,通常是一个可以立即使用的独立的整体。

    AI 电堂
  • MEMS前途无量,中国MEMS产业来日方长

    不论市场面临饱和停滞,抑或高昂增长,MEMS一直以来都是半导体业的一颗璀璨明星。在即将到来的智能物联网时代,MEMS 传感器正扮演着越来越重要的角色。

    AI 电堂
  • 如何训练深度神经网络?

    译文:《How to train your Deep Neural Network》

    机器学习算法工程师
  • MIT机器人半天盖一座房子,直径等于半个美国国会大厦 | 视频

    李杉 编译自 Science 量子位 出品 | 公众号 QbitAI 只用了半天时间,MIT研究人员就让一种新型的机器人建造了一栋圆顶建筑,直径大约是美国国会大...

    量子位
  • 省时间的技术理念:罗辑思维全链路压测实践

    业务的知名度越高,其背后技术团队承受的压力就越大。一旦出现技术问题,就有可能被放大,尤其是当服务的是对知识获取体验要求颇高的用户群体。

    DevOps时代
  • Python Web前端实战案例——电商网站商品菜单导航栏

    商品菜单导航栏是每个电商网站首页呈现菜单的必备的部分,因为复杂的网页,功能性较强的网站菜单内容较多,一般会加入侧边栏导航。 通常情况下:一级菜单都是横向导航,...

    荣仔_最靓的仔
  • 代码中进程的绝对路径要怎么获取?

    我们日常测试中,有时候有些辅助程序文件比如一些配置文件需要放在主程序执行文件同样的位置,便于管理和调用,这时候我们就需要获取执行文件的绝对路径。

    用户5521279
  • 爱奇艺Android客户端启动优化与分析

    互联网领域里有个八秒定律,如果网页打开时间超过8秒,便会有超过70%的用户放弃等待,对Android APP而言,要求更加严格,如果系统无响应时间超过5秒,便会...

    用户1269200
  • go中标签(tag)

    所以呢就多了反引号的内容,在golang中叫标签(Tag),在转换成其它数据格式的时候,会使用其中特定的字段作为键值。例如上例在转成json格式后输出对应该字段...

    槽痞

扫码关注云+社区

领取腾讯云代金券