谷歌大脑QT-Opt算法,机器人探囊取物成功率96%,Jeff Dean大赞

郭一璞 发自 凹非寺 量子位 报道 | 公众号 QbitAI

用于工业生产中的普通机器人,往往只会“给鸡抓鸡,给狗抓狗”,像一个对生活失去了向往的流水线工人,重复着日复一日不用动脑的苦劳力。

但,谷歌大脑昨天发了一个新的算法,让这些穷苦的机械臂开始从事“脑力劳动”:

从一群物品中,抓起需要的东西

比如从拼好的积木组合里,抓单个积木:

所使用的方法是深度强化学习,将大规模分布式优化和新型拟合深度Q学习算法——QT-Opt相结合,来让机器人从过去的每一次训练中学习,获取经验。

7个葫芦娃的4个月修炼

这次训练的参与“队员”有7名,他们用10个GPU开始训练:

一根藤上7个机器人

每个机器人由一个带双指夹具的机械臂和一个RGB摄像头组成:

为了让机器人尽快get新的探囊取物技能,谷歌大脑的工作人员准备了1000样不同的物品用来训练:

仔细看一眼,其中包括各种形状、大小、材质不一的物体:

训练的过程首先从工作人员手动设计的策略开始,逐步切换到深度强化学习模型。

从论文上发现,原理大概是这样的:

学有所成

经过4个月的训练后,7位机器人迎来了他们的“考试”:成绩不错,在700次试验中,机器人找东西抓起来的成功率高达96%,比此前监督学习方法78%的成功率提升了很多。

Jeff Dean觉得它们棒棒的:

凌晨4点的北京,Jeff老师发推夸奖自家机器人

除了提升准确率之外,经过QT-Opt算法训练过的机器人还主动get了4个新技能:

会破除阻碍

如果目标物体和其他东西连在一起,机器人会主动把它分开然后抓取。

比如前面示范的抓积木,机器人可以把影响自己发力的其他积木推开,再抓自己需要的那块积木。

“筷功”强

如果碰到难抓的东西,比如外形奇特或是外表光滑的物品,机器人会分析角度,重新定位,然后牢牢抓住不松手。

随手抓也要分析挑选

如果机器人一下子抓住了一堆东西,它可以自己选出需要的物品,在举起手臂之前牢牢的抓住它。

抢我的一定抢回来

如果人为的把机器人已经抓起来的物体拿掉,它还会锲而不舍的再抓一遍:

重要的是,以上这些技能都不是人为设置的,均是在训练过程中,机器人自行get到的。

最后,谷歌还提供了一个视频,来讲述7位机器人盆友的心路历程:

视频内容
《谷歌大脑:机器人进化论》

最后,附论文传送门~

QT-Opt: Scalable Deep Reinforcement Learning for Vision-Based Robotic Manipulation

作者:Dmitry Kalashnikov, Alex Irpan, Peter Pastor, Julian Ibarz, Alexander Herzog, Eric Jang, Deirdre Quillen, Ethan Holly, Mrinal Kalakrishnan, Vincent Vanhoucke, Sergey Levine

谷歌博客地址:

https://ai.googleblog.com/2018/06/scalable-deep-reinforcement-learning.html

arXiv:

https://arxiv.org/abs/1806.10293

原文发布于微信公众号 - 量子位(QbitAI)

原文发表时间:2018-06-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏腾讯高校合作

犀牛鸟人物丨专访刘偲老师:图像之美像素级语义理解研究

2563
来自专栏AI科技评论

大会 | CVPR VUHCS Workshop征稿啦,附带5项极具吸引力的比赛

AI 科技评论按:CVPR 2018 将于 2018 年 06 月 18-22 日在美国盐湖城举办,除了主会议程,各式各样的 Workshop 也值得大家一探究...

2844
来自专栏机器之心

观点 | Yoav Goldberg撰文再回应Yann LeCun:「深度学习这群人」不了解NLP(附各方评论)

选自Medium 机器之心编译 作者:Yoav Goldberg 参与:黄小天 昨日,机器之心发布了一篇题为《从 Yoav Goldberg 与 Yann L...

37613
来自专栏量子位

卡成PPT不开心?GAN也能生成流畅的连续表情了 |ECCV Oral · 代码

不过,从前的GAN只会生成一些互无关联的表情。这样,即便做成动图,也拥有浓厚的PPT风韵。

1130
来自专栏大数据文摘

金融风控领域的工业级大数据应用: 如何跨越AI与业务经验结合前的鸿沟?

1702
来自专栏AI科技评论

中科院百人计划专家深度解析:银行业务光凭“刷脸”真的靠谱吗?

雷锋网按:本文内容来自云从科技创始人、中国科学院百人计划周曦博士在硬创公开课的分享。在未改变原意的基础上进行了编辑整理。 明明可以靠脸吃饭”这句话不再只是一个网...

3866
来自专栏量子位

新年快乐!这是份值得收藏的2017年AI与深度学习要点大全

若朴 夏乙 编译自 WILDML 量子位 出品 | 公众号 QbitAI 2017已经正式离我们远去。 过去的一年里,有很多值得梳理记录的内容。博客WILDML...

2565
来自专栏华章科技

资源 | 自学数据科学&机器学习?19个数学和统计学公开课推荐

数学和统计学是数据科学和机器学习的基础。就我所知,大多数成功的数据科学家都来自这些领域——计算机科学、应用数学和统计学、经济学。如果你想掌握数据科学,你就必须要...

2272
来自专栏AI研习社

博客 | 玩转「马里奥」的算法能搞定「口袋妖怪」吗?

现在,你很可能已经听说过机器人玩游戏的水平超过人类了吧。这些机器人的一种设计方法是给它们明确地编程,设定一组输入和一组输出之间的对应关系;或者也可以让它们自主学...

1014
来自专栏ATYUN订阅号

AI通过分析建筑规划来解释一个地区的肥胖水平

在21世纪,肥胖率空前增长,对健康和医疗体系的毁灭性影响已经得到了很好的证明。尽管有数十项研究着眼于一些有助于体重增加的健康措施,但这种流行病仍在继续。

953

扫码关注云+社区

领取腾讯云代金券