专栏首页量子位谷歌教机器人理解语义,像人一样学习复杂技能 | 附3篇论文

谷歌教机器人理解语义,像人一样学习复杂技能 | 附3篇论文

李林 编译自 Google Research Blog 量子位 出品 | 公众号 QbitAI

机器人可以通过机器学习获得复杂的技能,如抓取物体、开门等。

然而,学习这些技能需要我们先人工设置奖励函数,机器人随后再对它进行优化。

而人类,只通过观察别人的做法或者听别人讲,就能理解任务的目标。这依靠的是我们自己先前对世界的了解:看到有人切苹果,我们就会知道目标是“制造两块苹果”,与苹果是什么品种、用什么样的刀无关;如果有人告诉我们拿起苹果,我们就知道要抓住的对象是哪一个,因为我们知道在所处环境中“苹果”这个词的所指是什么。

这就是语义概念:比如“制造两块苹果”这个事件,以及类似“苹果”这样的词表示的对象类别。

我们可以教机器人理解语义概念,让他们遵循分类标签或者用户提供的示例这些简单指令来行动吗?

本文讨论了我们最近关于机器人学习的一些工作,这些工作把机器人自主收集的经验和人类标注的数据结合起来。机器人自动收集的经验数量巨大,但缺乏人类提供的标签;人类标注的数据则能帮机器人理解语义。

我们将描述机器人如何用它们的经验来理解人类演示中的突出事件,模仿人类动作,理解玩具、笔等语义类别,来根据用户指令拾取物体。

通过深度视觉特征理解人类演示

第一组实验来自我们的论文“Unsupervised Perceptual Rewards for Imitation Learning”。

论文项目地址: https://sermanet.github.io/rewards/

我们的目标是让机器人能通过少量人类标注的示范,理解像开门这样的任务。通过分析这些演示,机器人必须理解与任务成功相关的语义突出事件,然后用强化学习来执行。

人类演示(左)和机器人模仿(右)

在非常小的数据集上的无监督学习是机器学习中最具挑战性的场景之一。

为了使这种学习可行,我们从ImageNet预训练过的大型图像识别神经网络中提取特征。已知这种特征对于语义概念是非常敏感的,同时不受外观和照明等妨扰变量的影响。

我们用这些功能来理解用户提供的示范,并且不依靠重新训练从几个范例中以无监督的方式学习奖励函数。

奖励函数的例子是通过观察开门任务学到的。 任务完成后,奖励从零增加到最高。

通过观察学习奖励函数后,我们用它来引导机器人学习开门任务,只使用图像来评估奖励函数。通过初步的动作演示和奖励函数,机器人动作的准确率从10%提高到100%。

学习过程

用自我监督和模仿来重复人类动作

在论文“Time-Contrastive Networks: Self-Supervised Learning from Multi-View Observation”中,我们提出了一种从观察中学习世界的新方法,并通过自我监督的姿态模拟证明了这一点。

论文项目地址: https://sermanet.github.io/tcn/

我们的方法主要依靠时间和空间的共现来实现监督:通过训练来区分视频中不同时间的帧,它学会将现实分解和组织成有用的抽象表示。

例如在姿势模仿任务中,不同维度的表示可以编码人或机器人身体的不同关节。人与机器人的身体结构有差异,人与机器人关节之间的映射是模糊的,因此,我们不是手动定义这种映射,而是让机器人以端到端的方式学习模仿。

当我们的模型同时观察人类和机器人的动作,进行训练时,即使没有提供任何对应关系,它也可以自然地发现两者之间的对应。于是,我们获得了一种机器人,不需要提前知道人与机器人之间的对应关系,就能模仿人的姿势。

机器人通过自监督学习模仿人类姿势

上面展示的多对一和高度非线性关节映射,正是端到端学习的一种明显好处。在这个例子中,人类的上下运动涉及许多关节,而机器人只需要一个关节。

我们的研究显示,机器人在人类没有提供任何明确信息的情况下,自己发现了这种高度复杂的映射。

通过语义对象类别抓取

上面的实验说明了人们如何通过示例演示来为机器人设置目标,在这种情况下,机器人必须理解任务语义与突出事件间的关系,以及动作的相关特征。

如果人类不想展示任务,只是想告诉它要做什么呢?

这也需要机器人了解语义,以便识别世界中哪些对象与用户指定的语义类别相对应。

在论文“End-to-End Learning of Semantic Grasping”中(量子位此前介绍过这篇论文的详细内容),我们研究了如何利用手动标记和自动收集的数据,来执行语义抓取任务,在任务中,机器人必须从一个混乱的箱子里,拾取用户制定类别的物体,比如“橡皮”、“玩具”等。

论文项目地址: https://arxiv.org/abs/1707.01932

在我们的语义抓取实验中,机械臂的任务是根据用户指定的语义类别抓取相应物体。

为了学习语义抓取,我们的机器人先像上一项研究描述的那样,通过自主尝试拾取各种对象来收集大量数据。有了这些数据,机器人就能够拾取对象,但不能理解如何将它们与语义标签相关联。

为了让机器人理解语义,我们引入了适度的人类监督。每次机器人成功地抓住一个物体,它会以规定的姿势将其呈现给相机,如下图所示。

机器人抓取物体后,会将它放到摄像头前。这些照片可以用来标记实际抓取物体的类别。

然后,这些图像的一个子集由人类进行标注。由于图像中物体的姿势一致,很容易通过训练一个分类器,来把这些标签添加到其他图像上。

经过标注的图像会告诉机器人该拾取哪些物体,也能告诉机器人实际拾取了哪个对象。

用这个有标记的数据集,我们可以训练一个双流模型,根据当前图像和机器人的动作来预测哪些对象将被抓取。

我们采用的双流模型灵感来源于人类视觉皮层中观察到的腹背分解,腹侧流负责识别物体类别,背流同时解释正确抓取所需的几何图形关系。

关键的是,腹侧流可以包含对象标签的辅助数据,背流可以包含不具有语义标签的辅助数据,从而允许整个系统更有效地使用更大量的异质标记数据。

以这种方式,我们可以将有限数量的人类标签与大量自动收集的机器人数据结合在一起,以便根据所需的语义类别来掌握对象,如下面的视频所示:

视频内容

未来的工作

我们的实验显示了有限的语义标签数据可以与机器人自动收集并标记的数据相结合,以使机器人能够理解事件、对象类别和用户演示。

将来,我们可以想象,机器人系统能通过有限的用户标注数据和不断增加的自动收集标注数据集,结合起来进行训练,提高机器人能力并减轻设计机器人的工程负担。

此外,机器人系统在现实世界中收集了越来越多自动注释的数据,这种辅助数据来源不仅能用来改进机器人系统,计算机视觉,语音识别和自然语言处理系统都能从中受益。

当然,机器人和语义学的交叉并不是我们开创的。自然语言理解、机器人感知、抓取和模仿学习领域,都对如何在机器人系统中结合语义和行为做了广泛的研究。

然而,我们上面讨论的这些实验,可能为未来自动机器人系统中自监督和人类标注数据的结合指出了一条路。

本文分享自微信公众号 - 量子位(QbitAI),作者:专注报道AI

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-07-22

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 北航机器人研究所名誉所长王田苗:人工智能与机器人的发展趋势 | 北大AI公开课笔记

    量子位
  • 机器人正改变着全球工业,仅中国去年就买了9万台

    李杉 编译自 FT 量子位 出品 | 公众号 QbitAI 机器人行业的增长,究竟有多强劲? 国际机器人联合会(IFR World Robotics)给出的数据...

    量子位
  • 我没让机器人变身,它自己就变了 | Science Robotics

    小时候,曾经真挚地向往巴巴爸爸的变形技能。想凿开冰球,就把自己变成嘴巴尖利的大鸟。

    量子位
  • 最新研究表明:人类可以被机器人操纵情感

    德国杜伊斯堡 – 埃森大学的研究人员发现,人类很容易受到机器人的情绪操纵。研究结果表明,人类有很强烈的拟人化倾向 – 把人类特征,情感或意图归因于机器人等非人类...

    AiTechYun
  • 【习近平】在英国参观医疗机器人,全球市场即将爆发?

    当地时间10月21日上午,习近平和夫人彭丽媛访问帝国理工学院,并参观大数据和医疗机器人领域的两个研究机构。 据介绍,习近平和约克公爵还将和帝国理工学院最新开发...

    新智元
  • 耶鲁大学新研究登刊 IEEE:狗狗更能服从机器人的指令

    内容概要:耶鲁大学社交机器人实验室近期在IEEE 的《Spectrum》上刊登了一项最新研究,在实验中,机器人给宠物狗发出的指令,比人给宠物狗发出的指令,更能让...

    HyperAI超神经
  • 2个月、超15起、30亿美元投资,机器人终于崛起?

    疫情爆发以来,快速发展的行业除了生鲜电商、在线教育、远程办公等产业,还有服务机器人。

    刘旷
  • 对不起,“新基建”或许对机器人帮助不大

    “新基建”一次性按下了七大领域的加速键,一夜之间许多行业都为自己打上了“新基建”的标签,说也有趣,仿佛每个公司都有先见之明。

    用户2908108
  • 认识机器人

    这几年随着人工智能和机器人的各种概念兴起,机器人被越来越多人所了解和熟知。随便问一个人都知道机器人,并且也都能说出一二;尽管都知道机器人,还是有一部分人觉得机器...

    用户7054460
  • 我在重症隔离区调试机器人

    因为这场突如其来的疫情,很多人的生活都被迫按下了暂停键,但对于医疗机器人行业和机器人背后的技术人来说,他们按下的却是快进键。

    养码场

扫码关注云+社区

领取腾讯云代金券