学界 | DeepMind提出强化学习新算法,教智能体从零学控制

AI 科技评论按:不管你让小孩还是大人整理物品,他们很大可能都不会乖乖听你的话,如果想要让 AI 智能体进行整理收拾,那就更难了。如果想成功,需要掌握如下几个核心视觉运动技能:接近物体,抓住并举起它,打开盒子,把物体放进去。而更复杂的是,执行这些技能时,必须按照正确的顺序。

对于一些控制类的任务,比如整理桌面或堆叠物体,智能体需要在协调它的模拟手臂和手指的九个关节时,做到三个 W,即如何(how),何时(when)以及在哪里(where),以便正确地移动,最终完成任务。

在任何给定的时间内,需要明确各种可能的运动组合的数量,以及执行一长串正确动作,这些需求引申出一个严肃的问题,这成为强化学习中一个特别有趣的研究领域。

诸如奖赏塑形(reward shaping)、学徒学习(Apprenticeship learning)或从演示中学习(Learning from Demonstration)等技术可以帮助解决这个问题。然而,这些方法依赖于大量与任务相关的知识,而从零开始,通过最少的预先知识学习复杂的控制问题仍然是一个众所周知的挑战。

我们最近的论文提出了一种新的学习范式,叫做「调度辅助控制」(Scheduled Auxiliary Control (SAC-X)),我们试图通过这种学习范式来克服这个问题。

SAC-X 是基于从头开始学习复杂的任务这种想法,即一个智能体首先应该学习并掌握一套基本技能。就像婴儿在爬行或走路前必须具有协调能力和平衡能力,为智能体提供与简单技能相对应的内在目标(具有辅助作用),这会增加它理解和执行更复杂任务的可能性。

我们在几个模拟和真实的机器人任务中演示了 SAC-X 法,包括不同物体的堆叠,将物体放到盒子里。我们定义的辅助任务遵循一般原则:鼓励智能体探索其感应空间。

例如,激活手指上的触觉传感器,感知手腕的力度,利用本体感应器将关节角度调到最大,在视觉传感器范围内强制性移动物体。对于每个任务,如果实现目标,会提供相应的简单奖励。没实现目标的话,奖励为零。

智能体首先学习激活手指上的触觉传感器,然后移动物体

模拟智能体最终掌握复杂的堆叠任务

智能体接下来可以自行决定其当前的「意图」,例如下一步做什么。可能会是一个辅助任务或者是外部定义的目标任务。至关重要的是,对于目前还没有使用基于回放的离策略学习方法的任务,该代理可以从奖励信号中发现和学习。例如,当拾取或移动一个物体时,智能体可能会偶然地将物体堆叠起来,观察到「堆叠奖励」。一系列简单的任务会让智能体观察到罕见的外部奖励,所以让智能体具有安排意图的能力至关重要。

基于收集到的所有的间接知识,智能体会建立一个个性化的学习课程。在如此大的领域中,通过这种方法来利用知识非常高效,在只有很少的外部奖励信号的情况下尤其有用。

通过调度模块,智能体会决定接下来的意图。利用元学习算法,调度器会在训练过程中得到改进,该算法试图最大限度地提高主任务的进程,进而显著提高数据效率。

在探索完许多内部辅助任务之后,智能体学会了如何堆叠和整理物品

评估表明,SAC-X 能够从零开始完成我们设置的所有任务,这些任务都是在相同的辅助任务集下完成的。令人兴奋的是,利用 SAC-X,我们实验室的机器人手臂能够成功地从零开始学习拾取和摆放。在过去这极具挑战性,因为在现实世界中让机器人学习需要高效的数据,所以流行的方法是预训练模拟智能体,然后再将这种能力转移到真正的机器人手臂中。

针对真实的机器人手臂, SAC-X 能学习如何举起和移动绿色的立方体,在此之前它从来没有接触过这类任务

我们认为 SAC-X 是通向从零学习控制任务的重要一步,只需定义好整体目标。SAC-X 允许任意定义辅助任务,这些任务可以基于一般的看法(如有意激活传感器),最终会涵盖研究人员认为重要的任务。从这方面来说,SAC-X 是一种通用的强化学习方法,可以广泛应用于控制和机器人领域之外的一般稀疏强化学习环境。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2018-03-02

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏华章科技

大数据深度学习下车辆厂牌型号识别

车辆身份识别系统是智能交通的重要分支,它需要人工智能、图像处理、计算机视觉、模式识别等相关技术的综合应用。目前国内的车牌识别技术已经日益成熟,随着智能交通技术应...

632
来自专栏机器之心

学界 | 学习顶级玩家Replay,人工智能学会了星际争霸的「大局观」

选自arXiv 机器之心编译 参与:李泽南 学会了哥的运营,剩下的就是 A 了——「F91」孙一峰。 神经网络是机器学习的一个重要分支,近年来随着深度学习的兴起...

3356
来自专栏AI科技大本营的专栏

2017深度学习展望

---- 作者: James Kobielus 编译: AI100 原文地址: http://www.kdnuggets.com/2016/12/ibm-...

2415
来自专栏新智元

Geoff Hinton 专访:Waston 系统和深度学习有什么区别?

关键词还没输入完毕,Google已经返回了你想要的搜索结果;Facebook能将你上传的照片自动打上标签;无人驾驶汽车都已经开上路了。这些所有令人觉得不可思议的...

3566
来自专栏CSDN技术头条

Yann LeCun:深度学习硬件前瞻

Yann LeCun被大家誉为“卷积神经网络之父”,该技术助推了人工智能在Google、Facebook等公司的发展,在此之外,LeCun也已经不再局限于扎根算...

1926
来自专栏PPV课数据科学社区

深度 | 地平线罗恒:应用深度学习的门槛是在降低吗?

导读: 地平线机器人资深算法研究员罗恒参加了钛坦白第33期,与百度资深工程师、Paddle API重构设计负责人于洋及第四范式联合创始人、首席研究科学家陈雨强一...

2966
来自专栏数据科学与人工智能

【数据科学】数据科学中隐藏的数据智慧

在大数据时代,学术界和业界的大量研究都是关于如何以一种可扩展和高效率的方式来对数据进行储存,交换和计算(通过统计方法和算法)。 这 些研究领域无疑非常重要,然而...

2615
来自专栏AI研习社

DeepMind 提出全新强化学习算法,教智能体从零开始学会控制

AI 研习社按:对于智能体来说,从零开始,通过最少的知识学习复杂的控制问题是一个众所周知的挑战。日前,DeepMind 提出全新强化学习算法「调度辅助控制」(S...

2378
来自专栏镁客网

Leslie Valiant:机器学习所面临的挑战

9月6日,以“AI赋能,驱动未来”为主题的2018中国人工智能峰会(CAIS 2018)在南京国际博览会议中心成功召开。本次峰会汇聚了Leslie Valian...

682
来自专栏云市场·精选汇

AI学院 | 人工智能基本知识概览

人工智能(Artificial Intelligence):缩写为AI,是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。

986

扫码关注云+社区