开发 | OpenAI提出层级强化学习,给长序列动作学习带来新的曙光

AI科技评论按:强化学习是学到一个策略解决智能体与环境间互动问题的重要学习范式。不过以往的强化学习过程都常常很低效,在复杂环境中往往难以收敛。这一方面由于简单的策略难以完善、细致地描述各种不同环境状态下的不同行为,另一方面也有由于可能的行为的组合太多所以要探索的空间太大了。

OpenAI的研究人员们这次就开发了一个层次化的强化学习算法,它可以学习到高阶的行动,用来解决一系列不同的任务,同时也可以快速学会解决总共需要上千个步骤的任务。当这个算法用来解决导航问题时,它能够为不同方向的走或者爬行学到一系列高级别的动作,这也让智能体能够快速掌握新的导航任务。AI 科技评论编译如下:

方法思路

人类应对复杂问题的方法是把它们分解成一系列小的、可控的步骤。比如“做馅饼”就是由一系列高级别的行为组成的,取面粉、打鸡蛋、摊在平底锅内、设定烤箱等等。人类能够快速学到新任务,靠的就是把已经学过的步骤组合起来,即便每个步骤都可能需要百万个低级别的行动组成,像让不同的肌肉做不同的动作这样。

然而,当前的强化学习算法的运行方式都是在低层次的行动中做暴力搜索,解决新问题的时候需要大量的尝试。对于那些需要依次执行很多个步骤的任务来说,这种搜索方法的效率就会变得非常低。

OpenAI的研究人员们提出了一种基于层次化强化学习的解决方案。这种方法中,智能体用几个高层次动作组成的序列表征复杂的行为。这样一来,智能体就可以解决复杂得多的任务:整个解决方案中可能需要2000步左右的低层次动作,层次化策略就可以把它们转化成10个高层次动作组成的序列,那么在这个10步动作的序列中进行搜索就比在2000步的序列中进行搜索高效得多。

共享层次的元学习

OpenAI 提出的算法 meta-learning shared hierarchies(共享层次的元学习,MLSH),能学到一个层次化的策略,其中的主策略可以在一系列子策略中进行切换。每经过N个时间步长,主策略就会选择一个动作;这里的N可以等于200。一个执行N个时间步长的子策略就构成了一个高级别的动作。在研究员们研究的导航问题中,一个子策略就对应了在一种不同的方向下走路或者爬行。

在最开始的研究中,层次化策略都是显式地手工编写的。后来,他们把研究方向转变为让模型在与环境的互动中自动学到层次化结构。从元学习的角度,研究者们把好的层次结构定义为能够在以前未见过的任务中迅速达到高回报的结构。这样,MLSH算法的目标就变成了学到能够在以前未见过的任务中快速学习的子策略。

研究员们在许多不同的任务中训练算法,其中的子策略是共享的,然后对于每个样本任务学到一个新的主策略。在反复训练新的主策略的过程中,它也能自动找到与主策略的学习表现最符合的子策略。

实验结果

类似这个蚂蚁机器人的智能体可以高效地探索空间,它能在向下、向右、向上三个策略之间切换,而不是随机地做出各种尝试。
这个高层次策略都学会了利用一个敌人(子策略从未见过)来让它更快地达到目标。采用的层次强化学习方法把大约需要3000个时间步长的迷宫问题简化成了一个10步的子策略选择问题。

在训练一整晚后,一个训练用于解决9种不同迷宫的MLSH的智能体就学到了分别对应着向上、向右和向下的动作,然后它就可以用这些动作帮它走出迷宫。

在“蚂蚁迷宫”环境中,一个 Mujoco 蚂蚁机器人被放在了9种不同的迷宫中,然后要从开始位置找到出口。OpenAI的新算法仅仅通过与环境互动就成功找到了一组各有不同的子策略,把它们组成序列后走出迷宫。这些训练得到的子策略之后就可以用来解决更大的任务。

论文地址:https://arxiv.org/abs/1710.09767

GitHub地址:https://github.com/openai/mlsh (包含训练智能体的代码和评估算法用到的Mujoco环境)

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-10-31

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏腾讯技术工程官方号的专栏

协同过滤在新闻推荐CTR预估中的应用

作者简介:minlonglin,AI平台部Y项目组员工。2012年毕业于中国科学技术大学计算机科学与技术学院,读博期间主攻集成学习、类别不平衡分类等方向,期间曾...

2618
来自专栏AI科技评论

改进模型架构遇到了瓶颈?你该考虑改善自己的数据了!

AI 科技评论按:这篇博客来自 Jetpac(现被谷歌收购) CTO、苹果毕业生、TensorFlow 团队成员 Pete Warden。文中讨论了一个很容易被...

965
来自专栏企鹅号快讯

回望2017,基于深度学习的NLP研究大盘点

AI 科技评论按:本文是一篇发布于 tryolabs 的文章,作者 Javier Couto 针对 2017 年基于深度学习的自然语言处理研究进行了大盘点。AI...

2185
来自专栏AI科技大本营的专栏

AI 每周必读:The Ones

【AI100 导读】本周的 The Ones 为大家推荐了一篇 GAN 在 Chatbot 领域应用的 paper,一个基于 matlab 的深度学习框架 Li...

3068
来自专栏新智元

【榜单】10位值得关注的机器学习Quora大咖问答录

【新智元导读】这篇文章基于Quora的“机器学习板块被阅读最多的作者”,列举了过去30天里回答被阅读最多的10位作者,数据统计至2017年6月25日。 Håko...

3289
来自专栏机器之心

语音合成到了跳变点?深度神经网络变革TTS最新研究汇总

机器之心原创 作者:李亚洲 近年来,随着深度神经网络的应用,计算机理解自然语音能力有了彻底革新,例如深度神经网络在语音识别、机器翻译中的应用。但是,使用计算...

2655
来自专栏机器之心

斯坦福李纪为博士毕业论文:让机器像人一样交流

34511
来自专栏数据派THU

独家 | 一文解析统计学在机器学习中的重要性(附学习资源)

本文共2400字,建议阅读10分钟。 本文介绍为什么统计对于通用应用和机器学习如此重要,并大致了解各种可用的方法。

974
来自专栏大数据挖掘DT机器学习

基于协同过滤的推荐算法与代码实现

什么是协同过滤 协同过滤是利用集体智慧的一个典型方法。要理解什么是协同过滤 (Collaborative Filtering, 简称 CF),首先想一个简单的问...

4178
来自专栏专知

【下载】面向机器智能的TensorFlow实践书籍和代码

【导读】自2015年11月TensorFlow第一个开源版本发布以来,它便迅速跻身于最激动人心的机器学习库的行列,并在科研、产品和教育等领域正在得到日益广泛的应...

3278

扫描关注云+社区