开发 | OpenAI提出层级强化学习,给长序列动作学习带来新的曙光

AI科技评论按:强化学习是学到一个策略解决智能体与环境间互动问题的重要学习范式。不过以往的强化学习过程都常常很低效,在复杂环境中往往难以收敛。这一方面由于简单的策略难以完善、细致地描述各种不同环境状态下的不同行为,另一方面也有由于可能的行为的组合太多所以要探索的空间太大了。

OpenAI的研究人员们这次就开发了一个层次化的强化学习算法,它可以学习到高阶的行动,用来解决一系列不同的任务,同时也可以快速学会解决总共需要上千个步骤的任务。当这个算法用来解决导航问题时,它能够为不同方向的走或者爬行学到一系列高级别的动作,这也让智能体能够快速掌握新的导航任务。AI 科技评论编译如下:

方法思路

人类应对复杂问题的方法是把它们分解成一系列小的、可控的步骤。比如“做馅饼”就是由一系列高级别的行为组成的,取面粉、打鸡蛋、摊在平底锅内、设定烤箱等等。人类能够快速学到新任务,靠的就是把已经学过的步骤组合起来,即便每个步骤都可能需要百万个低级别的行动组成,像让不同的肌肉做不同的动作这样。

然而,当前的强化学习算法的运行方式都是在低层次的行动中做暴力搜索,解决新问题的时候需要大量的尝试。对于那些需要依次执行很多个步骤的任务来说,这种搜索方法的效率就会变得非常低。

OpenAI的研究人员们提出了一种基于层次化强化学习的解决方案。这种方法中,智能体用几个高层次动作组成的序列表征复杂的行为。这样一来,智能体就可以解决复杂得多的任务:整个解决方案中可能需要2000步左右的低层次动作,层次化策略就可以把它们转化成10个高层次动作组成的序列,那么在这个10步动作的序列中进行搜索就比在2000步的序列中进行搜索高效得多。

共享层次的元学习

OpenAI 提出的算法 meta-learning shared hierarchies(共享层次的元学习,MLSH),能学到一个层次化的策略,其中的主策略可以在一系列子策略中进行切换。每经过N个时间步长,主策略就会选择一个动作;这里的N可以等于200。一个执行N个时间步长的子策略就构成了一个高级别的动作。在研究员们研究的导航问题中,一个子策略就对应了在一种不同的方向下走路或者爬行。

在最开始的研究中,层次化策略都是显式地手工编写的。后来,他们把研究方向转变为让模型在与环境的互动中自动学到层次化结构。从元学习的角度,研究者们把好的层次结构定义为能够在以前未见过的任务中迅速达到高回报的结构。这样,MLSH算法的目标就变成了学到能够在以前未见过的任务中快速学习的子策略。

研究员们在许多不同的任务中训练算法,其中的子策略是共享的,然后对于每个样本任务学到一个新的主策略。在反复训练新的主策略的过程中,它也能自动找到与主策略的学习表现最符合的子策略。

实验结果

类似这个蚂蚁机器人的智能体可以高效地探索空间,它能在向下、向右、向上三个策略之间切换,而不是随机地做出各种尝试。
这个高层次策略都学会了利用一个敌人(子策略从未见过)来让它更快地达到目标。采用的层次强化学习方法把大约需要3000个时间步长的迷宫问题简化成了一个10步的子策略选择问题。

在训练一整晚后,一个训练用于解决9种不同迷宫的MLSH的智能体就学到了分别对应着向上、向右和向下的动作,然后它就可以用这些动作帮它走出迷宫。

在“蚂蚁迷宫”环境中,一个 Mujoco 蚂蚁机器人被放在了9种不同的迷宫中,然后要从开始位置找到出口。OpenAI的新算法仅仅通过与环境互动就成功找到了一组各有不同的子策略,把它们组成序列后走出迷宫。这些训练得到的子策略之后就可以用来解决更大的任务。

论文地址:https://arxiv.org/abs/1710.09767

GitHub地址:https://github.com/openai/mlsh (包含训练智能体的代码和评估算法用到的Mujoco环境)

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-10-31

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏about云

数据挖掘快速入门

问题导读 1.什么是数据挖掘? 2.机器学习 与 数据挖掘在什么地方? 3.数据挖掘能解决什么问题? 1 数据挖掘 数据挖掘(Data Mining,简...

3208
来自专栏量子位

谷歌传奇Jeff Dean给创业者的一小时AI讲座 | 86页PPT+视频

李林 若朴 编译整理 量子位 出品 | 公众号 QbitAI ? 少年,你知道Jeff Dean么? 传奇一般的Jeff Dean现在领导着Google Bra...

3143
来自专栏钱塘大数据

人人都应该掌握的9种数据分析思维

说到数据分析,啤酒和尿布的例子大家应该都听腻了。再具体、深入一些的内容,往往因为数学就令很多人望而却步了。给大家分享9个不带数学推导的数据分析思路,希望大家能喜...

2748
来自专栏Python攻城狮

DIKW模型与数据工程1.DIKW 体系2.数据工程领域中的DIKW体系3.数据工程 领域职业划分4.数据分析5.数据建模基础

DIKW体系是关于数据、信息、知识及智慧的体系,可以追溯至托马斯·斯特尔那斯·艾略特所写的诗--《岩石》。在首段,他写道:“我们在哪里丢失了知识中的智慧?又在哪...

943
来自专栏ATYUN订阅号

【业界】是时候解决深度学习的生产力问题了

深度学习正在推动从消费者的手机应用到图像识别等各个领域的突破。然而,运行基于深度学习的人工智能模型带来了许多挑战。最困难的障碍之一是训练模型所需的时间。 ? 需...

3296
来自专栏机器之心

学界 | SIGIR 2018最佳论文:基于流行度推荐系统有效性的概率分析

使用 IR 方法论和指标用于推荐系统的评估在近年来发展迅速,已成为该领域中的常用实践方法,其将理解推荐看成排序任务 [14]。然而 IR 指标已被发现在推荐受欢...

1041
来自专栏专知

深度学习并非万能:你需要避免这三个坑

本文是人工智能专家George Seif撰写的博文,介绍了在当前深度学习比较火热的情景下需要避免的三个坑。

931
来自专栏华章科技

什么是数据挖掘

好吧,这样的定义方式比较抽象,但这也是业界认可度最高的一种解释了。对于如何开发一个大数据环境下完整的数据挖掘项目,业界至今仍没有统一的规范。说白...

812
来自专栏ATYUN订阅号

【指南】非技术人员的机器学习指南:如何轻松地进入机器学习

世界末日 首先,我们听说机器人正在做蓝领工作。 ? 然后,我们发现白领工作也不安全。 ? 在我们恐慌我们将要失业,我们发现这些机器人正在背后议论我们。 ? 可能...

3506
来自专栏AI研习社

OpenAI 提出层级强化学习,给长序列动作学习带来新的曙光

强化学习是学到一个策略解决智能体与环境间互动问题的重要学习范式。不过以往的强化学习过程都常常很低效,在复杂环境中往往难以收敛。这一方面由于简单的策略难以完善、细...

27011

扫码关注云+社区