OpenAI开发的分级强化学习算法旨在解决高级操作

我们已经开发了一种分层强化学习算法,它学习用于解决一组任务的高级操作,可以快速解决需要数千个时间步长的任务。我们的算法应用于一组导航问题时,会发现一组用于在不同方向上进行走路和爬行的高级动作,这使智能体能够快速掌握新的导航任务。

视频一:http://imgcdn.atyun.com/2017/10/videoplayback-5.mp4

人类解决复杂挑战的方法是将它分解成很多小的易于控制的部分。例如,煎饼由一系列高层次的行动组成,如和面,加蛋,入锅等。人类能够通过对这些已经学会的部分进行排序来快速学习新的任务,即使这个任务可能需要数百万个的低级动作,如肌肉收缩等。

另一方面,现在的强化学习方法是通过对低级别行动的暴力搜索来进行的,它需要大量的尝试来解决新的任务。当你需要处理拥有大量时间步的任务时,这种方法效率极低。

我们的解决方案是基于分成强化学习的思想,智能体将复杂的操作表示为一个高级操作的简短序列。这样我们的智能体可以解决更难的任务:尽管解决方案可能需要2000个低级别的操作,但分成策略将其转换为10个高级操作的序列,这比搜索2000步序列效率高多了。

元学习共享分层

我们的算法,元学习共享分层(MLSH)学习了主策略在一组子策略之间切换的分层策略。主策略每N个时间步长选择一个动作,我们假设N = 200。执行N个时间步的子策略构成高级动作,就我们的导航任务而言,子策略对应于不同方向的爬行。

在以前的大多数工作中,分层政策都被明确地手工设计。而我们的目标是通过与环境的交互自动发现这种分层结构。从元学习的角度来看,我们定义一个好的分层结构可以很快的在未知的任务上获得高回报。因此,MLSH算法是在学习在未知的任务中实现快速学习的子策略。

我们对任务分配进行训练,在每个抽样任务学习新的主策略时共享子策略。通过反复训练新的主策略,这个过程会自动查找适应主策略学习动态的子策略。

实验

视频二:http://imgcdn.atyun.com/2017/10/dfgh.mp4

经过一夜之后,经过训练的智能体解决了九个不同的迷宫,发现了与向上,向右和向下运动相对应的子策略,然后自己导航走出了迷宫。

在我们的AntMaze环境中,Mujoco Ant机器人被放置在9个不同的迷宫中,要求它必须独立从入口走到出口。我们的算法能够成功地找到一组不同的子策略,这些子策略可以通过与环境的交互来解决迷宫任务。然后可以使用这组子策略来完成更大的任务。

视频三:http://imgcdn.atyun.com/2017/10/tyui.mp4

在单独的迷宫环境下进行训练,可以自动学习子策略来解决任务。

  • 代码:https://github.com/openai/mlsh

原文发布于微信公众号 - ATYUN订阅号(atyun_com)

原文发表时间:2017-11-05

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏美团技术团队

美团技术团队博客:推荐算法实践

前言 推荐系统并不是新鲜的事物,在很久之前就存在,但是推荐系统真正进入人们的视野,并且作为一个重要的模块存在于各个互联网公司,还是近几年的事情。 随着互联网的深...

46511
来自专栏新智元

谷歌开源最大手动注释视频数据集和 TensorFlow 模型性能调优工具

【新智元导读】谷歌再度开放Youtube视频数据集——Youtube边界框(YouTube-BoundingBoxes),含23类共500万手动注释的、紧密贴合...

4088
来自专栏ATYUN订阅号

【学术】从一个简单的模型开始,可以让机器学习更高效

AiTechYun 编辑:xiaoshan ? 要创建通用人工智能,必须首先掌握逻辑回归 从基础开始 在试图发展对世界的科学认识的时候,大多数的领域在探索重要的...

4147
来自专栏AI科技评论

动态 | 谷歌发布机器学习规则 关于机器学习工程的最佳实践(下)

文章介绍了一种机器学习样式,类似于 Google C++ 样式指南和其他常用的实用编程指南。

732
来自专栏人工智能

深度学习轻松学:如何用可视化界面来部署深度学习模型

翻译 | AI科技大本营 参与 | 王赫 上个月,我有幸结识了 DeepCognition.ai 的创始人。 Deep Cognition (深度认知) 建立的...

2987
来自专栏AI科技评论

谷歌机器学习白皮书全解析 43条黄金法则(三)

AI科技评论按:此白皮书为谷歌总结的机器学习(ML)最优实践方法,浓缩了其多年技术积累与经验,尤其是 YouTube、Google Play 和 Google+...

3988
来自专栏数据派THU

精选 Github 近期13款开源工具包!(附数据集、链接)

本文共1700字,建议阅读6分钟。 本文为你精选近期Github上的13款深度学习开源工具包和数据集,一起Star和Fork吧~

1678
来自专栏PaddlePaddle

AI不思议|说说那些偶尔混淆的概念

但是产品和运营两队小伙伴一不小心就遇到概念混淆的场景,有些时候是自己记模糊了、有些时候自己没记错、却被别人“拐到沟里“了…

1011
来自专栏GAN&CV

Rules of Machine Learning: Best Practices for ML Engineering

原文地址:https://developers.google.com/machine-learning/rules-of-ml/ 作者:Martin Zin...

1403
来自专栏PPV课数据科学社区

【学习】推荐算法实践

前言 推荐系统并不是新鲜的事物,在很久之前就存在,但是推荐系统真正进入人们的视野,并且作为一个重要的模块存在于各个互联网公司,还是近几年的事情。 随着互联网的深...

2913

扫码关注云+社区