业界 | OpenAI 新研究:通过自适应参数噪声提升强化学习性能

选自OpenAI

机器之心编译

参与:黄小天、路雪、李泽南

OpenAI 的研究人员发现,改善强化学习算法参数中的自适应噪声性能可以提升性能。这种探索方式易于实现,同时很少降低系统表现,因此值得一试。

  • 代码地址:https://github.com/openai/baselines
视频内容
视频内容

参数噪声可以帮助算法更有效地探索周围的环境,思考所有可能的动作。在经过 216 次 DDPG 无噪声的训练迭代之后,模型将会变得效率低下,而加入参数噪声的训练方法将会让模型的的效果大大提升。

参数噪声可以让我们更快地教会人工智能代理执行任务。在 HalfCheetahGym 环境中(如上图)训练 20 次之后,加入噪声的模型可以达到 3000 分左右的水平,而与之对比的普通模型只能保持在 1500 分左右。

参数噪声将自适应噪声加入神经网络策略的参数中,而非其运动空间里。传统强化学习(RL)使用运动空间噪声来改变人工智能代理从一个时刻到另一个时刻所采取的每个动作之间相关联的可能性。而参数空间噪声将随机性直接注入到代理的参数中,改变它做出的决策的类型,使得它们总是完全依赖于代理当前感知的内容。这项技术在进化策略中处于中间位置(你可以操纵策略的参数,但这不影响策略在每次提出时探索环境所采取的行动)和深度强化学习方法,如 TRPO、DQN 和 DDPG(其中你不需要修改参数,但它们也在策略空间中加入了噪声)。

动作空间噪声(左),参数空间噪声(右)

参数噪声帮助算法更高效地探索环境,进而获得更高的分数和更优雅的行为。我们认为其原因在于将噪声缓慢地加到策略参数上可以使智能体在不同时间步上的探索更加一致,而向动作空间添加噪声会使探索更加无法预测,其与智能体的参数无关。

之前,人们尝试过将参数噪声加到策略梯度上。我们扩展了这种做法,研究证明该技术可以在基于深度神经网络的策略上发挥作用,还能够应用到在策略算法和离策略算法中。

参数空间噪声可帮助在越野摩托车挑战(Enduro)游戏中获得更高分数。两次训练之后,训练过程中添加了参数噪声的 DDQN 学会了加速和转弯,而使用动作空间噪声的模型动作多样性较少。

我们在实施该研究时,遇到了以下三个问题:

  • 网络的不同层对扰动的敏感性不同。
  • 策略权重的敏感性在训练过程中可能发生变化,使我们很难预测策略的下一步行动。
  • 如何添加适量的噪声是一个难点,因为我们很难直观地理解参数噪声如何在训练过程中对策略产生影响。

我们使用层归一化来解决第一个问题,确保受扰动层的输出(也是下一层的输入)仍然在相似分布范围内。我们引入自适应机制来调整参数空间扰动的大小,解决第二和第三个问题。该调整通过评估扰动对动作空间的影响以及动作空间噪声水平是否大于目标水平来实施。这个技巧使我们将问题转移到如何选择适量噪声增加到动作空间,这比将噪声增加到参数空间更容易理解。

基线和基准

我们还发行了基线代码,可以将该技术与 DQN、Double DQN、Dueling DQN、Dueling Double DQN 和 DDPG 相整合。

在 Mujoco 模拟器中的多个连续控制任务中,我们已经在 Atari 游戏语料库以及 DDPG 的三种变体的一个子集上列出了具有和不具有参数噪声的 DDQN 的性能基准。

开发

首次开展这项研究之时,我们发现应用于 DQN 的 Q 函数的扰动有时是如此极端,以至于算法重复执行相同的动作。为了解决这一问题,我们添加了一个单独的头(head),明显地表征 DDPG 中的策略(在常规 DQN 中,该策略仅由 Q 函数隐含地表征),使该设置更类似于我们的其他实验。但是,在准备这个版本的代码时,我们使用不带有单独策略头的参数空间噪声做了一个实验。我们发现,相比于带有单独策略头的版本,它不仅奏效,而且更容易实现。进一步的实验证实了单独策略头确实不是必须的,因为我们早期的实验改变了重新调整噪声的方式,算法可能会有所改善。这使得实现更简单容易,算法训练的成本更低,同时依然可以取得相似的结果。人工智能算法,特别是强化学习中的 AI 算法,可能会无声无息地失败(https://blog.openai.com/openai-baselines-dqn/),导致未发现的错误误导了工程学解决方案,记住这一点很重要。

论文:Parameter Space Noise for Exploration

论文链接:https://arxiv.org/abs/1706.01905

摘要:深度强化学习方法通常在动作空间中借助噪声注入(noise injection)进行探索性行为。一个替代方案是直接向智能体的参数中添加噪声,这可带来更连续性的探索和更丰富的行为集。进化策略等方法使用了参数扰动,但是摈弃了所有的时间结构,并需要更多的样本。通过结合参数噪声和传统强化学习方法,我们取得了双赢的结果。通过对高维离散动作环境和连续控制任务中的 DQN、DDPG 和 TRPO 进行实验对比,我们证明了离线与在线策略(off- and on-policy )方法皆可从加入参数噪声的方法中获益。我们的结果表明带有参数噪声的强化学习将比分别带有动作空间参数和进化策略的传统强化学习效率更高。

原文链接:https://blog.openai.com/better-exploration-with-parameter-noise/

本文为机器之心编译,转载请联系本公众号获得授权。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2017-07-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器学习算法原理与实践

强化学习(二)马尔科夫决策过程(MDP)

    在强化学习(一)模型基础中,我们讲到了强化学习模型的8个基本要素。但是仅凭这些要素还是无法使用强化学习来帮助我们解决问题的, 在讲到模型训练前,模型的简...

2453
来自专栏大数据智能实战

DeepCut及DeeperCut:基于Tensorflow的人体姿态估计

  人体姿态估计是机器视觉的一个重要分支,在行为识别、人机交互、游戏、动画等领域有着很广阔的应用前景,是计算机视觉领域中一个既具有研究价值、同时又极具挑战性的热...

5447
来自专栏AlgorithmDog的专栏

强化学习系列之二:模型相关的强化学习

文章目录 [隐藏] 1. 策略迭代 1.1 策略评估 1.2 策略改进 2. 价值迭代 3. 总结性结尾(好魔性的标题) 强化学习系列系列文章 上一...

2368
来自专栏AI科技大本营的专栏

【AI 技术精选】神经网络结构深入分析和比较

作者 | Eugenio Culurciello 翻译 | AI科技大本营(rgznai100) 深度神经网络和深度学习是既强大又受欢迎的算法。这两种算法取得的...

3586
来自专栏机器学习算法与Python学习

周志华团队和蚂蚁金服合作:用分布式深度森林算法检测套现欺诈

2209
来自专栏机器之心

为裸女自动穿上「比基尼」,借助GAN打造强劲的内容审核方法

互联网易于访问和使用广泛的特性使其比以往更容易地在任何时间搜索到任意的内容。然而这种便利性是有代价的:在很多情况下,人们都会搜索到不希望出现的内容。而研究如何自...

1231
来自专栏AI科技大本营的专栏

如何瞬间找到视频中的目标片段?这篇顶级论文帮你详解CDC网络如何实现视频的精准定位

作者|周翔 上个月 22 日,备受瞩目的 CVPR 2017 最佳论文在夏威夷会议中心揭晓。本届 CVPR 2017 共有两篇最佳论文(分别被康奈尔和清华团队...

4155
来自专栏人工智能

机器学习工作流程(第1部分)

在这篇文章中,我的目标是提出鸟瞰图,我将在后面的章节中详细讲解每个组件。

4381
来自专栏机器之心

解读 | 如何用进化方法优化大规模图像分类神经网络?

机器之心原创 作者:Angulia Chao 参与:Joni、侯韵楚、高振 让机器具备生物一样的进化能力一直是计算机科学的一个热门研究领域,今年三月份,谷歌的...

37111
来自专栏机器之心

KDD 2018 | 腾讯提出用于文本匹配的多信道信息交叉模型,在真实任务中表现优异

4582

扫码关注云+社区

领取腾讯云代金券