AAAI 2018 | 阿尔伯塔大学提出新型多步强化学习方法,结合已有TD算法实现更好性能

选自arXiv

作者:Kristopher De Asis等

机器之心编译

在 AAAI 2018 接收论文列表中,来自阿尔伯塔大学强化学习和人工智能实验室 Richard S. Sutton 等研究者的一篇论文提出一种新的多步动作价值算法 Q(σ),该算法结合已有的时序差分算法,可带来更好性能。机器之心对此论文做了简要介绍,更多详细内容请查看原文。

时序差分(TD, Sutton, 1988)法是强化学习中的一个重要概念,结合了蒙特卡洛和动态规划法。TD 允许在缺少环境动态模型的情况下从原始经验中直接进行学习,这一点与蒙特卡洛方法类似;同时也允许在最终结果未出来时基于其他学得的评估更新评估结果,与动态规划法类似。TD 法的核心概念提供一个构建多种强大算法的灵活框架,这些算法可用于预测和控制。

TD(λ) 算法结合一步 TD 学习(one-step TD learning)和蒙特卡洛方法(Sutton, 1988)。通过使用 eligibility trace 和 trace-decay 参数,λ ∈ [0, 1],创建了一系列算法。当λ = 1 时,就是蒙特卡洛方法,λ = 0 时,就是一步 TD 学习。

人们通常认为多步 TD 方法是多个不同长度步长的收益平均值,通常与 eligibility trace 有关,和 TD(λ) 一样。但是,也可以认为它们是相关的 n 步备份的第 n 步收益(Sutton & Barto, 1998)。

Q(σ) 是 Sutton 和 Barto 2017 年提出的算法,该算法结合和推广了现有的多步 TD 控制方法。该算法执行的采样程度由采样参数 σ 控制。当 σ = 1 时出现 Sarsa(全采样),当 σ = 0 时出现树备份(Tree-backup,纯粹预期)。σ 的中间值构建的算法既有采样也有预期。这篇论文展示了 σ 的中间值构建的算法优于 σ 等于 0 或 1 时的算法。此外,研究者还展示了 σ 可以进行动态调整,以输出更好的性能。研究者将对 Q(σ) 的讨论限制在没有 eligibility trace 的 atomic 多步情况,但是使用复合备份(compound backup)是其自然扩展,也是未来研究的方向。Q(σ) 通常可用于在策略和离策略学习,但是该论文中的初始实验仅研究在策略预测和控制问题。

论文:Multi-step Reinforcement Learning: A Unifying Algorithm

论文链接:https://arxiv.org/abs/1703.01327

摘要:结合看似完全不同的算法来生成性能更好的算法是强化学习的长久以来的目标。作为主要示例,TD(λ) 使用 eligibility trace 和 trace-decay 参数 λ 将一步 TD 预测和蒙特卡洛方法结合起来。目前,有大量算法可用于执行 TD 控制,包括 Sarsa、Q-learning 和 Expected Sarsa。这些方法通常用于一步的情况中,但是它们可以扩展到多步以达到更好的性能。其中每一个算法都是针对不同任务的特定算法,没有一个在所有问题上优于其他算法。本论文研究一种新的多步动作价值算法 Q(σ),该算法结合和推广了这些已有算法,并对它们进行子求和(subsuming)作为特殊案例。新参数 σ 被引入作为算法每一步执行的采样程度,其备份不断改变,当 σ = 1 时出现 Sarsa(全采样),当 σ = 0 时出现 Expected Sarsa(纯粹预期)。Q(σ) 通常可用于在策略(on-policy)和离策略(off-policy)学习,但是本论文主要关注在策略的情况。实验结果显示 σ 的中间值会带来现有算法的混合,性能优于 σ 在两级的情况。该混合可以动态调整,带来更好的性能。

可视化备份操作的常见方式是使用备份图示,如图 1 所示。

图 1. atomic 4 步 Sarsa、Expected Sarsa、Tree-backup 和 Q(σ) 的备份图示。我们可以看到 Q(σ) 基于 σ 的设置包含其他三种算法。

算法 1 展示了在策略 Q(σ) 的伪代码:

图 3. 带有 19 个状态的随机游走结果。上图从价值函数的 RMS 误差的角度展示了 Q(σ) 的性能。结果是 100 次运行的平均值,标准误差全部小于 0.006。Q(1) 具备最优初始性能,Q(0) 具备最优渐近性能,动态 σ 优于所有的固定 σ 值。

图 5. Stochastic windy gridworld 结果。上图通过对于不同 σ 值和α值的函数运行 100 episode 的平均收益展示了 Q(σ) 的性能。结果首先是选定 α 值的结果,然后是直线,之后是 1000 次运行的平均值。标准误差低于 0.05,差不多是线的宽度。4 步算法的性能优于 1 步算法,σ 为动态值的 Q(σ) 性能最好。

图 6. 山崖环境。智能体的目标是在不掉下山崖的前提下驶过小旗。该智能体每一个时间步收到的奖励为 -1,而掉下山崖就会在山谷的随机初始位置得到 -100 的奖励。

图 7:山崖结果。上图通过每个 episode 的平均回报展示了每个 atomic 多步算法的性能。为了平滑结果,采用了适当均值的移动平均数,其带有 100 个连续 episode 的窗口。σ 为动态值的 Q(σ) 性能最好。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2017-12-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CreateAMind

暑期课程第四课:CNN和机器视觉

792
来自专栏机器学习算法原理与实践

强化学习(七)时序差分离线控制算法Q-Learning

    在强化学习(六)时序差分在线控制算法SARSA中我们讨论了时序差分的在线控制算法SARSA,而另一类时序差分的离线控制算法还没有讨论,因此本文我们关注于...

2475
来自专栏磐创AI技术团队的专栏

一个完整的机器学习项目在Python中的演练(二)

2397
来自专栏CVer

ECCV 2018 收录论文名单全公布

前天从朱政研究员那里得知,ECCV 2018所有录用论文已经开放并支持PDF下载了。因为事情较多,就没来得及推送到CVer公众号,而是在Amusi的知乎专栏上推...

3013
来自专栏机器之心

资源 | 你需要的Scikit-learn中文文档:步入机器学习的完美实践教程

机器之心整理 参与:思源 Scikit-learn 中文文档已经由 ApacheCN 完成校对,这对于国内机器学习用户有非常大的帮助。该文档自 2017 年 1...

3698
来自专栏大数据文摘

资源 | Kaggle数据科学项目索引表,10大类93项,更新中

为了使Kaggle上的资源获得最大化的利用,一位来自印度的数据科学家sban设计了一个数据科学模型、技术和工具的项目索引表。

1000
来自专栏新智元

224秒训练ImageNet!这次创纪录的是索尼大法

随着用于深度学习的数据集和深度神经网络模型的规模增大,训练模型所需的时间也在增加具有数据并行性的大规模分布式深度学习可以有效缩短训练时间。

891
来自专栏专知

【脑洞大开】IBM AAAI2018论文DLPaper2Code:自动从深度学习论文生成执行代码程序(附作者博士论文下载)

【导读】近日IBM研究院提出从深度学习相关论文中自动生成深度学习代码,使用这项研究,在研究论文中提出的DL设计可以被自动提取,然后使用一种新颖的深度学习UI编辑...

38911
来自专栏机器学习和数学

[高大上的DL]经典网络模型总结之GoogLeNet篇

勘误:开始之前说一下,昨天介绍的环境搭建的那篇,里面我忘记写cudnn的安装说明了,只贴了在哪下载,我在word版里面已经更新了,欢迎需要的童鞋下载查看。还有一...

4484
来自专栏Python爬虫与算法进阶

初步尝试 sklearn

Scikit-learn是一个用于Python编程语言的免费软件机器学习库。 它具有各种分类,回归和聚类算法,包括支持向量机,随机森林,梯度增强,k均值和DBS...

1102

扫码关注云+社区

领取腾讯云代金券