专栏首页arxiv.org翻译专栏改进Actor-Critic算法的样本复杂度界(CS LG)
原创

改进Actor-Critic算法的样本复杂度界(CS LG)

在强化学习中,actor-critic(AC)算法是一种寻找最优策略的常用方法。AC和natural actor-critic(NAC)算法的有限样本收敛速度是最近才建立起来的,但在独立同分布(i.i.d.)采样和每次迭代的单样本更新下。与此相反,本文刻画了在马尔可夫抽样下AC和NAC的收敛速度和样本复杂度,每次迭代使用小批量数据,且参与者具有一般策略类近似。我 我们证明,小批量交流电要获得准确的驻点,其整体样本复杂度可以将最著名的交流电样本复杂度提高 o (1 log (1))。 我们还证明了为获得一个精确的全局最优点,一个小批处理 nac 的总体样本复杂度将自然策略梯度(npg)的已知样本复杂度提高了 o (1 / log (1))。 本文研究了几种新的 rl 算法的有限样本分析技术,包括处理小批量马尔可夫抽样引起的偏差误差,利用自方差约简特性改进NAC 算法的收敛性分析。

原文题目:Improving Sample Complexity Bounds for Actor-Critic Algorithms

原文:The actor-critic (AC) algorithm is a popular method to find an optimal policy in reinforcement learning. The finite-sample convergence rate for the AC and natural actor-critic (NAC) algorithms has been established recently, but under independent and identically distributed (i.i.d.) sampling and single-sample update at each iteration. In contrast, this paper characterizes the convergence rate and sample complexity of AC and NAC under Markovian sampling, with mini-batch data for each iteration, and with actor having general policy class approximation. We show that the overall sample complexity for a mini-batch AC to attain an ϵ-accurate stationary point improves the best known sample complexity of AC by an order of O(1ϵlog(1ϵ)). We also show that the overall sample complexity for a mini-batch NAC to attain an ϵ-accurate globally optimal point improves the known sample complexity of natural policy gradient (NPG) by O(1ϵ/log(1ϵ)). Our study develops several novel techniques for finite-sample analysis of RL algorithms including handling the bias error due to mini-batch Markovian sampling and exploiting the self variance reduction property to improve the convergence analysis of NAC.

原文作者:Tengyu Xu

原文地址:https://arxiv.org/abs/2004.12956

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 【ICML教程】深度强化学习,决策与控制(117 PPT)

    【新智元导读】本文来自 ICML 2017 的 tutorial,主题是深度学习应用中的决策和控制问题,介绍了与强化学习相关的强化和最优控制的基础理论,以及将深...

    新智元
  • 自我模仿学习的优势(cs lg)

    自我模仿学习是一种强化学习(RL)方法,它鼓励回报高于预期的行为,这有助于解决困难探索和稀疏奖励问题。结果表明,该方法可以提高在离散控制任务中对策略行为者-批评...

    木樾233
  • 几行代码轻松实现,Tensorlayer 2.0推出深度强化学习基准库

    近日,为了让工业界能更好地使用前沿强化学习算法,Tensorlayer 强化学习团队发布了专门面向工业界的整套强化学习基线算法库---RLzoo。(Tensor...

    机器之心
  • 业界 | OpenAI开源算法ACKTR与A2C:把可扩展的自然梯度应用到强化学习

    机器之心
  • AlphaGo背后的秘密——深度增强学习(DRL)前沿算法解析

    用户1737318
  • 资源 | UC Berkeley CS 294深度强化学习课程(附视频、学习资料)

    数据派THU
  • 资源 | 学到了!UC Berkeley CS 294深度强化学习课程(附视频与PPT)

    选自UC Berkeley 机器之心整理 CS294 深度强化学习 2017 年秋季课程的所有资源已经放出。该课程为各位读者提供了强化学习的进阶资源,且广泛涉及...

    机器之心
  • 资源 | 学到了!UC Berkeley CS 294深度强化学习课程(附视频与PPT)

    选自UC Berkeley 机器之心整 CS294 深度强化学习 2017 年秋季课程的所有资源已经放出。该课程为各位读者提供了强化学习的进阶资源,且广泛涉及深...

    朱晓霞
  • 视频 | NIPS 2017线上分享第一期:新型强化学习算法ACKTR

    机器之心

扫码关注云+社区

领取腾讯云代金券