SDDPG = SAC1

SPG定理与算法介绍 续

在上文指出:“基于policy optimization的强化学习算法的数学基础都是policy gradient 定理(PGT),比如PG, A2C, A3C, TRPO, PPO, IMPALA等等。现在我们有了soft policy gradient 定理,对应地可以演化出一系列新算法,比如SPG, SA2C, SA3C, STRPO, SPPO, SIMPALA等等。”

细心的小伙伴可能会发现里面没有提及DDPG算法,这并不是我疏忽遗漏了,而是因为SDDPG算法其实和SAC1算法是等价的,这里继续介绍。

SAC算法:

https://arxiv.org/abs/1801.01290

"Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor"

SAC1算法:

https://arxiv.org/abs/1812.05905

"Soft Actor-Critic Algorithms and Applications"

SAC1算法是SAC算法的简化升级版,去掉了其中的value function。SAC1算法伪代码可以参考https://github.com/createamind/DRL首页。

SDDPG算法:

算法的提出利用了两个关键的洞察:一个是策略的重参数技术,另一个是推广到熵正规化的强化学习理论框架。

我对DDGP的证明其实和Silver的证明是一样的,只是记号有些差异。DDPG是RPG的一个特例,而RPG是PG的一个特例。SDDPG算法和SAC1算法其实是同一个算法,虽然两个算法的证明思路完全不一样,可谓殊途同归。可以对比一下SAC1算法:

值得注意的是:SAC1算法的导出是绕了弯路的(先得出的SAC算法,再得出的SAC1算法),而SDDPG的提出是一步到位的。另外,从推导中可以看出SAC1算法只是SPG算法的一个特例。

总结一下:

SAC1算法其实还有个名字:SDDPG算法。

本文分享自微信公众号 - CreateAMind(createamind),作者:kangaroo

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-08-09

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Qzero算法介绍

    1. AlphaZero算法: 算法的核心是把MCTS算法与深度强化学习(DRL)结合起来(使用MCTS算法作为RL的policy improvement机制)...

    用户1908973
  • Tesla's Full Self-Driving 视频

    如果传统方法可行,为什么AlphaGo需要深度学习;现在只有tesla实现了数据收集的闭环,如果所有场景都是训练集数据,实现的无人驾驶效果会怎么样?

    用户1908973
  • Deep Learning Book 中文第八章 深度学习模型中的优化

    学习和优化的差异;神经网络的优化挑战;参数初始化策略;自适应学习率算法;二阶近似方法;优化技巧和元算法:batch normalization;

    用户1908973
  • 如何学习数据结构与算法

    什么是数据结构?什么是算法? 从广义上讲,数据结构就是指一组数据的存储结构。算法就是操作数据的一组方法。 从狭义上讲,也就是我们专栏要讲的,是指某些著名的数...

    Jingbin
  • 有些决策不能,也永远不该委托给机器

    大数据文摘
  • 基于改进人工蜂群算法的K均值聚类算法(附MATLAB版源代码)

      其实一直以来也没有准备在园子里发这样的文章,相对来说,算法改进放在园子里还是会稍稍显得格格不入。但是最近邮箱收到的几封邮件让我觉得有必要通过我的博客把过去做...

    JackieZheng
  • 2017,人们视算法为洪水猛兽;算法说:我不想背锅

    穆罕默德·本·穆萨·阿尔·花剌子模是公元九世纪的一位波斯学者。在阿尔·花剌子模逝世的数个世纪之后,他的作品引领欧洲进入小数和代数领域,为如今这个以技术为核心的年...

    企鹅号小编
  • 烦人的数据不一致问题到底怎么解决?——通过“共识”达成数据一致性

      本文是本系列的第二篇。是前一篇《不知道是不是最通俗易懂的《数据一致性》剖析了》的后续内容。

    Zachary_ZF
  • 如何实现机器学习算法

    在代码中实现一个机器学习的算法能够使你更加了解该算法以及其工作机理。

    CJ
  • 14种机器学习常见算法分类汇总!

    机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。这里总结一下常见的机器学习算法,以供您在工作和学习中参考。 机...

    CDA数据分析师

扫码关注云+社区

领取腾讯云代金券