专栏首页arxiv.org翻译专栏熵增强的熵正规强化学习以及从策略梯度到Q学习的连续路径(CS ML)
原创

熵增强的熵正规强化学习以及从策略梯度到Q学习的连续路径(CS ML)

已知增加熵以奖励将贪婪的argmax策略软化为softmax策略。 重新构造了熵增强,并导致有动机以KL散度的形式向目标函数引入附加的熵项,以使优化过程规则化。 结果是在当前策略和softmax贪婪策略之间进行策略插值。 该策略用于构建连续参数化的算法,该算法同时优化策略和Q函数,并且其极限分别对应于策略梯度和Q学习。 实验表明,使用中间算法可以提高性能。

原文标题:Entropy-Augmented Entropy-Regularized Reinforcement Learning and a Continuous Path from Policy Gradient to Q-Learning

原文:Entropy augmented to reward is known to soften the greedy argmax policy to softmax policy. Entropy augmentation is reformulated and leads to a motivation to introduce an additional entropy term to the objective function in the form of KL-divergence to regularize optimization process. It results in a policy interpolating between the current policy and the softmax greedy policy. This policy is used to build a continuously parameterized algorithm which optimize policy and Q-function simultaneously and whose extreme limits correspond to policy gradient and Q-learning, respectively. Experiments show that there can be a performance gain using an intermediate algorithm.

原文作者:Donghoon Lee

原文地址:https://arxiv.org/abs/2005.08844

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 自动解码图(CS ML)

    我们提出了一个系统,允许用户在依赖图上使用句法模式搜索大型语言注释语料库。与之前的尝试不同,我们引入了一种轻量级的查询语言,它不需要用户知道底层语法表示的细节,...

    蔡秋纯
  • 无约束多视点视频中动态事件的4D可视化(CS CV)

    我们提出了一种基于数据驱动的手持式多摄像机动态事件4D时空可视化方法。我们方法的关键是使用特定于场景的自监督神经网络来组成事件的静态和动态方面。虽然从离散的视角...

    蔡秋纯
  • 基于需求的黑箱反应系统自动化测试(CS)

    本文提出了一种黑箱无功系统一致性测试的新方法。我们将系统规范视为线性时序逻辑公式,将测试生成为输入/输出对序列:输入从对应于规范的Buchi自动机中提取,输出通...

    蔡秋纯
  • Base4.net和IronPython的一些相关东东

    发现一个非常好的东东:Base4.NET ,这是一个超过10年编程经验的老程序员和架构师所愿意分享和体现的价值, 有兴趣的看看作者的介绍:      Base...

    张善友
  • Android自动打包工具aapt详解

    概念 在Android.mk中有LOCAL_AAPT_FLAGS配置项,在gradle中也有aaptOptions,那么aapt到底是干什么的呢? aap...

    xiangzhihong
  • 杜克大学的13幅经典逻辑图,改变你的生活轨迹

    杜克大学的13幅逻辑图与你一块探讨关于生活的哲学,这13幅图将帮助你更清晰地了解自己的行为、目标及思考问题的方式,让你选择正确的方式去实现心中所想与所需。

    宇相
  • 1647: [Usaco2007 Open]Fliptile 翻格子游戏

    1647: [Usaco2007 Open]Fliptile 翻格子游戏 Time Limit: 5 Sec  Memory Limit: 64 MB Subm...

    HansBug
  • 让元数据适用于新一代语言技术平台:欧洲语言网的元数据模式(CS and Language)

    当前科技格局的特点是提高数据资源以及数据处理工具和服务的可用性。在这种环境下,元数据作为方便数字资产管理、共享和使用的关键因素应运而生。本文中,我们提供了一个说...

    用户6868260
  • 如何把custom form 7添加到wordpress每个页面

      我们已经知道wordpress如何添加contact form 7了,也知道[contact-form-7 id="xx" title="mytitle"]...

    ytkah
  • Mix 10 上的asp.net mvc 2的相关Session

    Beyond File | New Company: From Cheesy Sample to Social Platform Scott Hansel...

    张善友

扫码关注云+社区

领取腾讯云代金券