专栏首页arxiv.org翻译专栏细化MDPs的政策改进范围

细化MDPs的政策改进范围

在可信域策略优化(TRPO)算法的理论论证中,基于贴现收益差异的策略改进界起着至关重要的作用。当折现因子接近1时,现有的界会导致退化界,TRPO及相关算法的适用性受到质疑。我们在(Schulman等人,2015;Achiam et al.,2017),并提出了折扣因子中“连续”的新边界。特别是,我们的界限也适用于具有长期平均回报的mdp。

原文标题:Refined Policy Improvement Bounds for MDPs

The policy improvement bound on the difference of the discounted returns plays a crucial role in the theoretical justification of the trust-region policy optimization (TRPO) algorithm. The existing bound leads to a degenerate bound when the discount factor approaches one, making the applicability of TRPO and related algorithms questionable when the discount factor is close to one. We refine the results in (Schulman et al., 2015; Achiam et al., 2017) and propose a novel bound that is “continuous” in the discount factor. In particular, our bound is applicable for MDPs with the long-run average rewards as well.

原文链接:https://arxiv.org/pdf/2107.08068.pdf

原文作者:J. G. Dai, Mark Gluzman

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 强化学习读书笔记(3)| 有限马尔科夫决策过程(Finite Markov Decision Processes)

    本章我们介绍有限马尔科夫决策过程(Finite MDPs),这个问题和赌博机一样涉及到评估的反馈,但这里还多了一个方面——在不同的情况做出不同的选择。MDPs是...

    用户1621951
  • 【干货】吴恩达博士论文:用增强学习做无人机

    【新智元导读】吴恩达2003年申请加州大学伯克利分校计算机科学博士的毕业论文。该论文在肯定了增强学习取得的进展的基础上,就“回报函数塑造”(shaping re...

    新智元
  • 优化重症监护病房败血症的药物治疗:从强化学习到预评估(CS AI)

    我们的目标是建立一个框架,使优化干预措施的强化学习(RL)能够追溯性地允许我们采用符合法规的途径,对临床部署中所学政策进行前瞻性临床测试。我们关注重症监护病房中...

    RockNPeng
  • 层级强化学习概念简介

    本文对层级增强学习(HRL)的一些概念(包括封建学习、选择框架、分层抽象机器、MAXQ等)进行扼要介绍,并对研究方向提供参考建议。

    用户1908973
  • 强化学习的基本迭代方法

    本文着重于对基本的MDP进行理解(在此进行简要回顾),将其应用于基本的强化学习方法。我将重点介绍的方法是"价值迭代"和"策略迭代"。这两种方法是Q值迭代的基础,...

    磐创AI
  • 具有功能近似的高效合作多代理强化学习

    最近,在协作多主体环境中的强化学习在其范围方面有了显着进步,并应用于广告,动态处理方式,分布式控制和联合学习的协作估计中。在本文中,我们讨论了具有功能逼近的协作...

    用户8354439
  • 强化学习笔记7:策略梯度 Policy Gradient

    之前的策略优化,用的基本都是\(\epsilon\)-greedy的policy improve方法,这里介绍policy gradient法,不基于v、q函数

    列夫托尔斯昊
  • 关于增强学习你应该了解的五件事儿

    强化学习(Reinforcement Learning)是当前最热门的研究课题之一,它在AlphaGo中大放光彩,同时也变得越来越受科研人员的喜爱。本文主要介绍...

    用户3578099
  • 机器学习在组合优化中的应用(上)

    运筹学自二战诞生以来,现已被广泛应用于工业生产领域了,比如交通运输、供应链、能源、经济以及生产调度等。离散优化问题(discrete optimization ...

    短短的路走走停停
  • 大数据里程碑 | 国务院发文要求2015年政府数据全面公开

    导读: 提起政府信息公开,曾经有个调侃:公开的信息多是大家不想看的,想看的信息却不愿意公开。这种现象如今正在被强力改变。 近日,国务院办公厅印发《2015...

    小莹莹
  • 权威专家解读军民融合发展政策制度体系建设的现状、问题及对策

    游光荣,闫宏,赵旭,军民融合发展政策制度体系建设:现状、问题及对策[J]. 中国科技论坛,2017(1):150-156.

    网络安全观
  • 强化学习-2:Markov decision process(MDP)

    我们说一个state若满足 ,则其具有马尔可夫性,即该state完全包含了历史中的所有信息。马尔科夫过程是无记忆的随机过程,即随机状态序列 具有马尔可夫属性。

    列夫托尔斯昊
  • 让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法!

    AI 科技评论按:如果要让机器人拥有人的学习能力,应该怎么做?伯克利 AI 研究院给出了一个很好的答案——元强化学习(meta-RL)。但这一次伯克利 AI 研...

    AI研习社
  • 学界 | 让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法!

    AI 科技评论按:如果要让机器人拥有人的学习能力,应该怎么做?伯克利 AI 研究院给出了一个很好的答案——元强化学习(meta-RL)。但这一次伯克利 AI 研...

    AI研习社
  • 新的元强化学习算法,机器可以像人类一样学习

    来源商业新知网,原标题:让机器像人类一样学习?伯克利 AI 研究院提出新的元强化学习算法

    商业新知
  • 两日公开课:伯克利深度强化学习训练营 | 视频+PPT

    千平 发自 凹非寺 量子位 出品 | 公众号 QbitAI 又有新公开课放出~ 加州大学伯克利分校的Pieter Abbeel教授,最近联合他的两位博士生Yan...

    量子位
  • 雒树刚:狠抓线上发展,加快培育壮大数字文旅产业!

    ? 7月21日,习近平总书记主持召开企业家座谈会并发表重要讲话。他强调,新冠肺炎疫情对我国经济和世界经济产生巨大冲击,我国很多市场主体面临前所未有的压力。市场...

    腾讯文旅
  • 架构三问【3】:方案经理 如何主导方案规划

    随着各行业赛道迭代的加速,行业客户日益重视IT系统和数字化方案的业务价值和整体效果。这意味着,各企业不再满意每次单独实施一个孤立产品这种形式,转而去拥抱那些能够...

    半吊子全栈工匠
  • 中国人工智能发展重大政策和规划汇总解析

    众所周知,人工智能的发展已势不可挡,无论国家层面,还是地方层面都已纷纷出台相关政策和规划,来引导人工智能的发展,中国的人工智能发展在全球还依然是跟随者,需要这样...

    企鹅号小编

扫码关注云+社区

领取腾讯云代金券