专栏首页arxiv.org翻译专栏为基于模型的强化学习构建博弈论理论框架(CS Machine Learning)
原创

为基于模型的强化学习构建博弈论理论框架(CS Machine Learning)

鉴于其采样效率以及合并过程数据能力方向的潜力,基于模型的强化学习近期获得了大量的关注。但是,设计一个稳定,有效率,并且使用丰富的函数近似的MBRL算法,仍旧具有挑战性。为了有助于展现MBRL算法的现实挑战和通过提取长度来简化算法设计,我们研究了一种框架将MBRL算法映射成一种博弈(1)政策博弈者,试图在学习模型下将收益最大化(2)模型博弈者,则试图更好适应由政策博弈者收集而来的数据。对于算法的研究,我们在两个玩家间建立了一个Stackelberg博弈,并且该博弈可以被近似双层优化解决。这将会产生俩组MBRL算法基于哪一个玩家在Stackelberg 博弈中被选为领导者。这两组算法在一起封装,同意并且泛化了很多之前的MBRL算法。除此以外,我们的框架是协调一致的,并且为启发式算法提供清晰基础,这些是我们的前期工作总结中的实践重要方面。最终,通过实验我们证实了我们提出的算法具有高采样效率与无模型梯度的渐进性相匹配,并且优雅地衡量了高维度问题,像是灵巧手的操控。

原文题目:A Game Theoretic Framework for Model Based Reinforcement Learning

原文:Model-based reinforcement learning (MBRL) has recently gained immense interest due to its potential for sample efficiency and ability to incorporate off-policy data. However, designing stable and efficient MBRL algorithms using rich function approximators have remained challenging. To help expose the practical challenges in MBRL and simplify algorithm design from the lens of abstraction, we develop a new framework that casts MBRL as a game between: (1) a policy player, which attempts to maximize rewards under the learned model; (2) a model player, which attempts to fit the real-world data collected by the policy player. For algorithm development, we construct a Stackelberg game between the two players, and show that it can be solved with approximate bi-level optimization. This gives rise to two natural families of algorithms for MBRL based on which player is chosen as the leader in the Stackelberg game. Together, they encapsulate, unify, and generalize many previous MBRL algorithms. Furthermore, our framework is consistent with and provides a clear basis for heuristics known to be important in practice from prior works. Finally, through experiments we validate that our proposed algorithms are highly sample efficient, match the asymptotic performance of model-free policy gradient, and scale gracefully to high-dimensional tasks like dexterous hand manipulation.

原文作者:Aravind Rajeswaran, Igor Mordatch, Vikash Kumar

原文地址:https://arxiv.org/abs/2004.07804

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 强盗反馈下的机构设计(cs.GT)

    我们研究了多轮福利最大化机制设计问题,其中,在每一轮,一个机制分配一个分配给一组代理,并收取他们的价格。然后,代理报告他们实现的(随机)值给机制。这是由云市场和...

    Donuts_choco
  • 在混合计划社交网络集群中整合前科知识(CS HC)

    我们提出了一种新的模式---称为PK-集群---以帮助社会科学家在社交网络中创建有意义的集群。存在许多聚类算法,但大多数社会科学家发现它们难以理解,并且工具不提...

    Donuts_choco
  • 针对使用冗余数据集和框架的函数采取自适应光谱近似(cs.NA)

    基于光谱的平滑函数近似普遍会导致快速衰减的系数。该种情况下,衰变率依赖于函数的平滑度,反过来亦然。近似过程中最优化自由度的获取相对容易,一旦达到阈值,截断系数即...

    Donuts_choco
  • [GSOC-first] Community Bonding

    I would like to thank ? the mentors jean-frederic Clere and George Zaronikas for...

    韩旭051
  • 5 门前途美好的编程语言

    Last month, we boldly proclaimed that a handful of programming languages are alm...

    苏南
  • 使用凝视对指称和非指称进行分类(CS CL)

    在处理文本时,人和机器必须消除代词it的不同用法,包括非指称、名词性回指或从句回指。在本文中,使用眼动数据来了解人类如何消除歧义。本文利用这些知识来改进它的自动...

    用户7454091
  • How to Train a GAN? Tips and tricks to make GANs work

    While research in Generative Adversarial Networks (GANs) continues to improve th...

    用户1908973
  • 算法时代的公平雇佣(CS HC)

    自动化的广泛发展减少了对人力投入的需求。 然而,尽管机器学习的能力越来越强,在许多情况下,这些程序做出的决定是有问题的。 数据和不透明模型中的偏见放大了人类的偏...

    用户7095611
  • 学习广义树自动机的分类框架(CS FLAT)

    自动机学习是一种用于从查询中自动构建自动机模型的流行技术。许多研究致力于为不同类型的自动机设计算法的特别适应性。CALF项目试图使用范畴理论来统一这些,以便简化...

    非过度曝光
  • 学习超声视频表现形式的自我监督方法(CS.CV)

    深度学习的最新进展在医学图像分析方面取得了令人鼓舞的性能,而在大多数情况下,必须由人类专家提供真实的注解来训练深度模型。在实践中,这样的注释收集起来昂贵并且对于...

    蔡小雪7100294

扫码关注云+社区

领取腾讯云代金券