专栏首页arxiv.org翻译专栏通过近似策略迭代解决共同收益博弈(cs,AI)

通过近似策略迭代解决共同收益博弈(cs,AI)

为了让人工智能学习系统在现实世界中具有广泛的适用性,分散运行很重要。不幸的是,分散控制很困难——即使计算ε-最佳联合策略也完全是是NEXP问题。然而,最近重新发现的角度——一组代理商可以通过常识进行配合——已经具有了能够在小型共同收益游戏中找到最佳联合策略的算法能力。贝叶斯动作解码器(BAD)利用这种角度和深度强化学习扩展到双人Hanabi等大型游戏。然而,它这样做的相似方式阻止它发现最佳联合策略,即使在足够小的游戏中也足以强制最优解。这项工作提出了CAPI,这是一种新型算法,与BAD一样,将常识与深度强化学习相结合。然而,与BAD不同,CAPI优先考虑发现最佳联合策略而不是可扩展性。虽然这种选择将CAPI从扩展到像Hanabi这样大的游戏中,但经验结果表明,在CAPI可以扩展的游戏中可以发现最佳的联合策略,即使其他现代化多代理强化学习算法无法发现。代码可在此链接获取。

原文标题:Solving Common-Payoff Games with Approximate Policy Iteration

原文:For artificially intelligent learning systems to have widespread applicability in real-world settings, it is important that they be able to operate decentrally. Unfortunately, decentralized control is difficult -- computing even an epsilon-optimal joint policy is a NEXP complete problem. Nevertheless, a recently rediscovered insight -- that a team of agents can coordinate via common knowledge -- has given rise to algorithms capable of finding optimal joint policies in small common-payoff games. The Bayesian action decoder (BAD) leverages this insight and deep reinforcement learning to scale to games as large as two-player Hanabi. However, the approximations it uses to do so prevent it from discovering optimal joint policies even in games small enough to brute force optimal solutions. This work proposes CAPI, a novel algorithm which, like BAD, combines common knowledge with deep reinforcement learning. However, unlike BAD, CAPI prioritizes the propensity to discover optimal joint policies over scalability. While this choice precludes CAPI from scaling to games as large as Hanabi, empirical results demonstrate that, on the games to which CAPI does scale, it is capable of discovering optimal joint policies even when other modern multi-agent reinforcement learning algorithms are unable to do so. Code is available at this https URL .

原文链接:http://cn.arxiv.org/abs/2101.04237

原文作者:Samuel Sokota, Edward Lockhart, Finbarr Timbers, Elnaz Davoodi, Ryan D'Orazio, Neil Burch, Martin Sc

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 观点 | 理性强化学习遭遇瓶颈,进化算法会成为接替者吗?

    人工智能(AI)的研究领域充满了无法回答的问题以及无法被分配给正确问题的答案。在过去,人工智能为它坚持「错误」的做法付出了代价,经历了一段时间的停滞,也就是所谓...

    机器之心
  • “德州扑克AI之父”再发新论文:“冷扑大师2.0”要来了?

    最近,Arxiv上的一篇题为《Solving Imperfect-Information Games via Discounted Regret Minimiz...

    新智元
  • 浙大提出会打德扑的「自我博弈」AI,还会玩射击游戏

    随着深度强化学习的快速发展,AI 已经在围棋等信息完整的游戏中战胜了人类专业玩家。然而,「星际争霸」等信息不完整游戏的研究还没有取得同样的进展。这类研究的一大问...

    机器之心
  • 浙大提出会打德扑的「自我博弈」AI,还会玩射击游戏

    随着深度强化学习的快速发展,AI 已经在围棋等信息完整的游戏中战胜了人类专业玩家。然而,「星际争霸」等信息不完整游戏的研究还没有取得同样的进展。这类研究的一大问...

    小小詹同学
  • 当博弈论遇上机器学习:一文读懂相关理论

    「博弈论」这个词可能对于一些仅仅致力于机器学习前沿算法的人并不算熟悉。其实,有意无意的,博弈论的思想一直存在于很多机器学习的探索过程中,不管是经典的 SVM,还...

    机器之心
  • 「重磅综述」多智能体强化学习算法理论研究「AI核心算法」

    虽然目前多智能体强化学习 MARL 在很多领域取得了不错的结果,但很少有相关的理论分析。本综述挑选并汇总了拥有理论支撑的 MARL 算法,主要是以下两种理论框架...

    用户7623498
  • 【AlphaGo之后会是什么】一文读懂人工智能打德扑

    作者:邓侃 【新智元导读】攻克围棋后,什么是AI的下一个征程?打扑克!相比信息完全可见的围棋,能够猜疑、虚张声势的德扑要困难得多。冷扑大师Libratus是首个...

    新智元
  • AI如何更好地协助人类,我们从美食游戏中得到了一些启发

    然而AI的陪练系统通常会根据其进步而增加训练难度。在自我博弈的训练中,有时,AI要学会左右互搏,有时,AI要和其他AI一起玩以方便各自提升。

    大数据文摘
  • [QA问答] :冷扑大师能战胜AlphaZero吗?

    拿下NIPS2017 最佳论文,登上Science,“冷扑大师”最近有点热。18日,两位作者,CMU博士生Noam Brown和Tuomas Sandholm教...

    机器人网
  • NIPS 2017最佳论文出炉:CMU「冷扑大师」不完美信息博弈研究获奖

    机器之心
  • 携Science封面、NIPS最佳论文,CMU大神Noam博士毕业,论文已公开

    当地时间 9 月 21 日,FAIR 研究科学家 Noam Brown 在推特宣布其顺利完成了 CMU 博士论文答辩,并公开了长达 230 页的超硬核博士论文《...

    机器之心
  • Neural Fictitious Self Play——从博弈论到深度强化学习

    用户1107453
  • 学界 | 面向星际争霸:DeepMind 提出多智能体强化学习新方法

    机器之心
  • 塔秘 | 面向星际争霸:DeepMind 提出多智能体强化学习新方法

    前 言 不久前 DeepMind 强化学习团队负责人、AlphaGo 项目负责人现身 Reddit 问答,其中一个问题是「围棋和星际争霸 2 哪个更难?潜在技...

    灯塔大数据
  • Casper与V神的博弈论(过节了,文末送大礼)

    博弈论思想历史久远,比如中国古代的《孙子兵法》。早年的博弈论最初主要研究象棋、桥牌、赌博中的胜负问题,人们对博弈局势的把握只停留在经验上, 没有向理论化发展,正...

    区块链大本营
  • 中科大吴锋:多智能体的分布式在线决策 | 腾讯AI Lab学术论坛演讲

    腾讯高校合作
  • 学界丨从科学把妹说起,为何博弈论能成为深度学习的未来?

    AI 科技评论按:作者Carlos Perez是一名软件开发者,著有《深度学习的设计模型》一书。他在这篇文章中提及了我们熟悉的概念——博弈论,并认为这一概念将会...

    AI科技评论
  • 论文精萃|10th| 信息不完备游戏的深度有限求解 | CMU冷扑团队新成果 |计算机教你打扑克

    作者:Noam Brown, Tuomas Sandholm, Brandon Amos

    用户7623498
  • 智能体也“囚徒困境”?DeepMind设置强迫机制要求AI合作

    最近DeepMind提出了一种新的强化学习技术,这种技术以一种全新方式来模拟人类行为。它可能会比之前发布的人工智能决策系统更强大,这对希望通过自动化提高生产率的...

    大数据文摘

扫码关注云+社区

领取腾讯云代金券