专栏首页arxiv.org翻译专栏通过现状损失在多主体博弈中诱导合作(cs AI)
原创

通过现状损失在多主体博弈中诱导合作(cs AI)

社会困境的出现,引发了个体理性与群体理性的冲突。当个体在这种情况下理性行事时,群体就会遭遇次优结果。迭代囚徒困境(IPD)是一个双人游戏,它提供了一个理论框架来建模和研究这样的社会情况。在囚徒困境中,个人主义行为会导致相互背叛和次优结果。这一结果与人们在人类群体中观察到的情况形成了对比,在人类群体中,人们常常为了集体的利益而牺牲个人主义行为。研究这种合作和个人非理性行为是如何以及为什么会在人类群体中出现是很有趣的。为此,最近的研究通过将每个参与者视为一个深度强化学习(RL)代理来模拟这个问题,并通过内部信息或奖励共享机制发展合作行为策略。我们提出了一种方法,在不共享奖励、内部细节(权重、梯度)或通信通道的情况下,在玩IPD游戏的RL代理之间演化协作行为。我们引入了一个通过鼓励政策平稳性来激励合作行为的现状损失(SQLoss)。我们还描述了一种通过自我监督技能发现(IPDistill)将双人游戏(带有视觉输入)转换为IPD公式的方法。我们展示了我们的方法如何在迭代囚徒困境和二人硬币游戏中胜过现有的方法。

原文标题:Inducing Cooperation in Multi-Agent Games Through Status-Quo Loss

原文:Social dilemma situations bring out the conflict between individual and group rationality. When individuals act rationally in such situations, the group suffers sub-optimal outcomes. The Iterative Prisoner's Dilemma (IPD) is a two-player game that offers a theoretical framework to model and study such social situations. In the Prisoner's Dilemma, individualistic behavior leads to mutual defection and sub-optimal outcomes. This result is in contrast to what one observes in human groups, where humans often sacrifice individualistic behavior for the good of the collective. It is interesting to study how and why such cooperative and individually irrational behavior emerges in human groups. To this end, recent work models this problem by treating each player as a Deep Reinforcement Learning (RL) agent and evolves cooperative behavioral policies through internal information or reward sharing mechanisms. We propose an approach to evolve cooperative behavior between RL agents playing the IPD game without sharing rewards, internal details (weights, gradients), or a communication channel. We introduce a Status-Quo loss (SQLoss) that incentivizes cooperative behavior by encouraging policy stationarity. We also describe an approach to transform a two-player game (with visual inputs) into its IPD formulation through self-supervised skill discovery (IPDistill).We show how our approach outperforms existing approaches in the Iterative Prisoner's Dilemma and the two-player Coin game

原文作者:Pinkesh Badjatiya, Mausoom Sarkar, Abhishek Sinha, Siddharth Singh, Nikaash Puri, Balaji Krishnamurthy

原文链接:https://arxiv.org/abs/2001.05458

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 有界CTL的充要条件(CS AI)

    计算树逻辑(CTL)是形式验证中的主要形式主义之一。作为一种规范语言,它用于表示预期现有系统可以满足的属性。从验证和系统设计的角度来看,由于各种原因,这种特性的...

    RockNPeng
  • 关于救护车路线和位置问题的全面调查(cs AI)

    在这项研究中,广泛的文献综述了救护车路径问题(ARP)和救护车位置问题(ALP)的最新发展。这两个问题分别是对车辆路径问题(VRP)和最大覆盖问题(MCP)的修...

    RockNPeng
  • 缺乏奖励的流形分析中的期权发现(CS AI)

    事实证明,选项是强化学习的有效工具,有助于改进探索和学习。 在本文中,我们提出了一种基于频谱图理论的方法,并推导了一种系统地发现选项而无需访问特定奖励或任务分配...

    RockNPeng
  • 使用梵文语法改善具有数字词源的多语言国家的电子治理和移动治理(CS.CY)

    随着数字连接(Wifi,3G,4G)和数字设备的巨大改进,如今已经可以在最偏远的角落访问互联网。农村居民可以轻松地通过PDA,笔记本电脑,智能手机等访问Web或...

    蔡小雪7100294
  • Prometheus监控学习笔记之Prometheus存储

    Prometheus之于kubernetes(监控领域),如kubernetes之于容器编排。 随着heapster不再开发和维护以及influxdb 集群方案...

    Jetpropelledsnake21
  • The Rise of Cognitive Business

    When the original Watson won on the TV quiz show Jeopardy! in 2011, it was one c...

    首席架构师智库
  • Watson Uses Cognitive Computing To Improve People's Lives

    IDC predicts that by 2018, half of all consumers will interact with services bas...

    首席架构师智库
  • 计算机辅助的个性化教育(CS CY)

    STEM领域的人才短缺日益严重,大学和学院都在竭力满足这一需求。以计算机科学为例,参加入门课程的美国学生人数在过去10年增长了3倍。最近,作为缓解这种压力的一种...

    用户7495559
  • 逻辑,概率和行动:情境演算的观点(CS AI)

    逻辑和概率的统一是人工智能(尤其是科学哲学)长期以来一直关注的问题。本质上,逻辑提供了一种简单的方法来指定必须存在于每个可能世界中的属性,而概率使我们可以进一步...

    小童
  • 【论文推荐】最新八篇主题模型相关论文—主题建模优化、变分推断、情绪强度、神经语言模型、搜索、社区聚合、主题建模的问题、光谱学习

    【导读】专知内容组整理了最近八篇主题模型(Topic Model)相关文章,为大家进行介绍,欢迎查看! 1. Application of Rényi and ...

    WZEARW

扫码关注云+社区

领取腾讯云代金券