专栏首页arxiv.org翻译专栏网络系统的可扩展多智能体强化学习(CS AI)
原创

网络系统的可扩展多智能体强化学习(CS AI)

长期以来,人们已经认识到,由于状态和操作空间的大小在代理程序数量中呈指数级增长,因此多代理程序强化学习(MARL)面临着重大的可伸缩性问题。在本文中,我们确定了网络MARL问题的丰富类别,其中模型表现出局部依赖结构,可以以可扩展的方式进行求解。具体来说,我们提出了一种可伸缩的演员-批判(SAC)方法,该方法可以学习一种接近最佳的本地化策略,用于优化复杂度与本地邻居(而不是整个网络)的比例缩放的平均奖励。我们的结果集中在识别和利用指数衰减特性上,该特性确保了代理对彼此的影响在其图形距离上呈指数级快速衰减。

原文标题:Scalable Multi-Agent Reinforcement Learning for Networked Systems with Average Reward

原文:It has long been recognized that multi-agent reinforcement learning (MARL) faces significant scalability issues due to the fact that the size of the state and action spaces are exponentially large in the number of agents. In this paper, we identify a rich class of networked MARL problems where the model exhibits a local dependence structure that allows it to be solved in a scalable manner. Specifically, we propose a Scalable Actor-Critic (SAC) method that can learn a near optimal localized policy for optimizing the average reward with complexity scaling with the state-action space size of local neighborhoods, as opposed to the entire network. Our result centers around identifying and exploiting an exponential decay property that ensures the effect of agents on each other decays exponentially fast in their graph distance.

原文作者:Guannan Qu, Yiheng Lin, Adam Wierman, Na Li

原文地址:https://arxiv.org/abs/2006.06626

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 病毒传播启发的新型元启发式优化算法(CS AI)

    根据非自由午餐定理,没有一种能够完美解决所有优化问题的元启发式算法。这激发了许多研究人员不断开发新的优化算法。本文提出了一种新颖的自然启发式元启发式优化算法,称...

    刘子蔚
  • 注意力集中视觉刺激的波传播(CS AI)

    对周围视觉环境变化的快速反应需要有效的注意力机制,以将计算资源重新分配到视野中最相关的位置。尽管当前的计算模型由于数据的可用性不断提高而提高了其预测能力,但它们...

    刘子蔚
  • 具有参数化数据的Petri网:建模和验证(扩展版)(CS AI)

    在过去的十年中,已经提出了各种方法来将业务流程与不同类型的数据集成在一起。每种方法都反映了整个过程数据集成范围内的特定需求。一个特别重要的一点是,这些方法能够灵...

    刘子蔚
  • Dense Associative Memory Is Robust to Adversarial Inputs

    https://github.com/DimaKrotov/Dense_Associative_Memory/blob/master/Dense_Associa...

    用户1908973
  • Social networks and health: Communicable but not infectious

    Harvard Men’s Health Watch Poet and pastor John Donne famously proclaimed “No ma...

    互联网金融打杂
  • 霍克斯模型的电信模式揭示了人际关系的动态和个性特征(社会和信息网络)

    我们的手机包含了大量关于我们的私人信息,这不是新闻,这也是为什么我们要尽量保证手机的安全。但即使是我们通信方式的痕迹,也能看出不少关于我们的信息。在这项工作中,...

    Jillchen996
  • 记录一次Stack上关于“数学之美”的brainstorm

    math.stackexchange.com是stackExchange上一个和数学有关的论坛, 有点类似我们的贴吧, 当然质量肯定不可相提并论的.

    Jean
  • 用数学为爱情保鲜

    16/5/22 数学的力量 爱情数学 心得: 数学的力量是很强大的,它存在于我们的生活中,影响着我们的生活,无处不在。 说得简单一些,数学就是一门研究...

    杨熹
  • Out of bag error in Random Forest

    sklearn中的RandomForestClassifier有一个参数: oob_score : bool (default=False) Whethe...

    GavinZhou
  • Yoshua Bengio 3篇强化学习论文学习disentangling 特征

    用户1908973

扫码关注云+社区

领取腾讯云代金券