专栏首页arxiv.org翻译专栏多智能体强化学习中的通信最小化与性能最大化

多智能体强化学习中的通信最小化与性能最大化

在需要协调以实现共享目标的多代理任务中,代理间通信可以显著提高性能。已有的研究表明,利用多智能体强化学习和消息传递网络结构来学习智能体间的通信协议是可能的。然而,这些模型使用无约束的广播通信模型,其中一个代理在每一步都与所有其他代理通信,即使任务不需要它。在实际应用中,通信可能受到带宽、功率和网络容量等系统限制,因此可能需要减少发送的消息数量。在这项工作中,我们探索了一种在多任务学习中最小化交流同时最大化性能的简单方法:同时优化任务特定目标和交流惩罚。我们表明,目标可以优化使用加强和Gumbel Softmax重参数化。我们介绍了两种稳定训练的技术:50%训练和消息转发。只有50%的剧集会受到沟通惩罚,这使得我们的模特们无法关闭他们发出的信息。第二,重复以前收到的消息有助于模型保留信息,并进一步提高性能。使用这些技术,我们可以在不损失性能的情况下减少75%的通信量。

原文题目:Minimizing Communication while Maximizing Performance in Multi-Agent Reinforcement Learning

原文:Inter-agent communication can significantly increase performance in multi-agent tasks that require co-ordination to achieve a shared goal. Prior work has shown that it is possible to learn inter-agent communication protocols using multi-agent reinforcement learning and message-passing network architectures. However, these models use an unconstrained broadcast communication model, in which an agent communicates with all other agents at every step, even when the task does not require it. In real-world applications, where communication may be limited by system constraints like bandwidth, power and network capacity, one might need to reduce the number of messages that are sent. In this work, we explore a simple method of minimizing communication while maximizing performance in multi-task learning: simultaneously optimizing a task-specific objective and a communication penalty. We show that the objectives can be optimized using Reinforce and the Gumbel-Softmax reparameterization. We introduce two techniques to stabilize training: 50% training and message forwarding. Training with the communication penalty on only 50% of the episodes prevents our models from turning off their outgoing messages. Second, repeating messages received previously helps models retain information, and further improves performance. With these techniques, we show that we can reduce communication by 75% with no loss of performance.

原文链接:https://arxiv.org/abs/2106.08482

原文作者:Varun Kumar Vijay, Hassam Sheikh, Somdeb Majumdar, Mariano Phielipp

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 多智能体(MARL)强化学习与博弈论

    纵观历史,人类已经建立了许多既需要自主行动又需要参与者之间协调互动的系统。交通网络、智能电网或股票市场就是这些系统的例子,它们已经成为我们社会的基本支柱。这些系...

    deephub
  • 基于多智能体深度强化学习的全网交通信号控制优化

    低效的交通管制可能会导致许多问题,如交通拥挤和能源浪费。这篇文章提出了一种新的多智能体增强学习方法KS-DDPG(Knowledge Sharing Deep ...

    irin
  • DeepMind最新力作:分布式强化学习框架Acme,智能体并行性加强

    近年来,在深度学习技术和算力提升的双重加持下,强化学习已经在众多复杂的 AI 挑战中取得了辉煌战绩。无论是象棋、围棋、麻将,还是王者荣耀以及各类雅达利经典游戏,...

    深度强化学习实验室
  • DeepMind最新力作:分布式强化学习框架Acme,智能体并行性加强

    近年来,在深度学习技术和算力提升的双重加持下,强化学习已经在众多复杂的 AI 挑战中取得了辉煌战绩。无论是象棋、围棋、麻将,还是王者荣耀以及各类雅达利经典游戏,...

    机器之心
  • 强化学习也能用attention,Google最新智能体可「疏忽性失明」更像生物

    6月10日,特斯拉股价创历史新高,成为全球市值最高的汽车公司,这和特斯拉的经营理念和技术蓝图息息相关。从创立之初,特斯拉就关注清洁能源和自动驾驶,这就注定它与传...

    新智元
  • 动态多智能体系统中强化学习模型的解释(CS)

    译文:近年来,人们对深度强化学习(DRL)系统的透明度和可解释性越来越感兴趣。口头解释作为我们日常生活中最自然的交流方式,更值得关注,因为它可以让用户更好地了解...

    N乳酸菌
  • 多智能体控制的可扩展强化学习策略(CS)

    本文开发了一种随机的多智能体强化学习(MARL)方法,以学习可以处理任意数量的外部智能体的控制策略。我们的政策可以执行的任务包括1000名追踪者和1000名逃避...

    用户8380959
  • 【深度学习】伯克利人工智能新研究:通过最大熵强化学习来学习各种技能

    深度强化学习(Deep reinforcement learning)在许多任务中都能获得成功。标准深度强化学习算法的目标是掌握一种解决给定任务的单一方法。因此...

    AiTechYun
  • OpenAI提出能测试强化学习智能体适应性的新方法

    强化学习(RL)能通过奖励或惩罚使智能体实现目标,并将它们学习到的经验转移到新环境中。但强化学习存在众所周知的缺陷:由于数据科学家在它们接受训练的环境中对这个系...

    人工智能快报
  • 基于大熔炉的多智能体强化学习的可扩展评价(CS)

    原现有的多智能体强化学习(MARL)评估套件没有将对新情况的泛化评估作为主要目标(不像监督学习基准)。我们的贡献是一个MARL评估套件,它填补了这一空白,并使用...

    用户8440711
  • 网络系统的可扩展多智能体强化学习(CS AI)

    长期以来,人们已经认识到,由于状态和操作空间的大小在代理程序数量中呈指数级增长,因此多代理程序强化学习(MARL)面临着重大的可伸缩性问题。在本文中,我们确定了...

    刘子蔚
  • 用多智能体强化学习算法MADDPG解决"老鹰捉小鸡"问题

    MADDPG算法是强化学习的进阶算法,在读对应论文Multi-Agent Actor-Critic for Mixed Cooperative-Competit...

    用户1386409
  • 博士万字总结 || 多智能体强化学习(MARL)大总结与论文详细解读

    最近由于写论文的原因,梳理了一下近几年的多智能体强化学习(MARL)算法,在这里做一个总结。下面遵循综述 Is multiagent deep reinforc...

    深度强化学习实验室
  • 基于量子玻尔兹曼机器的多智能体强化学习(CS)

    强化学习在机器学习方面取得了令人印象深刻的进展。与此同时,使用量子退火的量子增强机器学习算法也得到了长足的发展。近年来,人们提出了一种结合两种范式的多智能体强化...

    用户8440711
  • 基于局部观察的协作式多智能体强化学习(CS AI)

    在本文中,我们提出了一种用于多智能体强化学习(MARL)的分布式零阶策略优化方法。现有的MARL算法通常假定每个代理都可以观察网络中所有其他代理的状态和动作。这...

    刘子蔚
  • DeepMind综述深度强化学习中的快与慢,智能体应该像人一样学习

    DeepMind 研究者近期在 Trends In Cognitive Sciences 期刊上发表文章,概览了深度强化学习中的一些新技术,这些技术旨在弥补强化...

    机器之心
  • 兼顾公平与效率?北大NeurIPS 19论文提出多智能体强化学习方法FEN

    公平有助于人类社会的稳定和生产力的提高,同样对于多智能体系统也十分重要。然而让一组智能体学习提升系统效率并同时保持公平是一个复杂的、多目标的、联合策略优化问题。...

    机器之心
  • 协作多智能体强化学习的分解软演员-批判方法(CS)

    深度强化学习方法已在许多具有挑战性的协作多主体任务中表现出出色的性能。两个主要的有前途的研究方向是多主体价值函数分解和多主体策略梯度。在本文中,我们提出了一种新...

    用户8380959
  • 基于多智能体深度强化学习的端到端交叉处理(CS)

    通过十字路口是自动驾驶汽车的主要挑战之一。然而,对于大多数受交通灯控制的交叉口,可以通过一种简单的基于规则的方法来解决问题,该方法将自动驾驶车辆的行为与交通灯状...

    用户8440711

扫码关注云+社区

领取腾讯云代金券