听说你的多智能体强化学习算法不work?你用对MAPPO了吗
清华和UC伯克利联合研究发现,在不进行任何算法或者网络架构变动的情况下,用 MAPPO(Multi-Agent PPO)在 3 个具有代表性的多智能体任务(Multi-Agent Particle World, StarCraftII, Hanabi)中取得了与 SOTA 算法相当的性能。
近些年,多智能体强化学习(Multi-Agent Reinforcement Learning,MARL)取得了突破性进展,例如 DeepMind 开发的 AlphaStar 在星际争霸 II 中打败了职...