强化学习（1） | 夺旗行动：复杂合作角色的出现

用户7623498

发布于 2020-08-04 11:47:31

6710

发布于 2020-08-04 11:47:31

文章被收录于专栏：决策智能与机器学习决策智能与机器学习决策智能与机器学习

出处 | DeepMind

翻译 | Ethon

掌握多人电子游戏中的策略、战术理解和团队合作是人工智能研究的一个关键挑战。在我们最新的文章中，我们发表了强化学习的新进展，我们发明的方法在Quake III 竞技场的“夺旗游戏”中获得了人类水平的表现。

“夺旗游戏”是一个复杂的、多角色的环境，它是一款经典的第一人称多人3D游戏。我们的AI代理成功的与人类及AI队友进行了合作，即使让其与人类玩家的反应速度相当，仍能获得很优异的表现。

后续，我们将展示这些方法在Quake III 竞技场其他游戏中的应用。

AI角色正直玩夺旗游戏。上图来自一个红方队员的第一视角。（左）室内环境（右）室外环境

AI代理正在玩其他的竞技场游戏。（左）Harvester （右）在Ironwood地图上的夺旗游戏

数十亿人居住在这个星球上，虽然每个个体都有自己的目标和行为，但仍能团结到一起，组建成队伍、组织和社会，并表现出令人惊奇的集体智慧。我们称其为多角色学习：大量的独立个体必须单独行动，并学习与其他角色进行交互与合作。这是一个非常困难的问题，因为对于相互合作、适应的角色们，外部环境是不断的变化的。

我们选择第一人称的多角色3D视频游戏为平台来研究这个问题。这些游戏代表了最受欢迎的电子游戏类型，并吸引了数百万玩家，因为它们具有沉浸式的游戏体验，以及它们在战略、战术、手眼协调和团队协作方面所带来的挑战。

AI角色的挑战是直接从原始像素中进行学习并采取行动。这一复杂性，使第一人称多角色游戏成为AI社区里富有成果且活跃的研究领域。在本游研究中，我们仅关注Quake III Arena游戏（我们进行了外观上的调整，但整个游戏的机制保持原样）。

Quake III 竞技场为许多现代第一人称电子游戏奠定了基础，并吸引了长期以来竞争激烈的电子竞技场面。我们训练AI角色，让他们以个体的身份学习和行动，但他们必须能够与任何其他角色(无论是AI还是人类)合作或对抗。

CTF（夺旗游戏）的规则很简单，但是机制很复杂。双方队员们在一张地图上比赛，目标是在保护自己的同时夺取对方的旗帜。为了获得战术优势，他们可以标记对手的队员，把他们送回他们的出生点。夺得旗帜最多的队伍在五分钟后获胜。

从多智能体的角度来看，夺旗游戏要求队员既要成功地与队友合作，又要与对手竞争，同时还要对可能遇到的任何比赛风格保持稳定性。

为了让事情变得更有趣，我们考虑CTF的一个变体，其中映射布局会随着匹配的不同而变化。因此，AI角色将被迫去获取通用的策略，而不是记住地图布局。此外，为了公平竞争，我们的AI角色将以类似于人类的方式体验CTF世界：它们观察像素图像流并通过模拟的游戏控制器发出动作。

CTF是在程序生成的环境中运行的，因此代理必须将其一般化为不可见的映射

AI角色必须从零开始学习如何在看不见的环境中观察、行动、合作和竞争，所有这些都来自每一场比赛的一个增强信号：不管他们的团队赢了还是没赢。这是一个具有挑战性的学习问题，其解决方法是基于强化学习的三个一般思路:

我们不是训练一个单一的代理，而是训练一群代理，这些代理通过相互配合来学习，从而提供多样化的队友和对手。
种群中的每个代理都学习自己的内部奖励信号，这允许代理生成自己的内部目标，比如捕获一个标志。一个两层优化过程直接优化代理的内部奖励，并利用内部奖励的强化学习来学习代理的策略。
代理运行在两个时间尺度上，快和慢，这提高了它们使用内存和生成一致动作序列的能力。

Win (FTW)代理体系结构的示意图。该智能体结合了递归神经网络(RNNs)，包括一个共享内存模块，并学习从游戏点数到内部奖励的转换。

由此产生的AI角色，称为For The Win (FTW)角色，学习如何将夺旗游戏发挥到一个非常高的标准。至关重要的是，所学习的策略对于地图的大小、队友的数量以及团队中的其他玩家都是稳定的。下面，我们开始进行夺旗游戏。在户外环境中，FTW代理彼此对战。而在室内环境中，则是人类和角色一起进行游戏。

互动CTF游戏浏览器，与游戏在室内和室外程序生成的环境。

我们举办了一场包括40名人类玩家的比赛，在比赛中，人类和AI角色随机配对—既可能是对手也可能是队友。

FTW角色学会变得比强基线方法强大得多，并超过人类玩家的胜率。事实上，在一项对参与者的调查中，他们被评为比人类参与者更具合作精神。

我们的AI代理在训练过程中的表现

除了性能评估之外，理解AI角色行为中的突发复杂性及其内在意义也很重要。

为了理解代理如何表示游戏状态，我们研究了绘制在平面上的代理的神经网络的激活模式。下图中的点群表示游戏过程中的情况，附近的点表示类似的激活模式。这些点是根据高级CTF游戏状态着色的，在这个游戏状态中代理发现自己：在哪个房间?旗帜的状态如何?可以看到哪些队友和对手?我们观察到相同颜色的集群，这表明代理以类似的方式表示类似的高级游戏状态。

看看我们的AI角色如何代表游戏世界。在上图中，给定时间的神经激活模式是根据它们之间的相似性绘制的：空间中两个点越接近，它们的激活模式就越相似。然后根据当时的游戏情况给它们上色—相同的颜色代表相同的情况。

我们看到这些神经激活模式是有组织的，并形成了颜色的集群，这表明AI角色代表了某种可重复的、有组织的游戏玩法的有意义的方面。这些训练有素的AI角色甚至展示了一些人工神经元，它们可以直接针对特定情况编码。

AI角色从来没有被告知任何关于游戏规则的事情，但却学会了基本的游戏概念，并有效地开发针对夺旗游戏的策略。事实上，我们可以找到一些特定的神经元，它们可以直接编码一些最重要的游戏状态，比如当AI的旗帜被取下时激活的神经元，或者当AI的队友拿着旗帜时激活的神经元。本文进一步分析了智能体对记忆和视觉注意的使用。

人类与AI代理

我们的AI代理表现得和他们一样好吗?首先，我们注意到这些代理的反应速度非常快，而且是非常准确的标记者，这可能解释了他们的表现(标记是一种将对手送回起点的战术行动)。

由于我们较慢的生物信号，人类对感官输入的处理和行动相对较慢。因此，我们的代理人的卓越表现可能是由于他们更快的视觉处理和运动控制。然而，通过人为地降低这种准确性和反应时间，我们发现这只是他们成功的一个因素。

在进一步的研究中，我们训练的智能体具有四分之一秒(267毫秒)的内在延迟，也就是说，智能体在观察世界之前有267毫秒的延迟，与人类电子游戏玩家报告的反应时间相当。这些反应延迟的AI代理的表现仍然优于人类玩家者，高手玩家的获胜几率仅为21%。