前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >强化学习(1) | 夺旗行动:复杂合作角色的出现

强化学习(1) | 夺旗行动:复杂合作角色的出现

作者头像
用户7623498
发布2020-08-04 11:47:31
6710
发布2020-08-04 11:47:31
举报

出处 | DeepMind

翻译 | Ethon

掌握多人电子游戏中的策略、战术理解和团队合作是人工智能研究的一个关键挑战。在我们最新的文章中,我们发表了强化学习的新进展,我们发明的方法在Quake III 竞技场的“夺旗游戏”中获得了人类水平的表现。

“夺旗游戏”是一个复杂的、多角色的环境,它是一款经典的第一人称多人3D游戏。我们的AI代理成功的与人类及AI队友进行了合作,即使让其与人类玩家的反应速度相当,仍能获得很优异的表现。

后续,我们将展示这些方法在Quake III 竞技场其他游戏中的应用。

AI角色正直玩夺旗游戏。上图来自一个红方队员的第一视角。(左)室内环境 (右)室外环境

AI代理正在玩其他的竞技场游戏。(左)Harvester (右)在Ironwood地图上的夺旗游戏

数十亿人居住在这个星球上,虽然每个个体都有自己的目标和行为,但仍能团结到一起,组建成队伍、组织和社会,并表现出令人惊奇的集体智慧。我们称其为多角色学习:大量的独立个体必须单独行动,并学习与其他角色进行交互与合作。这是一个非常困难的问题,因为对于相互合作、适应的角色们,外部环境是不断的变化的。

我们选择第一人称的多角色3D视频游戏为平台来研究这个问题。这些游戏代表了最受欢迎的电子游戏类型,并吸引了数百万玩家,因为它们具有沉浸式的游戏体验,以及它们在战略、战术、手眼协调和团队协作方面所带来的挑战。

AI角色的挑战是直接从原始像素中进行学习并采取行动。这一复杂性,使第一人称多角色游戏成为AI社区里富有成果且活跃的研究领域。在本游研究中,我们仅关注Quake III Arena游戏(我们进行了外观上的调整,但整个游戏的机制保持原样)。

Quake III 竞技场为许多现代第一人称电子游戏奠定了基础,并吸引了长期以来竞争激烈的电子竞技场面。我们训练AI角色,让他们以个体的身份学习和行动,但他们必须能够与任何其他角色(无论是AI还是人类)合作或对抗。

CTF(夺旗游戏)的规则很简单,但是机制很复杂。双方队员们在一张地图上比赛,目标是在保护自己的同时夺取对方的旗帜。为了获得战术优势,他们可以标记对手的队员,把他们送回他们的出生点。夺得旗帜最多的队伍在五分钟后获胜。

从多智能体的角度来看,夺旗游戏要求队员既要成功地与队友合作,又要与对手竞争,同时还要对可能遇到的任何比赛风格保持稳定性。

为了让事情变得更有趣,我们考虑CTF的一个变体,其中映射布局会随着匹配的不同而变化。因此,AI角色将被迫去获取通用的策略,而不是记住地图布局。此外,为了公平竞争,我们的AI角色将以类似于人类的方式体验CTF世界:它们观察像素图像流并通过模拟的游戏控制器发出动作。

CTF是在程序生成的环境中运行的,因此代理必须将其一般化为不可见的映射

AI角色必须从零开始学习如何在看不见的环境中观察、行动、合作和竞争,所有这些都来自每一场比赛的一个增强信号:不管他们的团队赢了还是没赢。这是一个具有挑战性的学习问题,其解决方法是基于强化学习的三个一般思路:

  • 我们不是训练一个单一的代理,而是训练一群代理,这些代理通过相互配合来学习,从而提供多样化的队友和对手。
  • 种群中的每个代理都学习自己的内部奖励信号,这允许代理生成自己的内部目标,比如捕获一个标志。一个两层优化过程直接优化代理的内部奖励,并利用内部奖励的强化学习来学习代理的策略。
  • 代理运行在两个时间尺度上,快和慢,这提高了它们使用内存和生成一致动作序列的能力。

Win (FTW)代理体系结构的示意图。该智能体结合了递归神经网络(RNNs),包括一个共享内存模块,并学习从游戏点数到内部奖励的转换。

由此产生的AI角色,称为For The Win (FTW)角色,学习如何将夺旗游戏发挥到一个非常高的标准。至关重要的是,所学习的策略对于地图的大小、队友的数量以及团队中的其他玩家都是稳定的。下面,我们开始进行夺旗游戏。在户外环境中,FTW代理彼此对战。而在室内环境中,则是人类和角色一起进行游戏。

互动CTF游戏浏览器,与游戏在室内和室外程序生成的环境。

我们举办了一场包括40名人类玩家的比赛,在比赛中,人类和AI角色随机配对—既可能是对手也可能是队友。

FTW角色学会变得比强基线方法强大得多,并超过人类玩家的胜率。事实上,在一项对参与者的调查中,他们被评为比人类参与者更具合作精神。

我们的AI代理在训练过程中的表现

除了性能评估之外,理解AI角色行为中的突发复杂性及其内在意义也很重要。

为了理解代理如何表示游戏状态,我们研究了绘制在平面上的代理的神经网络的激活模式。下图中的点群表示游戏过程中的情况,附近的点表示类似的激活模式。这些点是根据高级CTF游戏状态着色的,在这个游戏状态中代理发现自己:在哪个房间?旗帜的状态如何?可以看到哪些队友和对手?我们观察到相同颜色的集群,这表明代理以类似的方式表示类似的高级游戏状态。

看看我们的AI角色如何代表游戏世界。在上图中,给定时间的神经激活模式是根据它们之间的相似性绘制的:空间中两个点越接近,它们的激活模式就越相似。然后根据当时的游戏情况给它们上色—相同的颜色代表相同的情况。

我们看到这些神经激活模式是有组织的,并形成了颜色的集群,这表明AI角色代表了某种可重复的、有组织的游戏玩法的有意义的方面。这些训练有素的AI角色甚至展示了一些人工神经元,它们可以直接针对特定情况编码。

AI角色从来没有被告知任何关于游戏规则的事情,但却学会了基本的游戏概念,并有效地开发针对夺旗游戏的策略。事实上,我们可以找到一些特定的神经元,它们可以直接编码一些最重要的游戏状态,比如当AI的旗帜被取下时激活的神经元,或者当AI的队友拿着旗帜时激活的神经元。本文进一步分析了智能体对记忆和视觉注意的使用。

人类与AI代理

我们的AI代理表现得和他们一样好吗?首先,我们注意到这些代理的反应速度非常快,而且是非常准确的标记者,这可能解释了他们的表现(标记是一种将对手送回起点的战术行动)。

由于我们较慢的生物信号,人类对感官输入的处理和行动相对较慢。因此,我们的代理人的卓越表现可能是由于他们更快的视觉处理和运动控制。然而,通过人为地降低这种准确性和反应时间,我们发现这只是他们成功的一个因素。

在进一步的研究中,我们训练的智能体具有四分之一秒(267毫秒)的内在延迟,也就是说,智能体在观察世界之前有267毫秒的延迟,与人类电子游戏玩家报告的反应时间相当。这些反应延迟的AI代理的表现仍然优于人类玩家者,高手玩家的获胜几率仅为21%。

人类玩家对反应延迟代理的胜率较低,这表明即使人类的反应延迟程度相当,代理的胜率也高于人类玩家。此外,通过查看人类和响应延迟代理的游戏事件的平均数量,我们可以看到类似数量的标记事件,这表明这些代理在这方面并不比人类具有优势。

通过无监督学习,我们建立了AI代理和人的原型行为,发现AI代理实际上学习的是类人行为,比如跟随队友,在对手的基地扎营。

训练后的AI代理展示了三种自主发现行为

这些行为出现在训练过程中,通过强化学习和群体层次的进化,随着行为主体学会以一种更互补的方式合作,诸如团队成员追随等行为不再受欢迎。

AI代理群体的培训进展

左上角:30名代理在相互训练和进化的过程中给出的Elo评分。

右上角:这些进化事件的遗传树。

下面的图表显示了知识的进步,一些内部奖励,以及在整个训练过程中的行为概率。

后续研究

虽然本文的重点是夺旗游戏,但采用的技术是通用的,我们很高兴看到其他人如何在不同的复杂环境中应用我们的技术。自从最初发布这些结果以来,我们发现将这些方法扩展到 Quake III竞技场的完整游戏中是成功的,包括专业游戏地图,除了捕捉旗帜外还有更多的多人游戏模式,以及更多的小工具和拾音器。

初步结果表明,智能体可以竞争性地玩多种游戏模式和多种地图,并开始在测试比赛中挑战我们人类的技能。事实上,在我们的《星际争霸2》中引入的理念,例如基于人口的多智能体RL,构成了AlphaStar智能体的基础。

原文链接:

https://deepmind.com/blog/capture-the-flag-science/

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-06-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 决策智能与机器学习 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
Prowork 团队协同
ProWork 团队协同(以下简称 ProWork )是便捷高效的协同平台,为团队中的不同角色提供支持。团队成员可以通过日历、清单来规划每⽇的工作,同时管理者也可以通过统计报表随时掌握团队状况。ProWork 摒弃了僵化的流程,通过灵活轻量的任务管理体系,满足不同团队的实际情况,目前 ProWork 所有功能均可免费使用。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档