首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

游戏开发亟需一场AI革命,老牌厂商EA带头试水强化学习

艺电公司(EA)的研究人员尝试了用深度强化学习(Deep Reinforcement Learning)测试游戏的平衡性和可玩性。

如今的电子游戏可以说是越来越复杂了,在画质、剧情和互动反馈等方方面面都日渐优化。但这也导致想要确保它们的可玩性和无缺陷对游戏开发商来说变得越来越困难。为此,游戏公司开始借助人工智能工具来克服测试其产品所面临的日益严峻的挑战。

近日,知名游戏大厂艺电公司(EA)的一组人工智能研究人员发表了一篇新论文,探讨了深度强化学习(Deep Reinforcement Learning,DRL)可以帮助测试游戏,并确保它们是平衡的和可解的。

EA研究人员提出的“程序性内容生成的对抗性强化学习”(Adversarial Reinforcement Learning for Procedural Content Generation)技术是一种新颖的方法,它解决了以前的人工智能测试游戏方法的一些缺陷。

▍谁来测试游戏?

“如今的大型游戏可能有超过1,000名开发者,为了满足在PlayStation、Xbox、智能手机等设备上发布跨平台游戏的需求。”EA的高级机器学习研究工程师、论文的主要作者Linus Gisslén说。“另外,随着开放世界游戏和直播服务的最新趋势,我们看到很多内容必须按程序生成,其规模是我们以前在游戏中没有看到的。所有这些都引入了大量的‘活动部件’,这些都会在我们的游戏中产生bug。”

目前,开发人员有两个主要工具可以用来测试他们的游戏:脚本机器人人工测试人员。人工测试人员非常善于发现错误,但在处理庞大的环境时,他们的速度会被大大降低。并且他们也会感到厌烦和分心,尤其是在一个非常大的游戏世界里。

另一方面,脚本机器人具有快速性和可扩展性。但它们无法与人类测试人员的复杂性相提并论,而且它们在开放世界游戏等大环境中表现不佳,在这种环境中,盲目的探索并不一定是成功的策略。

“我们的目标是使用强化学习(RL)作为一种方法,将人类的优势(自学、自适应和好奇心)与脚本机器人的优势(快速、廉价和可扩展)结合起来。”Gisslén说。

在机器学习的各流派中,强化学习近年来发展势头迅猛。在一个游戏中,RL智能体会从采取随机行动开始,根据它从环境中得到的奖励或惩罚(生存、失去生命或健康、赚取积分、完成一个关卡等),它制定一个行动策略,产生最好的结果。

▍在“对抗”中优化

在过去十年中,全球各地的人工智能研究实验室纷纷使用强化学习来掌握复杂的游戏。最近,游戏公司也开始对在游戏开发生命周期中使用强化学习和其他机器学习技术感兴趣。

例如,在游戏测试中,可以通过让RL智能体在现有内容(地图、关卡等)上进行游戏训练来学习游戏。一旦智能体掌握了游戏,它就可以帮助发现新地图中的错误。

但这种方法的问题是,RL系统最终往往会对它在训练期间看到的地图进行过拟合(overfitting)。这意味着它在探索这些地图方面会变得非常出色,但在测试新地图方面却很糟糕。

EA研究人员提出的技术通过“对抗性强化学习”(Adversarial Reinforcement Learning)克服了这些限制,这种技术的灵感来自于生成对抗网络(Generative Adversarial Networks,GAN),生成对抗网络是一种深度学习架构,其让两个神经网络相互对抗,以创建和检测合成数据。

在对抗性强化学习中,两个RL智能体通过竞争和合作来创造和测试游戏内容。第一个智能体Generator使用程序性内容生成(PCG),这是一种自动生成地图和其他游戏元素的技术。第二个智能体Solver则试图通过Generator所创建的关卡。

这两个智能体之间存在着一种共生关系。Solver通过采取帮助其通过生成的关卡的行动来获得奖励。另一方面,Generator则通过创造具有挑战性的关卡来获得奖励,但对Solver来说,这并非不可能完成。随着训练的进行,这两个智能体提供给对方的反馈使他们在各自的任务中变得更好。

关卡的生成是以循序渐进的方式进行的。例如,如果对抗性强化学习系统被用于一个平台游戏,Generator会创建一个游戏块,并在Solver成功到达后进入下一个游戏。

“其他领域已经验证了对抗性RL智能体,而且通常需要使智能体能够充分发挥其潜力,”Gisslén说。“例如,DeepMind在让他们的围棋智能体与不同版本的自己对弈时使用了这种版本,以实现惊人的效果。我们把它作为一种工具,在训练中挑战RL智能体,使其变得更加通用,这意味着它将对环境中发生的变化更加稳健,这在游戏测试中经常是这样,因为环境可能每天都在变化。”

渐渐地,Generator将学会创建各种可解决的环境,而Solver在测试不同环境时将变得更加灵活。

一个强大的游戏测试强化学习系统可以非常有用。例如,许多游戏都有工具允许玩家创建自己的关卡和环境。一个在各种PCG生成的关卡上训练过的Solver智能体在测试用户生成的内容的可玩性方面将比传统的机器人更有效率。

在EA的论文中,一个有趣的细节是引入了“辅助输入”(Auxiliary Inputs)。这是一个影响Generator奖励的边通道,使游戏开发者能够控制其学习行为。在论文中,研究人员展示了如何利用辅助输入来控制人工智能系统生成的关卡的难度。

EA的人工智能研究团队将该技术应用于一个平台游戏和一个赛车游戏。在平台游戏中,Generator逐渐将积木从起点放置到目标。而Solver是玩家,必须从一个积木跳到另一个积木,直到到达目标。在赛车游戏中,Generator放置赛道的各个部分,而Solver则驾驶汽车到达终点线。

研究人员证实,通过使用对抗性强化学习系统和调整辅助输入,他们能够在不同层面控制和调整生成的游戏环境。

他们的实验还表明,用对抗性机器学习训练的Solver比传统的游戏测试机器人或用固定地图训练的RL智能体要强大得多。

▍解放人力

不过,这篇论文并没有对研究人员使用的强化学习系统的架构做出详细的解释。其中的少量信息显示,Generator和Solver使用了简单的、具有512个单元的两层神经网络,其训练成本应该不高。

然而,论文中包括的例子游戏非常简单,强化学习系统的架构应该根据目标游戏的环境和行动空间的复杂程度而有所不同。

“我们倾向于采取一种务实的方法,并试图将训练成本保持在最低水平,因为当涉及到我们的QV(质量验证)团队的投资回报率时,这必须是一个可行的选择,”Gisslén说。“我们试图保持每个受训智能体的技能范围只包括一个技能/目标(例如,导航或目标选择),因为有多个技能/目标的扩展性很差,导致模型的训练成本很高。”

EA的研究总监和论文的共同作者Konrad Tollmar说,这项工作仍处于研究阶段。“但我们正在与EA的各个游戏工作室进行合作,探讨这是否是满足他们需求的可行方法。总的来说,我真的很乐观,机器学习将来会以某种形式成为任何QV团队的标准工具。”他说。

研究人员相信,对抗性强化学习智能体可以帮助人类测试人员专注于评估游戏中无法用自动化系统测试的部分。

“我们的愿景是可以释放人工测试人员的潜力,从平凡和重复的任务(如寻找玩家可能被卡住或掉在地上的错误)到更有趣的用例(如测试游戏平衡性、元游戏和趣味性),这些都是我们在不久的将来RL智能体还无法做到的事情,但对游戏和游戏制作却无比重要。”Gisslén说。

RL系统可以成为创建游戏内容的一个重要部分,因为它将使设计者在创建环境时评估其可玩性。“最终,这和其他人工智能系统可以成为内容和产品创建的重要组成部分。”Tollmar说到。

随着该领域的研究不断推进,人工智能最终可以在游戏开发和游戏体验的其他部分发挥更重要的作用。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20211007A09I9R00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券