动态 | DeepMind和暴雪联手发布开发工具和replay数据集,让更多AI研究者玩上星际2

AI 科技评论按:去年年底的时候,大家都知道了 DeepMind 的人工智能要开始玩星际了,今天DeepMind 也正式发布了论文和相关博文介绍了自己在这方面的成果,他们与暴雪联手发布了一系列工具,方便更多的研究者参与到(让人工智能)玩星际2中来。AI 科技评论编译如下。

DeepMind 一直抱有这样的一个科学目标:构建能学会解决复杂问题的系统,以此来不断推进人工智能的发展前沿。为此,DeepMind 开发了各种各样的智能体,然后在自己搭建的 DeepMind Lab 平台上用各种各样的环境测试它们。

有一类重要的测试环境是游戏。它们虽然不是专门为人工智能研究设计的,但毕竟人类可以玩得很好,它们也就是评估人工智能表现的一种重要方法。在围棋和 Atari 游戏都玩得比较熟练了以后,DeepMind 这次介绍了自己在新游戏中的研究进展:星际2。

  • DeepMind和暴雪一起发布了SC2LE,这是一个帮助研究如何让人工智能玩学会星际2这个RTS游戏的工具包。此次发布的 SC2LE 中包括:
  • 一个机器学习API,由暴雪开发,它能够帮研究者和开发者接入游戏。其中还首次包括了运行在Linux上的工具。
  • 一个匿名的游戏replay数据集,目前只有6万5千场,在接下来几周内会增加到50万场左右。
  • DeepMind的工具包PySC2的开源版本,研究者可以借助它轻松让智能体使用暴雪的特征层API。
  • 一篇DeepMind和暴雪联合完成的论文,它大致介绍了环境的组成、在测试小游戏中取得的初期基准成果、如何从replay监督学习,以及与游戏内置的 AI 进行1v1的天梯对抗。

星际和星际2算得上是所有游戏里最大、最成功的那一批,玩家们在这些游戏里厮杀也有超过20年了。不仅星际2,第一代星际也已经被人工智能和机器学习研究者用作测试环境,每年的 AIIDE 上都会举办人工智能星际大赛。星际之所以如此长寿,有相当一部分原因是由于它丰富、多层面的游戏过程,这样它也就成为了理想的人工智能研究环境。

比如,星际的最终目标是要击败对手,但玩家还是需要执行一系列收集资源、造建筑这样的分目标并在它们之间找到平衡。而且,一场游戏所花的时间短则几分钟,长则一小时,那么在游戏早期采取的行动就可能在很长一段时间内都看不到对应的收获。最后,地图上只有一部分区域是可见的,智能体就需要综合使用记忆和规划能力,才能取得胜利。

除此之外,这个游戏还有一些别的方面也对研究者有吸引力,比如每天都有众多的玩家在线上游戏中对抗。这就保证了会有海量的replay数据供智能体学习,而智能体将来也会有许许多多极具天赋的对手可以切磋。

不过,即便只是星际的操作都是一项不小的挑战,每时每刻可以选择的基础操作超过300种。这就跟 Atari 游戏形成了明显的区别,它里面可选的动作不超过10种(比如上下左右)。在此基础上,星际中的操作也是有层次的、可以修改以及增强的,其中的许多操作都需要在屏幕上点击。就算只是一个84x84那样的小屏幕,所有可能的操作加起来也会高达上亿种。

对人类和智能体来说,根据选择的单位不同,可以进行的操作也不同

在这次的工具发布以后,研究者就可以用暴雪自己的工具解决一些上面提到的麻烦,这样就可以更方便地构建自己的任务和模型。

DeepMind 的 PySC2 工具可以把环境分类打包,从而为强化学习智能体提供了一个灵活易用的界面,帮助它们玩游戏。在此次发布的初始版本中,PySC2 把游戏中不同的元素划分成了不同的“特征层”,比如不同类型的单位、生命值、地图的可见性等等会相互分开,同时还能保持游戏核心的视觉和空间元素。

用不同的层显示游戏中不同类型的内容

SC2LE工具包里还包含一系列的测试小游戏,它们把整个游戏分为了多个不同的可控片段,这样就可以测试智能体在特定任务上的表现,比如切换视角、采矿或者选择单位等等。研究者可以在这样的小游戏中测试他们的技术,同时也可以帮助建立更多的测试小游戏,便于更多的研究者继续竞争和评估。

简单的强化学习小游戏可以让研究者测试智能体在特定任务中的表现

以DeepMind目前的研究进展,他们的智能体已经可以在这样的特定任务小游戏中发挥不错的表现,但是到了整场游戏,即便是 A3C 这样比较强的基准 AI 也根本打不赢“简单”的游戏内置 AI。比如,下面动图里左边的就是一个训练早期的智能体,它没法让矿工采矿,这件事对人类来说不费吹灰之力。经过训练之后,智能体表现出了有意义的动作,但是如果要让它们有竞争性的话,还需要在深度强化学习和相关领域有更大突破。

DeepMind的研究人员发现了一种让智能体学到更强策略的技巧,就是模仿学习。这样的学习方法在暴雪的帮助下也很快就会变得容易,他们已经答应会继续发布几十万局星际2天梯上的匿名游戏replay。这不仅可以让研究者用监督学习的方法训练智能体,而且也为序列预测、长期记忆等等其它的研究领域提供了可能。

DeepMind希望这些新发布的工具可以让人工智能大家庭在星际游戏上已有的研究成果再前进一步,鼓励更多的人从事深度强化学习研究,也让研究者可以更轻松地跟上这个领域的前沿发展。DeepMind也期待人工智能大家庭可以有一些精彩的发现。

论文地址:https://deepmind.com/documents/110/sc2le.pdf

PySC2 github地址:https://github.com/deepmind/pysc2

暴雪的星际2 API地址(包含了Linux版的信息、游戏replay和其它相关内容):https://github.com/Blizzard/s2client-proto

via DeepMind Research Blog, AI 科技评论编译

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-08-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

OpenAI推出开源机器人模拟软件Roboschool(附代码)

李林 编译自 OpenAI 量子位 报道 | 公众号 QbitAI 今天,马斯克和YC总裁Altman等硅谷名流共同创办的人工智能非营利组织OpenAI发布了一...

3229
来自专栏鸿的学习笔记

The Quora Topic Network(上)

主题在Quora的知识生态系统中扮演着几个关键角色。例如,人们按照主题来表示他们的兴趣,这有助于我们向他们展示他们会发现有价值和吸引力的内容。同时,当人们添加问...

771
来自专栏AI研习社

Facebook 开源 CV 开发平台 Detectron,打包支持各种物体识别算法

Facebook 人工智能实验室今日宣布开源自己的顶级物体检测研究平台 Detectron,为广大研究人员们未来的新计算机视觉研究课题提供灵活、快速的模型实现和...

3326
来自专栏人工智能快报

谷歌增强了人工智能的逻辑推理能力

被称为神经网络的人工智能系统可以识别图像、翻译语言,甚至掌握古老的围棋游戏。但它们处理复杂的数据或变量之间关系的能力依然很有限,这使得它们还无法胜任需要逻辑推理...

3378
来自专栏人工智能

生成人工智能:创意专家新的强大工具

人工智能可以以惊人的速度,效率和逼真度生成新的数据模式。在过去的几年里,人工智能通过算法生成可以以数字形式呈现的任何对象已经司空见惯。到2019年,大多数领先的...

1766
来自专栏镁客网

厉害了Facebook,最新计算机视觉每秒可训练4万张图片

1033
来自专栏腾讯云技术沙龙

王亮:游戏AI探索之旅——从alphago到moba游戏

今天分享的课题是游戏AI探索之旅。本次分享分为四部分,第一部分,什么是游戏AI,游戏AI为什么对现在的游戏非常重要;第二部分,业界和工业界对于做游戏AI主要的方...

2293
来自专栏AI科技大本营的专栏

一文详解启发式对话中的知识管理

【导读】自然语言对话系统正在覆盖越来越多的生活和服务场景,同时,自然语言对话的理解能力和对精细知识的对话召回率在技术上仍有很大挑战。

912
来自专栏AI科技大本营的专栏

一份为高中生准备的机器学习与人工智能入门指南

翻译 | AI科技大本营 参与 | 林椿眄 作为一名高中生,我在过去的一年里自学了机器学习与人工智能的相关课程,在这里和大家分享下我自己的学习心得,希望能够对那...

3526
来自专栏IT派

AI工程师应聘要具备哪些能力?

IT派 - {技术青年圈} 持续关注互联网、大数据、人工智能领域 作者|洪亮劼 出处|极客时间专栏《AI 技术内参》 洪亮劼,电子商务平台 Etsy 的数据科...

3967

扫码关注云+社区