动态 | DeepMind和暴雪联手发布开发工具和replay数据集,让更多AI研究者玩上星际2

AI 科技评论按:去年年底的时候,大家都知道了 DeepMind 的人工智能要开始玩星际了,今天DeepMind 也正式发布了论文和相关博文介绍了自己在这方面的成果,他们与暴雪联手发布了一系列工具,方便更多的研究者参与到(让人工智能)玩星际2中来。AI 科技评论编译如下。

DeepMind 一直抱有这样的一个科学目标:构建能学会解决复杂问题的系统,以此来不断推进人工智能的发展前沿。为此,DeepMind 开发了各种各样的智能体,然后在自己搭建的 DeepMind Lab 平台上用各种各样的环境测试它们。

有一类重要的测试环境是游戏。它们虽然不是专门为人工智能研究设计的,但毕竟人类可以玩得很好,它们也就是评估人工智能表现的一种重要方法。在围棋和 Atari 游戏都玩得比较熟练了以后,DeepMind 这次介绍了自己在新游戏中的研究进展:星际2。

  • DeepMind和暴雪一起发布了SC2LE,这是一个帮助研究如何让人工智能玩学会星际2这个RTS游戏的工具包。此次发布的 SC2LE 中包括:
  • 一个机器学习API,由暴雪开发,它能够帮研究者和开发者接入游戏。其中还首次包括了运行在Linux上的工具。
  • 一个匿名的游戏replay数据集,目前只有6万5千场,在接下来几周内会增加到50万场左右。
  • DeepMind的工具包PySC2的开源版本,研究者可以借助它轻松让智能体使用暴雪的特征层API。
  • 一篇DeepMind和暴雪联合完成的论文,它大致介绍了环境的组成、在测试小游戏中取得的初期基准成果、如何从replay监督学习,以及与游戏内置的 AI 进行1v1的天梯对抗。

星际和星际2算得上是所有游戏里最大、最成功的那一批,玩家们在这些游戏里厮杀也有超过20年了。不仅星际2,第一代星际也已经被人工智能和机器学习研究者用作测试环境,每年的 AIIDE 上都会举办人工智能星际大赛。星际之所以如此长寿,有相当一部分原因是由于它丰富、多层面的游戏过程,这样它也就成为了理想的人工智能研究环境。

比如,星际的最终目标是要击败对手,但玩家还是需要执行一系列收集资源、造建筑这样的分目标并在它们之间找到平衡。而且,一场游戏所花的时间短则几分钟,长则一小时,那么在游戏早期采取的行动就可能在很长一段时间内都看不到对应的收获。最后,地图上只有一部分区域是可见的,智能体就需要综合使用记忆和规划能力,才能取得胜利。

除此之外,这个游戏还有一些别的方面也对研究者有吸引力,比如每天都有众多的玩家在线上游戏中对抗。这就保证了会有海量的replay数据供智能体学习,而智能体将来也会有许许多多极具天赋的对手可以切磋。

不过,即便只是星际的操作都是一项不小的挑战,每时每刻可以选择的基础操作超过300种。这就跟 Atari 游戏形成了明显的区别,它里面可选的动作不超过10种(比如上下左右)。在此基础上,星际中的操作也是有层次的、可以修改以及增强的,其中的许多操作都需要在屏幕上点击。就算只是一个84x84那样的小屏幕,所有可能的操作加起来也会高达上亿种。

对人类和智能体来说,根据选择的单位不同,可以进行的操作也不同

在这次的工具发布以后,研究者就可以用暴雪自己的工具解决一些上面提到的麻烦,这样就可以更方便地构建自己的任务和模型。

DeepMind 的 PySC2 工具可以把环境分类打包,从而为强化学习智能体提供了一个灵活易用的界面,帮助它们玩游戏。在此次发布的初始版本中,PySC2 把游戏中不同的元素划分成了不同的“特征层”,比如不同类型的单位、生命值、地图的可见性等等会相互分开,同时还能保持游戏核心的视觉和空间元素。

用不同的层显示游戏中不同类型的内容

SC2LE工具包里还包含一系列的测试小游戏,它们把整个游戏分为了多个不同的可控片段,这样就可以测试智能体在特定任务上的表现,比如切换视角、采矿或者选择单位等等。研究者可以在这样的小游戏中测试他们的技术,同时也可以帮助建立更多的测试小游戏,便于更多的研究者继续竞争和评估。

简单的强化学习小游戏可以让研究者测试智能体在特定任务中的表现

以DeepMind目前的研究进展,他们的智能体已经可以在这样的特定任务小游戏中发挥不错的表现,但是到了整场游戏,即便是 A3C 这样比较强的基准 AI 也根本打不赢“简单”的游戏内置 AI。比如,下面动图里左边的就是一个训练早期的智能体,它没法让矿工采矿,这件事对人类来说不费吹灰之力。经过训练之后,智能体表现出了有意义的动作,但是如果要让它们有竞争性的话,还需要在深度强化学习和相关领域有更大突破。

DeepMind的研究人员发现了一种让智能体学到更强策略的技巧,就是模仿学习。这样的学习方法在暴雪的帮助下也很快就会变得容易,他们已经答应会继续发布几十万局星际2天梯上的匿名游戏replay。这不仅可以让研究者用监督学习的方法训练智能体,而且也为序列预测、长期记忆等等其它的研究领域提供了可能。

DeepMind希望这些新发布的工具可以让人工智能大家庭在星际游戏上已有的研究成果再前进一步,鼓励更多的人从事深度强化学习研究,也让研究者可以更轻松地跟上这个领域的前沿发展。DeepMind也期待人工智能大家庭可以有一些精彩的发现。

论文地址:https://deepmind.com/documents/110/sc2le.pdf

PySC2 github地址:https://github.com/deepmind/pysc2

暴雪的星际2 API地址(包含了Linux版的信息、游戏replay和其它相关内容):https://github.com/Blizzard/s2client-proto

via DeepMind Research Blog, AI 科技评论编译

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-08-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

业界 | AIIA DNN benchmark「从芯」测试

AI 进入爆发期后,芯片对技术进步的影响愈发凸显。深度学习对计算芯片提出了新需求,催生了 AI 加速芯片的问世。当 AI 芯片的功能日益复杂化、多样化,一方面,...

1206
来自专栏深度学习

AI 领域最最稀缺的人才——人工智能架构师

这里,就不卖关子了。AI领域最最最最最稀缺的人才应该为人工智能架构师。有过4次技术创业经历,如今做AI投资的星瀚资本创始合伙人杨歌如是说。 在杨歌的身上,传奇的...

4927
来自专栏人工智能头条

deepart.io创始人专访:科研算法的敏捷应用

1494
来自专栏大数据文摘

“半路出家”的Kaggle Grandmaster:如何正确打开数据科学竞赛?

凭借这一成绩,Vladimir也荣获了Kaggle的最高荣誉——竞赛超级大师(Competitions Grandmaster)。Kaggle至今已成立8年,注...

1267
来自专栏区块链入门

重磅推荐:AI芯片产业生态梳理

AI芯片作为产业核心,也是技术要求和附加值最高的环节,在AI产业链中的产业价值和战略地位远远大于应用层创新。腾讯发布的《中美两国人工智能产业发展全面解读》报告显...

1244
来自专栏全栈数据化营销

详解RFM客户价值模型,送你20个企业战略和竞争分析模型

不会模型,做不了分析! 最近在做一个比较大型公司的案子,涉及到营销、销售、架构、财务等各方面的分析和研究,不得不说,在信息量很大、分析维度很多的时候,有准确的分...

38413
来自专栏人工智能头条

人工智能与认知科学论坛:类脑智能、混合智能及应用前景的探讨

1686
来自专栏CSDN技术头条

科研算法的敏捷应用

我记得几个月前看到Deep Dream研究员们(Leon A. Gatys, Alexander S. Ecker and Matthias Bethge)发布...

20610
来自专栏ATYUN订阅号

非语言交流的新领域:将机器人的情绪映射为触觉表达

我们认为人类非常聪明,因为人类拥有多种不同的沟通方式。我们发声,我们有富有表现力的面孔,我们可以做手势。我们似乎有很多交流方式,但我们错过了一些对动物来说很常见...

892
来自专栏数值分析与有限元编程

“The Scientific Paper Is Obsolete”

这是《大西洋月刊》的一篇文章的标题,因此加了引号。意思是科研论文已经过时了。作者的观点是:

982

扫码关注云+社区