动态 | DeepMind和暴雪联手发布开发工具和replay数据集,让更多AI研究者玩上星际2

AI 科技评论按:去年年底的时候,大家都知道了 DeepMind 的人工智能要开始玩星际了,今天DeepMind 也正式发布了论文和相关博文介绍了自己在这方面的成果,他们与暴雪联手发布了一系列工具,方便更多的研究者参与到(让人工智能)玩星际2中来。AI 科技评论编译如下。

DeepMind 一直抱有这样的一个科学目标:构建能学会解决复杂问题的系统,以此来不断推进人工智能的发展前沿。为此,DeepMind 开发了各种各样的智能体,然后在自己搭建的 DeepMind Lab 平台上用各种各样的环境测试它们。

有一类重要的测试环境是游戏。它们虽然不是专门为人工智能研究设计的,但毕竟人类可以玩得很好,它们也就是评估人工智能表现的一种重要方法。在围棋和 Atari 游戏都玩得比较熟练了以后,DeepMind 这次介绍了自己在新游戏中的研究进展:星际2。

  • DeepMind和暴雪一起发布了SC2LE,这是一个帮助研究如何让人工智能玩学会星际2这个RTS游戏的工具包。此次发布的 SC2LE 中包括:
  • 一个机器学习API,由暴雪开发,它能够帮研究者和开发者接入游戏。其中还首次包括了运行在Linux上的工具。
  • 一个匿名的游戏replay数据集,目前只有6万5千场,在接下来几周内会增加到50万场左右。
  • DeepMind的工具包PySC2的开源版本,研究者可以借助它轻松让智能体使用暴雪的特征层API。
  • 一篇DeepMind和暴雪联合完成的论文,它大致介绍了环境的组成、在测试小游戏中取得的初期基准成果、如何从replay监督学习,以及与游戏内置的 AI 进行1v1的天梯对抗。

星际和星际2算得上是所有游戏里最大、最成功的那一批,玩家们在这些游戏里厮杀也有超过20年了。不仅星际2,第一代星际也已经被人工智能和机器学习研究者用作测试环境,每年的 AIIDE 上都会举办人工智能星际大赛。星际之所以如此长寿,有相当一部分原因是由于它丰富、多层面的游戏过程,这样它也就成为了理想的人工智能研究环境。

比如,星际的最终目标是要击败对手,但玩家还是需要执行一系列收集资源、造建筑这样的分目标并在它们之间找到平衡。而且,一场游戏所花的时间短则几分钟,长则一小时,那么在游戏早期采取的行动就可能在很长一段时间内都看不到对应的收获。最后,地图上只有一部分区域是可见的,智能体就需要综合使用记忆和规划能力,才能取得胜利。

除此之外,这个游戏还有一些别的方面也对研究者有吸引力,比如每天都有众多的玩家在线上游戏中对抗。这就保证了会有海量的replay数据供智能体学习,而智能体将来也会有许许多多极具天赋的对手可以切磋。

不过,即便只是星际的操作都是一项不小的挑战,每时每刻可以选择的基础操作超过300种。这就跟 Atari 游戏形成了明显的区别,它里面可选的动作不超过10种(比如上下左右)。在此基础上,星际中的操作也是有层次的、可以修改以及增强的,其中的许多操作都需要在屏幕上点击。就算只是一个84x84那样的小屏幕,所有可能的操作加起来也会高达上亿种。

对人类和智能体来说,根据选择的单位不同,可以进行的操作也不同

在这次的工具发布以后,研究者就可以用暴雪自己的工具解决一些上面提到的麻烦,这样就可以更方便地构建自己的任务和模型。

DeepMind 的 PySC2 工具可以把环境分类打包,从而为强化学习智能体提供了一个灵活易用的界面,帮助它们玩游戏。在此次发布的初始版本中,PySC2 把游戏中不同的元素划分成了不同的“特征层”,比如不同类型的单位、生命值、地图的可见性等等会相互分开,同时还能保持游戏核心的视觉和空间元素。

用不同的层显示游戏中不同类型的内容

SC2LE工具包里还包含一系列的测试小游戏,它们把整个游戏分为了多个不同的可控片段,这样就可以测试智能体在特定任务上的表现,比如切换视角、采矿或者选择单位等等。研究者可以在这样的小游戏中测试他们的技术,同时也可以帮助建立更多的测试小游戏,便于更多的研究者继续竞争和评估。

简单的强化学习小游戏可以让研究者测试智能体在特定任务中的表现

以DeepMind目前的研究进展,他们的智能体已经可以在这样的特定任务小游戏中发挥不错的表现,但是到了整场游戏,即便是 A3C 这样比较强的基准 AI 也根本打不赢“简单”的游戏内置 AI。比如,下面动图里左边的就是一个训练早期的智能体,它没法让矿工采矿,这件事对人类来说不费吹灰之力。经过训练之后,智能体表现出了有意义的动作,但是如果要让它们有竞争性的话,还需要在深度强化学习和相关领域有更大突破。

DeepMind的研究人员发现了一种让智能体学到更强策略的技巧,就是模仿学习。这样的学习方法在暴雪的帮助下也很快就会变得容易,他们已经答应会继续发布几十万局星际2天梯上的匿名游戏replay。这不仅可以让研究者用监督学习的方法训练智能体,而且也为序列预测、长期记忆等等其它的研究领域提供了可能。

DeepMind希望这些新发布的工具可以让人工智能大家庭在星际游戏上已有的研究成果再前进一步,鼓励更多的人从事深度强化学习研究,也让研究者可以更轻松地跟上这个领域的前沿发展。DeepMind也期待人工智能大家庭可以有一些精彩的发现。

论文地址:https://deepmind.com/documents/110/sc2le.pdf

PySC2 github地址:https://github.com/deepmind/pysc2

暴雪的星际2 API地址(包含了Linux版的信息、游戏replay和其它相关内容):https://github.com/Blizzard/s2client-proto

via DeepMind Research Blog, AI 科技评论编译

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-08-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

[译]大数据将何去何从?规范性分析的三个应用实例

1172
来自专栏AI科技评论

苹果开放机器学习API,但是没有看到苹果的机器学习开发平台

AI科技评论消息,今天凌晨的苹果WWDC主题演讲无疑是果粉的狂欢,它很有可能被捧为最棒的WWDC。这次大会苹果有6大更新,包括了iOS 11、新macOS、升级...

3026
来自专栏新智元

【六一特稿】为什么人会随着长大变“聪明”:儿童认知能力的大脑神经网络基础

【新智元导读】大脑的“ 执行功能” 对于个人的发展来说事关重大,宾夕法尼亚大学 Perelman 医学院的研究,发现了人脑中影响这些“执行功能”提升的大脑网络组...

2696
来自专栏AI科技大本营的专栏

专访Uber焦加麟:即便有AI帮助,高精度地图制作仍然少不了人力

作者 | DavidZh 上周在 O'Reilly 和 Intel 人工智能2018北京大会上,Uber 公司资深软件工程师焦加麟做了关于人工智能在高精度地图制...

34011
来自专栏专知

【前沿】人工智能系统的四大趋势与九大挑战,美国Berkeley14位重量级学者(包含机器学习泰斗Jordan)最新观点

【导读】最近,加州大学伯克利分校大学的大牛们针对目前AI的火爆形势,又总结了一篇《A Berkeley View of Systems Challenges f...

4565
来自专栏新智元

Michael I. Jordan联合UC伯克利13位重量级学者:下一代人工智能系统的4大趋势和9大研究课题

【新智元导读】最近,加州大学伯克利分校大学的大牛们针对目前AI的火爆形势,又总结了一篇《A Berkeley View of Systems Challenge...

33610
来自专栏新智元

机器学习奠基人、AAAI 前主席Thomas Dietterich:AI发展四大挑战 (35PPT)

【新智元导读】AAAI 前主席 Thomas Dietterich 10 月 18 日 在自动化学会与新智元携手举办的首届世界人工智能大会 AI WORLD 2...

3024
来自专栏机器之心

学界 | Facebook ICLR 2017研究成果概述,对话研究的创新与优势

选自Facebook 作者:Alexandre Lebrun等 参与:李泽南、微胖 深度学习盛会 ICLR 2017 正在法国的土伦举行,Facebook 在大...

2587
来自专栏华章科技

【深度长文】人工智能过去60年沉浮史,未来60年将彻底改变人类

导读:对于人工智能来说,前60年的人工智能历程,可以用“无穷动”来形容;后60年的人工智能发展,可以用“无穷大”来期许。

682
来自专栏机器人网

欧姆龙开发乒乓球机器人 创造人机最佳默契

乒乓球机器人的开发项目启动后不久欧姆龙工程师就能够依据传感器和控制器的计算,控制机器挥拍。 不过,虽然进行了多次尝试,机器人总是无法将球击回,甚至接不到球。如...

2458

扫描关注云+社区