学界 | 阿里人工智能新研究:在星际争霸中实现多兵种协同作战

选自arXiv

作者:Peng Peng等

机器之心编译

参与:李泽南

在围棋和德州扑克后,RTS 游戏《星际争霸》已经成为人工智能研究者们征服的下一个目标。近日,来自阿里巴巴和伦敦大学学院(UCL)的研究者们发表了一项新研究,他们宣称人工智能控制的多个游戏单位在无监督学习的情况下已经可以发展出类似于人类玩家的战术。这种协同多个人工智能体新方法或许可以为研究者们带来启示,点击阅读原文可下载该论文。

过去十年里,人工智能技术有了突飞猛进的发展。在有监督学习的情况下,机器已经可以展现达到甚至超越人类认知水平的图像识别语音识别能力。而在指定奖励目标后,单体人工智能(即智能体,agent)在 Atari 游戏围棋德州扑克等项目上也打败了人类最强选手。

然而,人类智慧很大一部分在于社会和集体智慧,这也是实现通用人工智能的基础。人工智能的下一大挑战在于让不同智能体实现合作与竞争。对于研究者而言,经典即时战略游戏(RTS)《星际争霸》是进行此类实验的绝佳实验环境。在游戏中,每个玩家都需要控制不同的兵种,在不同的地形条件下与对手展开斗争。《星际争霸》系列游戏因为变化的多样性,对人工智能而言比围棋更加复杂,引起了 DeepMind 等公司和研究机构的兴趣。同时,这种大型多智能体系统的协同学习面临着计算性能的限制——参数空间会随着涉及智能体数量的增多而呈指数性增长,这意味着任何联合学习的方式都是无效的。

在本研究中,来自阿里巴巴和 UCL 的研究者们把多智能体星际争霸战斗任务设定为零和随机游戏。不同智能体通过新提出的双向协调网络(BiCNet)来相互交流,而学习是通过评估-决策方式来完成的。此外,研究者们还提出了共享参数与动态分组的概念,以解决扩展性的问题。

论文:Multiagent Bidirectionally-Coordinated Nets for Learning to Play StarCraft Combat Games

摘要

现实世界的人工智能(AI)应用通常需要多个智能体协同工作。人工智能体之间有效的沟通和协调是迈向通用人工智能不可或缺的一步。在本论文中,我们以 RTS 游戏《星际争霸》为测试场景,设定任务为多个智能体互相协作试图击败敌人。为了保证沟通方式有效且可扩展,我们引入了多智能体双向协调网络(BiCNet),它具有向量化扩展评价器(actor-critic)形式。我们验证了 BiCNet 可以协调不同兵种,在不同的场景和两方智能体数量任意的情况下正常工作。我们的分析证明,在没有手动标记数据进行监督学习的情况下,BiCNet 可以学会多种有经验的人类玩家展示出的协调策略。而且,BiCNet 能够轻松适应异构智能体任务。在实验中,我们在不同的场景下用我们的新方法与不同的基准进行了对比;BiCNet 展现出了最先进的性能,它具有在现实世界大规模应用的潜在价值。

图 1:双向协调网络(BiCNet)示意

图 2:三个机枪兵(人工智能)对阵一个提速狗(小狗的升级,加移动速度和攻击速度)。如图(a)和(b)显示,在训练初期三个单位会发生碰撞,而在充分训练后(图 c、d),各智能体学会了协调一致。

图 3:三个机枪兵(人工智能)对阵一个狂热者(敌人)时学会了 Hit and Run 策略。

图 4:四个龙骑(人工智能)围杀一个雷兽(敌人),被攻击的龙骑学会了躲避。

图 5:三个机枪兵(人工智能)围杀一个小狗(敌人)。

在三个机枪兵对阵一个小狗的任务中(图 5),研究人员调整敌人的数量和小狗的血量与攻击力进行了多次测试。实验发现,BiCNet 只会在小狗血量高于 210,攻击力为 4 的情况下使用围杀策略,而小狗的默认血量为 35,攻击力为 5。

表 1:人工智能在不同血量和攻击力敌人情况下的胜率。训练步数 100k/200k/300k。

图 6:人工智能在十五个机枪兵对战的情况下学会了「集火」策略。

图 7:控制多兵种的人工智能协同完成任务:两架运输机、两个坦克对阵一个雷兽。

图 8:batch_size 和 skip_frames 在两个机枪兵对一个提速狗的任务中对胜率产生的影响。

图 9(左):在十个机枪兵对阵十三个小狗任务中,集火小组人数对于胜率的影响。图 10(右):不同人工智能方法的胜率曲线(10 枪兵 vs.13 小狗任务),BiCNet 的表现最好。

表 2:不同兵种对战的表现对比。其中 M=机枪兵,Z=小狗,W=幽灵战机。

BiCNet 是一种利用双向神经网络的多智能体强化学习框架。通过构建矢量化的评估-决策方式,其中每个维度对应一个智能体。智能体之间的协调通过内部双向通信完成。通过端到端学习,BiCNet 可以成功地学会多种有效协同策略。本研究证明了这一系统可以在即时战略游戏《星际争霸》中协调各兵种,产生多种有效战术。在实验中,研究者们发现指定奖励和学习策略存在很强的相关性。他们计划进一步研究这种关系,探索智能体在网络中是如何进行交流的,以及它们是否会生成一种特定的语言。此外,当双方都使用了深度多智能体模型进行游戏时,研究其中的纳什均衡问题将会非常有趣。

原文链接:https://arxiv.org/abs/1703.10069

本文为机器之心编译,转载请联系本公众号获得授权。

✄------------------------------------------------

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2017-04-02

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

Facebook 开源机器学习库 TorchCraft(附 LeCun 深度学习教学视频)

【新智元导读】Facebook 日前开源了机器学习库 TorchCraft,方便研究人员使用控制器,编写能够玩星际争霸游戏的智能代理。此外,本周五 FAIR 主...

44870
来自专栏大数据文摘

谷歌DeepMind最新突破:让机器像人脑一样保留学习记忆,向类人智能更进一步

22650
来自专栏磐创AI技术团队的专栏

两年,从月入4K到40K,从来不是努力工作,而是不断跳槽

这两年期间,经历了4次跳槽,学习→工作实践→跳槽,是我登上每一节楼梯的方式。当然,跳槽的前提是你新学的知识+工作经验,能让面试官觉得你值得这份工作。

11210
来自专栏机器之心

AI寒冬将至?「人工智能衰退论」再起,却遭LeCun怒斥

16730
来自专栏新智元

【牛津调查:AI 超越人类编年史】柯洁之后,32个AI里程碑全预测

【新智元导读】人类纪元2017年,世界第一柯洁哭了,为自己 0:3 对 AlphaGo 的落败。有人解读说,这预见到了人族衰败的开始,和未来两个族群之间在智力上...

35060
来自专栏AI科技评论

观点 | DOTA 5v5 AI 的亮点不是如何「学」的,而是如何「教」的

AI 科技评论按:我们都已经知道了,OpenAI 的 5v5 DOTA AI 「OpenAI Five」再次完胜人类。美国时间 8 月 5 日星期天下午,Ope...

7230
来自专栏PPV课数据科学社区

足球大数据:统计和分析之间岂止一步之遥

我们当然希望从这些简单的描述性的统计数据背后能够挖掘出更多关于足球比赛本质的信息。虽然这方面已经开展了很多工作,也有了一些进展,但是还只是在萌芽阶段。 ? 相...

1.2K40
来自专栏机器学习人工学weekly

机器学习人工学weekly-2018/2/11

注意下面很多链接需要科学上网,无奈国情如此 1. sentiment analysis的survey文章,前面略显累赘,后面还行 链接:https://arxi...

374150
来自专栏奇点大数据

围棋之后,AI玩FPS游戏也能秀人类一脸!

基于经典第一人人称射击游戏毁灭战士DOOM的AI挑战赛“Visual Doom AI Competition @ CIG 2016”尘埃落定,Facebook团...

42660
来自专栏人工智能快报

可解读足球阵型和防守策略的人工智能来了

迪斯尼研究院(Disney Research)表示其以开发出可以解读足球比赛队形和防守策略的人工智能。 然足球运动员在比赛时的角色是固定的,但在整个赛程甚至是一...

38970

扫码关注云+社区

领取腾讯云代金券