简明AlphaStar、星际2和人类的二三事

文章来源：企鹅号 - 钙帮帮主

下文整理自

1-10落败，5分钟崩盘！星际2职业高手史上首次被AI击溃，AlphaStar一战成名

。

链接中文字冗长，通读后判断为拼自几篇或中或英的文章，

故结构不清晰且内容有重复。

虽是外行，仅出于个人喜好，洗稿后发于此。

旨在用简明文字叙述出阿尔法星和人类打星际2的事，

给有兴趣但无时间看长文和过多名词的人。

专业名词和科学解释已省略，资料未查证，可能有硬伤，请指正。

欢迎讨论。

谷歌DeepMind开发的AI程序AlphaStar，在《星际争霸2》中10-1战胜职业高手TLO和MaNa。

2003年，人类就开始尝试用AI解决即时战略（RTS）游戏问题。当时AI还未解决围棋问题，而RTS比围棋还要复杂。比如，围棋动作空间只有361种，而星际2大约是1026。

为了在游戏中获胜，必须在宏观战略和微观操作之间取得平衡。平衡短期和长期目标并适应意外情况的需要，对脆弱和缺乏灵活性的系统构成巨大挑战。解决这个问题，需要在几个AI研究挑战中取得突破，包括:博弈论、不完美信息、长期规划、实时、更大的操作空间。为此，DeepMind与暴雪2017年合作发布了一套名为PySC2的开源工具，在此基础上，结合工程和算法突破，才有了现在的AlphaStar。

实际上，此次人机大战主要内容并不是直播，而是回顾结果。相关信息简单交代如下：

第一场比赛，2018年12月12日，AlphaStar对TLO，5-0。

比赛中阿尔法星的APM中值是277，TLO为390。TLO说第四局对方打法完全改变，如同换了AI。其实，他每次对阵的AI 都不同。此役用的神族，而TLO主练虫族。

第二场比赛，2018年12月19日，AlphaStar又训练一周，对战MaNa，5-0。

第四局阿尔法星的APM几乎失控，飙到1000多。MaNa感叹AI牛逼的微操。

现场直播，2019年1月25日，AlphaStar对战MaNa，0-1，人类终于扳回一局。

MaNa开局打法疑似为上月和AlphaStar学的战术。此场比赛的阿尔法星为第二版——视野切换版。（智能体在游戏时虽然和人类能看到的小地图差不多，但人类需要明确合理的分配注意力，来决定到底要看哪片区域。这次的视野切换版和人类观察地图的方式相同。）

AlphaStar靠深度神经网络学会打星际。网络从原始游戏界面接收数据，素材来自暴雪发布的匿名人类玩家的游戏实况，学习游戏的宏观和微观策略，然后输出一系列指令，组成游戏中的某一个动作。为训练AlphaStar，DeepMind用谷歌三代TPU搭建了一个高度可扩展的分布式训练环境，支持许多智能体一起从几千个星际2的并行实例中学习。每个智能体用了16个TPU。智能体联赛进行了14天，相当于让每一个智能体都经历了连打200年游戏的训练时间。此过程像人类选手——从星际争霸诞生起，不断学到新策略，摒弃旧策略。除此之外，要鼓励联赛中智能体的多样性，所以每个智能体都有不同的学习目标。这是“多智能体学习算法”。最终的AlphaStar智能体，是联赛中所有智能体的策略最有效的融合，只要普通台式机，普通GPU就能跑。

AlphaStar的技术未来可用于气候建模、语言建模、视觉表示等需要长序列的应用场景。

DeepMind全部11局对决视频：

https://deepmind.com/research/alphastar-resources/

之前十局比赛的纪录片，腾讯可搜。

未来，如果不希望职业被机器人替代，

要不做个“教”人工智能学习的数据贴标人，

要不就做个产出中有无可替代情感成分的人吧。

不知道现在开始玩星际会不会年纪太大。。。

吃鸡容易，速隐刀难。

感谢看到这里，

头图来自电影《机器管家》。

发表于: 2019-01-302019-01-30 00:05:29
原文链接：https://kuaibao.qq.com/s/20190130G00WEY00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

简明AlphaStar、星际2和人类的二三事

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐