首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

简明AlphaStar、星际2和人类的二三事

下文整理自

1-10落败,5分钟崩盘!星际2职业高手史上首次被AI击溃,AlphaStar一战成名

链接中文字冗长,通读后判断为拼自几篇或中或英的文章,

故结构不清晰且内容有重复。

虽是外行,仅出于个人喜好,洗稿后发于此。

旨在用简明文字叙述出阿尔法星和人类打星际2的事,

给有兴趣但无时间看长文和过多名词的人。

专业名词和科学解释已省略,资料未查证,可能有硬伤,请指正。

欢迎讨论。

谷歌DeepMind开发的AI程序AlphaStar,在《星际争霸2》中10-1战胜职业高手TLO和MaNa。

2003年,人类就开始尝试用AI解决即时战略(RTS)游戏问题。当时AI还未解决围棋问题,而RTS比围棋还要复杂。比如,围棋动作空间只有361种,而星际2大约是1026。

为了在游戏中获胜,必须在宏观战略和微观操作之间取得平衡。平衡短期和长期目标并适应意外情况的需要,对脆弱和缺乏灵活性的系统构成巨大挑战。解决这个问题,需要在几个AI研究挑战中取得突破,包括:博弈论、不完美信息、长期规划、实时、更大的操作空间。为此,DeepMind与暴雪2017年合作发布了一套名为PySC2的开源工具,在此基础上,结合工程和算法突破,才有了现在的AlphaStar。

实际上,此次人机大战主要内容并不是直播,而是回顾结果。相关信息简单交代如下:

第一场比赛,2018年12月12日,AlphaStar对TLO,5-0。

比赛中阿尔法星的APM中值是277,TLO为390。TLO说第四局对方打法完全改变,如同换了AI。其实,他每次对阵的AI 都不同。此役用的神族,而TLO主练虫族。

第二场比赛,2018年12月19日,AlphaStar又训练一周,对战MaNa,5-0。

第四局阿尔法星的APM几乎失控,飙到1000多。MaNa感叹AI牛逼的微操。

现场直播,2019年1月25日,AlphaStar对战MaNa,0-1,人类终于扳回一局。

MaNa开局打法疑似为上月和AlphaStar学的战术。此场比赛的阿尔法星为第二版——视野切换版。(智能体在游戏时虽然和人类能看到的小地图差不多,但人类需要明确合理的分配注意力,来决定到底要看哪片区域。这次的视野切换版和人类观察地图的方式相同。)

AlphaStar靠深度神经网络学会打星际。网络从原始游戏界面接收数据,素材来自暴雪发布的匿名人类玩家的游戏实况,学习游戏的宏观和微观策略,然后输出一系列指令,组成游戏中的某一个动作。为训练AlphaStar,DeepMind用谷歌三代TPU搭建了一个高度可扩展的分布式训练环境,支持许多智能体一起从几千个星际2的并行实例中学习。每个智能体用了16个TPU。智能体联赛进行了14天,相当于让每一个智能体都经历了连打200年游戏的训练时间。此过程像人类选手——从星际争霸诞生起,不断学到新策略,摒弃旧策略。除此之外,要鼓励联赛中智能体的多样性,所以每个智能体都有不同的学习目标。这是“多智能体学习算法”。最终的AlphaStar智能体,是联赛中所有智能体的策略最有效的融合,只要普通台式机,普通GPU就能跑。

AlphaStar的技术未来可用于气候建模、语言建模、视觉表示等需要长序列的应用场景。

DeepMind全部11局对决视频:

https://deepmind.com/research/alphastar-resources/

之前十局比赛的纪录片,腾讯可搜。

未来,如果不希望职业被机器人替代,

要不做个“教”人工智能学习的数据贴标人,

要不就做个产出中有无可替代情感成分的人吧。

不知道现在开始玩星际会不会年纪太大。。。

吃鸡容易,速隐刀难。

感谢看到这里,

头图来自电影《机器管家》。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190130G00WEY00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券