Dota2团战AI击败人类最全解析:能团又能gank,AI一日人间180年

夏乙 问耕 发自 凹非寺 量子位 出品 | 公众号 QbitAI

GG

随着人类喊出这两个字母,一切都结束了。

OpenAI研发的人工智能战队,首次在5v5的Dota2开黑团战对战中,击败人类玩家战队。

这真是一个里程碑式的事件。

这个能打团战的AI名叫OpenAI Five,是OpenAI最新的研发成果。

OpenAI Five完全通过自我对战来学习打Dota2,每天的对战量据说相当于人类的180年。而且惊人的硬件消耗量,应该也是创下纪录:256块GPU和12.8万个CPU……

人类就这么又一次全面陷落了么?

显然,Dota2团战AI击败人类这件事,一点也不简单。这次我们分三个部分,带来一份从实力到技术的最全解析。

  • 第一部分:OpenAI Five有多强?
  • 第二部分:现在去TI打专业战队有戏吗?
  • 第三部分:AI一日,人间180年

开始。

Dota2团战AI有多强?

可能真的出乎你的预料。一起看下。

团战不虚

团战,需要综合使用技能、装备和走位,最大化对敌方英雄的伤害,同时避免损失本方英雄。

来看实战。

这是一波AI守高地的战斗。当时人类团队的装备和等级都要更高。而且五位人类玩家全部集结在一路,准备强行拆塔。

双方甫一接触时,AI只有一位23级的英雄应战,人类团队24级的巫妖(Lich)首先发难,使出“阿托斯之棍”,将AI一方23级的巫妖定在原地。

随后,AI巫妖对自己释放“EUL的神圣法杖”,这个技能可以让自己被卷入龙卷风中,并且暂时处于无敌状态。通过这一招,AI的用意是拖住人类团队,并且给自己的队友赶来赢得时间。

随后,AI巫妖继续将人类团队拖上高地,诱使人类玩家信心爆棚。而其他AI英雄则开始从后方包抄人类团队。

绕后的AI冰女(Crystal Maiden),对人类团队拖后的火枪(Sniper)率先使出“闪烁匕首”,紧接着用出“冰封禁制”把狙击手冻住,接着再是一记“黑皇杖”,最后施法“极寒领域”召唤冰晶展开轰炸。

AI冰女释放的“极寒领域”,和AI毒龙(Viper)释放的“幽冥剧毒”,迫使人类团队只能散开。于是,AI火枪可以从安全距离上展开远程攻击。

在高伤害和群控的攻击下,人类火枪和冰女想要撤退,却只能以被击杀而告终。随后,在没有视野的情况下,AI冰女使用“冰霜新星”,击杀了人类巫妖。

随后,AI冰女还不肯罢休,闪现追击人类仅剩的最后一个英雄死灵法师(Necrophos),然而在冻住对方后,AI冰女已经无技能可用,只得放弃追击。

最终这波团战,AI打了人类玩家一个2换4,而且守家成功。

诡计多端

遇到打不过的时候,人类英雄躲进树林想要避一避,没用的。AI英雄即便失去了视野,也会一路追进森林寻找,然后击杀。

眼见AI残血,人类玩家想要追击,千万小心,因为其他AI英雄正赶来捉人。人类玩家不单收不了人头,而且还要送命。

特别强调一点,AI还学会了“擒贼先擒王”,不惜使用多重大招,只为确保能击杀等级最高的那个敌方英雄。

而且AI英雄还会自我牺牲,把人类玩家引诱出高地,确保团队其他成员能推塔成功。

总之,OpenAI Five又能团,又能gank,足智多谋,诡计多端。

下面这个视频,更全面的讲述了AI掌握的七大技能。

视频内容

实际上,按照官方的说法,目前OpenAI Five在选择攻击目标这一项上,达到了专业水平,但补兵能力还有不足。

去TI打专业选手有戏吗?

回答这个问题之前,先得明确一个事实:目前OpenAI Five战胜的对手,并不是人类顶尖高手。

双方的对战,大约两个月前已经开始。目前OpenAI Five已经先后与五支人类团队有过交手:

1、最强OpenAI员工队:MMR匹配分 2500 2、最强观众队:MMR 4000-6000 3、Valve员工队:MMR 2500-4000 4、业余队:MMR 4200,有团队训练 5、半职业队:MMR 5500,有团队训练

4月23日,OpenAI Five首次击败了脚本基线版本。5月15日,与第1队打成1:1。6月6日,与第1、2、3队的对战中,均取得胜利。

可以看到OpenAI Five一直在进步。这个AI与第4、第5队进行了非正式的比赛,虽然没能取胜,但是在前三场中赢下两场。

与人类玩家相比,OpenAI Five平均每分钟可进行150-170次操作,平均反应时间为80毫秒,明显比人类更快。

不过这些不是决定5v5胜利与否的关键因素。

OpenAI还总结了OpenAI Five的几个特点:

  • 屡次牺牲自己的优势路(夜魇军团的上路,天辉军团的下路),以压制敌人的优势路,迫使战斗转移到对手更难防御的一边。
  • 比赛初期到中期的转换比对手更快。方法:(1) 多次成功gank人类玩家 (2) 赶在对手集结之前,组队推塔。
  • 也有一些非主流打法。例如前期把钱和经验让给辅助英雄。OpenAI Five的优先级使其伤害值能更快攀升,进而赢得团战等。

这么厉害的队伍,当然也不是陪业余人类玩玩就算了的。

OpenAI说,他们打算8月份去DotA 2顶级赛事TI上,找一支顶级专业队伍PK一下,7月底还要搞一场对战专业团队的直播

当然,全部英雄OpenAI Five暂时还搞不定,和专业选手对局,双方也只能在有限的英雄里选。

到时候这个“有限的英雄”究竟有多少,现在还不知道,不过,这也说明了一个很重要的问题:现在OpenAI Five的能力,还不足以玩人类版的DotA 2。

那么,AI现在玩的DotA 2和人类版相比做了哪些简化呢?

OpenAI在博客最后列出了AI版DotA的限制

  • 双方英雄阵容是固定的:死灵法师、火枪、毒龙、冰女、巫妖(他们的学名叫瘟疫法师、矮人狙击手、冥界亚龙、水晶室女、巫妖);
  • 不插眼;
  • 没有肉山;
  • 没有隐身装备;
  • 没有召唤单位、没有幻像;
  • 少了一些物品:圣剑、瓶子、补刀斧、飞鞋、经验书、凝魂之泪;
  • 有5个无敌信使(鸡),但是不能用来侦查或者防御;
  • 没有扫描。

这意味着什么?

有了这些限制,AI打的DotA就比人类版有了很多简化,也说明了这个AI还有些没掌握的技能。

比如英雄的选择和阵容的搭配。双方只有固定的5个英雄,就不需要掌握英雄之间的配合和克制情况,游戏也少了很多变化。

AI现在也还不懂得对视野的控制。AI玩的版本没有隐身装备、没有插眼的操作、没有扫描,于是双方只能在游戏原本设定的视野中对战,不能靠自己的能力改变视野,也不需要侦查。

游戏中,如果不考虑信使,AI控制的单位也只能是5个,这也就是为什么不能出现召唤单位和幻象。

另外,没有游戏野区最强大的怪物肉山,也就没有了打肉山能得到的复活盾。在职业比赛中,复活盾带来的原地满状态复活能力,可以说是个翻盘利器。

让人类职业选手来打一个这样的DotA,并没有什么优势;如果让现在的OpenAI Five去打人类版DotA,这支没学过选英雄、做视野、偷鸡等等技能,还少学了很多装备的队伍,也会不知所措。

不过,OpenAI也说了,这些限制大都是因为游戏里有些部分还没整合进来,像插眼、肉山这种职业比赛中的关键元素,他们会尽快加上。

AI一日,人间180年

虽然还有种种限制,但不可否认,AI的进步还是快得吓人。

OpenAI的解释是,这个AI通过自我对战来提升,从随机参数开始,不用人类玩家的方法引导,也不人类玩家方法中搜索。

他们还特别提到,在训练1v1模型的时候,是专门针对卡兵这个操作设置了奖励的。但是在OpenAI Five模型中并没有这个奖励,但这个新模型还是自己学会了卡兵。

AI每天的训练量,相当于打180年游戏。可谓真·勤学苦练,人类选手一辈子的训练量也不及它半天。

这些每天训练180年的选手,究竟是些什么怪物?

他们的长相是这样的:

不要被结构图吓到,简单来说,每个选手,也就是每个智能体(agent),都是一个单层LSTM(长短时记忆网络),有1024个单元,能够通过Valve的Bot API观察当前游戏状态,控制自己的英雄接下来选择哪一种操作、释放到XY坐标系中的哪一点。

智能体能够观察到的信息和人类差不多,包括自身、队友和敌人的状况,比如位置、血量、攻击力、护甲、携带物品、能力等等。可能会有一点点区别的,就是智能体对过去12帧的血量、攻击和被攻击情况等历史信息大概记得比人类清楚。

这些信息,对于智能体来说是一个包含20000数值的列表,而它判断之后发出的行动指令,是8个值的列表。

选手们的训练,使用的是扩展版的近端策略优化(PPO)方法,这也是OpenAI现在默认的强化学习训练方法。这些智能体的目标是最大化未来奖励的指数衰减和。

AI选手们在训练中饭量惊人,承载它们需要256块P100 GPU和12.8万个CPU核心。

上面的5v5版本与1v1版本对比,有一个令人欣慰的结果:OpenAI Five需要的CPU和GPU计算力,与去年击败Dendi的1v1版相比,并没有翻到5倍。

5个智能体训练出来,它们之间又是怎样配合的呢?总不能像我们人类开黑一样互相喊话吧?

答案是,他们之间没有那种人类可以理解的沟通渠道,而是由一个“团队精神”超参数来统一控制。这个超参数的范围在0到1之间,决定了选手对与自身奖励函数和队友平均奖励函数的关注程度分配。

留给AI的时间还很多

OpenAI说,他们打算在7月28日和顶级选手对战一番,留给他们的时间,还有整整1个月。8月,他们还要和顶级人类专业选手在TI上较量,如果这一场较量在AI结束时的话,留给AI的时间还有两个月。

按照“人间一天,AI界180年的”算法,加上肉山、插眼等关键元素之后,只要能给AI留半个月时间和自己对战,在它的世界里就可以说修炼了“数千年”。

这场对战,还开设了直播,等着和人类观众相见。

传送门

7月28日大战的直播: https://www.twitch.tv/openai

OpenAI博客详解(包含各种场景下AI观察到的情形和可采取行动的交互图解): https://blog.openai.com/openai-five/

LSTM架构大图: https://d4mucfpksywv.cloudfront.net/research-covers/openai-five/network-architecture.pdf

PPO: https://arxiv.org/abs/1707.06347

原文发布于微信公众号 - 量子位(QbitAI)

原文发表时间:2018-06-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Java学习网

程序员推荐简单有效的科学健脑方法

  勤练脑力可使记忆力增强,勤做有氧运动可使大脑灰质增加,勤于思考可使理智与情感有机互补。   这些措施看上去很美,但美中不足的是,它们对大脑的训练都不够彻底,...

3345
来自专栏镁客网

研究团队打破了高温、电磁场等技术限制,在空气中创造出等离子环 | 黑科技

1760
来自专栏华章科技

解密幸福婚姻:心理学家+40年研究+3000对情侣数据

心理学家高特曼夫妇给出了肯定的答案。通过40年的情侣和婚姻关系研究,他们收集实验数据并用数学的方法建立模型,预测哪些夫妇不能白头偕老。

1253
来自专栏CSDN技术头条

来自大数据的反思:需要你读懂的10个小故事

自2011年以来,大数据旋风以“迅雷不及掩耳之势”席卷中国。毋庸置疑,大数据已然成为继云计算、物联网之后新一轮的技术变革热潮,不仅是信息领域,经济、政治、社会等...

24910
来自专栏企鹅号快讯

程序员必读的十三本经典书籍

程序员必读的十三本经典书籍 私人书单,仅供参考! 01 《代码大全》 史蒂夫·迈克康奈尔 “优秀的编程实践的百科全书,《代码大全》注重个人技术,其中所有东西加起...

2135
来自专栏量子位

超级碗另一面:大逆转背后,你没看到的人工智能大PK

量子位 | 舒石 若朴 假装发自 休斯顿 ? NRG球场的气温有点低,但身在现场只能感受到火热。 常规时间结束,亚特兰大猎鹰打了三节好球,新英格兰爱国者打了一节...

1887
来自专栏CSDN技术头条

来自大数据的反思:需要你读懂的10个小故事

自2011年以来,大数据旋风以“迅雷不及掩耳之势”席卷中国。毋庸置疑,大数据已然成为继云计算、物联网之后新一轮的技术变革热潮,不仅是信息领域,经济、政治、社会等...

2199
来自专栏大数据文摘

解密幸福婚姻:心理学家+40年研究+3000对情侣数据

1899
来自专栏机器人网

2014年最炫的十大科学成就

预测哪个科学发现能改变未来世界,说实话,是个愚蠢的游戏。谁知道未来会怎样?然而,每年都有那么一大串新发现,比如最快最便宜的基因组编辑工具的到来,让我们激动得不能...

3856
来自专栏pythonlove

马哥教育学习

很有幸能够参加到马帮,因为这天还要工作,所以就没有到教室去,只是当天晚上看了开课的视频。马老师(我习惯于这么叫他,因为他的确是我的大学老师)风采依旧,而且还是那...

1435

扫码关注云+社区

领取腾讯云代金券