遇劣势变蠢、发语音嘲讽人类……OpenAI这些奇葩DOTA操作跟谁学的？

量子位

发布于 2018-09-29 10:24:39

7870

发布于 2018-09-29 10:24:39

文章被收录于专栏：量子位

夏乙中奇假装发自温哥华量子位新浪科技联合报道

刚刚，中国网友全村的希望LGD惜败温哥华；

两天前，AI全村的希望OpenAI Five更是在二连败之后，提前为TI之旅画上了句号。

月初轻松击败7000分半职业五人组，17天过后却输给职业战队，还被越洋围观的群众骂成小学生。这个AI DOTA2选手的经历，可以说大起大落。

两天的比赛，也给中国网友们留下了众多疑问：

为什么大哥和酱油打法差不多？为什么劣势下出现那么多奇葩操作？为什么无脑冲塔、随意插眼、空放大招？那些坏毛病是跟人类对手学的吗？ AI竟然学会发轮盘语音嘲讽人类了？崩盘了为何还不GG？

为了弄清楚这些问题，量子位和新浪科技查阅了现有的各种资料，还联系到直接深度参与了这个项目的OpenAI研究员David Farhi，来答疑解惑。

接下来，更全面深入地了解一下这个AI吧。

疯狂推进模式已成过去

8月6日那一场人机大战中，AI抱团推塔杀人之凶猛，给围观群众都留下了深刻印象。

但是，这种疯狂推进的打法在前两天的比赛中没有出现，而且，可能，再也回不来了。

究其根本原因，应该是游戏规则的变化。

OpenAI在赛后总结中提到，他们在TI8上玩的版本，更接近选手们眼中真正的DOTA：打破了每个英雄一只无敌信使的配置，改成了人类比赛中通用的每队一只普通信使。

我们在之前的报道中也提到过，去掉这个限制是在上周六，AI随后训练了4天就去比赛了。

△ OpenAI Five的进化历程

当然，4天对AI来说并不短。按照OpenAI之前公布的配置，AI训练用了256块P100 GPU和12.8万个CPU核心，每天的训练量相当于打了180年游戏。4天，就是人间720年。

可是信使裁员80%还丧失了特异功能，确实让AI有点不适应。

OpenAI Five之前的疯狂推进打法，会靠着信使源源不断运来的补给，维持割草一般的推塔节奏。

没有了5只无敌信使，这样的打法就行不通了。在每方一只信使的比赛里，如果还要运输之前那么多补给，是要排队的。于是，英雄被打到残血就只能回家泡温泉养伤。

Farhi透露，现在AI在训练环境中自我对战，平均每局要打上将近50分钟，比以前慢了不少。

前两天的比赛也表明，想要和人类职业选手抗衡，AI需要适应这个设置，培养新的战术和节奏。

不跟人类学习

△ rOtk

这两天，AI的操作收获了各路网友的吐槽： “是不是昨天跟w33学的？” “是不是刚才被rOtk教坏了？” 甚至有网友想要故意带坏AI。

不好意思，要让大家失望了。

Farhi解释说，很多人在这一点上都误会了，OpenAI Five根本不跟人类学习。

训练AI、让它去和人类战斗的过程，实际上是这样的：

先在庞大的计算机集群上，让AI自己跟自己反复对战，告诉它赢得比赛、做出某些好操作就能获得奖励，让它从结果中学习。要和人类对战的时候，OpenAI就从自我对局环境中导出最新版的AI来用。

但是，他们不会把与人类对战的数据输入到AI的学习系统中去。

所以说，我们在比赛中看到的那些进步，和那些诡异操作，都是AI在自我对战过程中摸索出来的，想要靠示范带坏AI，目前还做不到。

这种单纯的训练环境，也带来一个副作用，那就是网友们吐槽的“AI被打出bug来了”。

被打蠢只因训练太简单

“打出bug”一般都出现在后期劣势阶段。其实，AI这两天在战斗的前20分钟里，打得都算不错。

究其根本原因，在于AI在训练中完全没见过这么强大的对手：训练环境里陪AI玩游戏的，都是它自己的复制版或旧版。

能入围TI的那种高手，AI在训练时从来没遇到过，这么大的劣势，AI也几乎没经历过。

为了让AI接受更艰苦的训练，OpenAI研究员们其实也试着提升难度，比如说，他们会强行为其中一方创造优势，让某些英雄开局就是4级。这种设置，类似于围棋的让子。

但是现在看来，“让子”所带来的难度提升，还是不太够。

说不定，等OpenAI把人类的经验也引入到AI训练中，会再带来一波提升。不过，这个工程量浩大优先级不高的想法，还没有提上日程。

自暴自弃？

那些愚蠢的操作，是不是真的意味着一陷入空前危机，AI就出bug了？

倒也不是。

想要完全理解AI的动机，搞清楚它在想什么，现在还很难，不过，熟悉OpenAI Five的研究员们做出了不少猜测。

他们认为，这些奇葩操作并不是bug，反而可能正是AI在想办法翻盘。

Farhi谈到了这样一种推测，AI在训练时遇到的对手除了水平不够高之外，还有一个特点：几乎不失误。（emmm…我们看到的奇葩操作，对AI来说都不算失误）

人类在劣势中坚持补刀抢人头，大多数情况下根本不能缩小和对手的差距，但是，如果对手失误，翻盘的机会就来了。可是对于AI来说，它自己几乎不会失误，它练习时的对手也一样。于是，在AI的世界里就没有“你失误我翻盘”的概念。

因此，AI为了翻盘，会做出种种超越常规的操作，看在人类眼里是自暴自弃，其实人家AI觉得，这样起码不是必败无疑啊！

当然，也说不定是在AI拖延时间：多扛一会儿再输，奖励会少被扣掉一点嘛。

1号位5号位？AI通通不分

收获吐槽能量最多的，除了“打出bug”可能就要数AI战队的大锅饭政策了。

人类战队中，总有1-5号位的角色区分，大哥负责带着队伍走向胜利，辅助负责到处插眼。上图显示的是AI对战中国TI冠军联队时双方财产状况，从中也能看出，人类战队里不同的角色，贫富差距巨大。

而AI在经济上就相对平均得多，打法上也看不出什么分工。

原因很简单，AI队伍中的5个智能体，真的是5个一模一样的LSTM神经网络，没有角色的区分。它们甚至会尽量让所有英雄保持差不多的升级节奏。

但是，AI也没有对所有英雄一视同仁。在让AI选阵容的时候，己方和敌方已经选了什么英雄会影响到它的选择，AI也觉得队伍里的英雄在技能、属性上有所差异更好。

AI会不会自己在训练中逐渐发现有的英雄注定是酱油呢？这只能等OpenAI慢慢公布了。

人类的玩法，AI并不买账

虽说OpenAI没有强制为智能体划分核心和酱油英雄，但其实在OpenAI Five里，有不少硬编码的部分。

比如买装备。什么时候该买什么装备，人类是给AI设定了规则的，买眼（守卫）这件事，就是人类强制AI完成的。

AI塔下插眼、自家野区乱插眼、甚至在家里插眼，可能就是对这个硬编码的抗争。

Farhi讲过这样一种猜测：工程师强制AI买眼，可是AI想用那个物品栏买别的东西……于是，它们就只好把眼随机扔一个地方。

除了强制AI买眼，工程师们还对该升级什么技能、什么时候买活、信使怎么运输物品等等都做了硬编码。这些方面，都是神经网络自学不太成功的地方。

比如说买活这件事。OpenAI团队曾经放权给神经网络，让它自己决定要不要买活。结果，AI完全放弃了这个操作，它认为什么时候买活都不划算。于是，人类越俎代庖地设定了规则。

不过这些规则，也不见得会持续存在下去。OpenAI用来打DOTA的模型一直在迭代，比如现在的OpenAI Five，就去掉了去年1v1版本专门针对卡兵设置的奖励。

Farhi说，他们又想出了一种方法，打算继续尝试让AI自己学买活。

翻盘无望为何不GG？

硬编码的不止这些游戏操作，还有网友们喜闻乐见的“AI用聊天轮盘发了个消息”。

又让大家失望了，发消息这件事，也不是AI自己学的。

那……到翻盘无望塔下乱逛的时候，发个GG也是可以的吧？的确可以，不过，OpenAI在TI8上没有给AI这个权利。

原因很简单，投降的依据当然是胜率，可是这两天出场的AI有个bug，自信心有点爆棚，胜率预测实在是不太靠谱。

这个bug，OpenAI正在慢慢修复中。

传送门

两场比赛过去，我们意犹未尽，十分期待OpenAI卷土重来，也很想亲手和它打一局。

好消息是，卷土重来可能不用等明年上海见。Farhi说，他们再努力几周或者几个月，就打算找职业战队再打一场。

坏消息是，把OpenAI Five放到Steam创意工坊上造福大众这件事，还没有提上日程，还要再提升提升。

最后，两篇文章、两段视频，回顾比赛精彩瞬间：

Day 1 比赛回顾和专访分析

精彩瞬间集锦：

视频内容

Day 2 比赛回顾

精彩瞬间集锦：

视频内容

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2018-08-26，如有侵权请联系 cloudcommunity@tencent.com 删除

其他

本文分享自量子位微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

其他

登录后参与评论

0 条评论

热度