人类赢了,人工智能输得无力还手

回顾去年8月OpenAI首次进入Dota 2的世界的场景,当时OpenAI在1V1的比赛中击败了人类顶尖选手Dendi。Open AI CTO Greg Brockman 表示将会转战 5 v 5,战胜人类世界级玩家不是“梦”。

这个梦似乎很快就成真了,今年6月底,OpenAI宣布,由五个神经网络组成的团战AI战队OpenAI Five,在电子竞技游戏Dota 2中5 V 5模式中击败了人类的业余玩家。

从那时起,OpenAI Five就一直想要挑战全世界最顶尖的Dota2职业玩家,然而,8月23日,在51分钟的比赛之后,OpenAI经历了一场完败。

据了解,这一次,有很多参赛队伍都想报名与AI比赛,于是OpenAI遇到了它的第一个对手:来自巴西的战队painN。虽然是本届TI8比赛中第一支被淘汰的队伍,但它仍是目前为止全球最为强大的18支队伍之一。

有了之前的AlphaGo围棋的胜利,在这场比赛开始之前,人们纷纷预测OpenAI 能够稳赢。但是竞技比赛实际上并没有这么简单,虽然OpenAI能在最短的时间内做出较快的反应,它在操作反应等方面比较有优势,但在整体策略与合作上,人类还是占据一些优势的。

这场的人机大战阵容如下:

• OpenAI 天辉方:

直升机、巫妖、死亡先知、冰女、潮汐

• paiN 夜魇方:

莱恩、死灵法师、巫医、火枪、斧王

经过51分钟的战斗,最终,paiN 的人类玩家在团灭 OpenAI 。OpenAI Five在今日遭受的当头棒喝,或许,我们可以从它之前的故事里,得到一些启示。

AI与人类之间的较量,一直都是计算机领域有趣的传统,从Deep Blue到AlphaGo再到现在的Dota2。但与围棋和国际象棋等回合制的游戏不同,在AlphaGo与人类对战的时候,人工智能总会有一定的时间进行思考。但是Dota2需要的是大量的事实决策和队友之间的默契配合。

过去的几年,游戏研究为机器学习领域带来了许多重大突破。 在2015 年,Google的 DeepMind 在Nature上发表了一项研究:他们开发出了深度强化学习(具体为 Deep Q Network)来训练 AI 玩家,在 Atari 2600 的一系列游戏中,表现接近甚至超过了人类的水平。到了第二年, AlphaGo 横空出世,基于蒙特卡洛树搜索和强化学习,它在和韩国围棋大师李世乭的较量中以 4:1 胜出;又过一年,AlphaGo 进化为 AlphaZero,不依靠人类知识,紧靠自我博弈,在国际象棋、日本将棋和围棋这三种棋类游戏中实现超过人类的水准。

将AI运用在游戏当中,一直是机器学习的热门课题。游戏中提供了很多人机交互的机会,而且游戏充满了复杂性和趣味性。就拿Dota2来说,它有 115 个可用英雄,每个英雄 1-10 个技能不等,上百件物品,20 几个塔、数十个 NPC,5v5 组成天辉和夜魇两派,在三条线路上互相博弈,从中衍生出包括对线、打野、Gank、团战、插眼等不同的战术和安排。

OpenAI正是采用了一种强化学习的机器学习,将AI投入到虚拟环境中,通过自学反复试验来达成目标。Brockman 称:“刚始时机器人完全随机地在地图上闲逛。几个小时以后,开始学习基本的技能。对于人类来说,需要 1.2-2 万小时的练习才能成为专业选手,这意味着 OpenAI 的机器人每天的练习量都相当于 100 个人类的练习时间。”

但事实上OpenAI有很多的限制,在 115 个不同风格的角色中,它们只能玩其中 5 个,仍然没有充分体验到 DOTA 2 的复杂性。OpenAI在训练中所有参数都是随机的,只能靠不断训练,摸索使用这些技能的方法。但是它并没有真正理解这些技能,有些技能很直接,例如冰女的大招放出来就一定会有伤害;有些则相对复杂,比如炼金术士,它的二技能「不稳定化合物」是一把双刃剑:5 秒内放出去可以晕眩敌方英雄造出伤害,超过 5.5 秒就会伤害自己。

对 AI 而言这就是一个头疼的问题:我到底是放还是不放?于是在很长时间的自我对抗中,AI 始终认为炼金术士的二技能都没什么用。这和人是完全不一样的,没有人会因为炼金术士的二技能伤血而不使用它。

这样看来,OpenAI 不是不想放开限制,而是 AI 需要学习的东西太多了,时间却很有限。从这个角度来看,OpenAI的Dota之旅,才刚刚开始。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180905A003FA00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券