首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

AI再逆天,OpenAI Five在Dota 2中已能击败人类玩家

Esther| 撰文

人工智能(AI)技术不仅能用于给为视频添加慢动作效果,结合家居装饰图智能推荐相关产品,在围棋应用中战胜人类顶尖棋手,甚至在电子竞技游戏Dota 2中能也击败人类玩家。

OpenAI近日发布博客表明,其开发的一个专注于电子竞技游戏的AI项目:Opne AI Five,在6月份已成功击败了5个Dota 2游戏战队,其中还包括一组由Valve公司(Dota 2开发公司)组建的员工战队。

OpenAI是由伊隆·马斯克、雷德·霍夫曼、彼得·泰尔等美国科技领域的名人投资组建的一个人工智能科研公司,其位于美国旧金山,属于非营利性组织。

据了解,上一代OpenAI系统在电子竞技游戏中只能用来简单的1v1比赛。

OpenAI联合创始人兼CEO Greg Brockman向外媒表示:“Dota 2是一个进程复杂的游戏,如果要连续不断长时间进行游戏,就需要处理8万帧的数据。每一步的举动,都会产生更多的操作,所以必须想办法解决如何跨越长时间处理大量数据的难题。”

因此,OpenAI就利用机器学习算法与五个战队进行实战对打。这五个战队分别是:一组OpenAI员工队、一组观看过OpenAI员工赛的观众、一组Valve员工队、一组业余队、一组半职业战队。前几场中机器算法轻而易举打败了前三队,而在对战第四、第五队的前三场比赛中赢了两场。

OpenAI Five在电子竞技比赛中的优势在于,它能够对每位玩家的血量、位置与物品的改变立即做出应对。OpenAI Five的神经网络平均每分钟进行150-170次动作(理论上最多是450次),反应时间仅为人类远不能达到的80毫秒,而且它可选的特殊技能、物品与任务还受到了限制。

实际上以上这些并算不上OpenAI Five最强大的功能,该系统最牛之处在于,它可以模仿专业的游戏玩家来制定自己的策略。

比赛中OpenAI Five不止一次牺牲了自己的"安全道"(地图上去敌军基地阻力最小的道路),以换取对敌军安全道的控制,并且勇于清楚路障、侧面攻击英雄,以此来换取提升自己英雄战斗力,进攻速度甚至超越很多人类Dota 2玩家。

在比赛过程中,OpenAI Five也会不断学习学到新的技巧,例如躲避投射物,甚至还学会使用"阻挡小兵"的技能,(即英雄用身体挡住敌军小兵的路),这在前期给英雄积累了大量的操控经验。

OpenAI还在博客中写道:“获取策略性的场控这种长期收益,常常需要牺牲短期的收益,因为这个游戏不仅需要团队作战,还需要时间。OpenAI Five这一行为让我们更确定这套系统在长时间视野情况下表现也十分优秀。”

据了解,OpenAI还计划于7月28日一场公开演示一场由OpenAI Five和顶尖Dota 2游戏战队的比赛对决。在即将到来的8月下旬的TI邀请赛中,OpenAI Five的期望则是可以打败其中一个专业的战队。

OpenAI Five如何进行训练?

OpenAI Five包含五个单人模式、1024单元的长短期记忆(LSTM)网络(一种能够在任意时长产生"记忆"的递归神经网络),每位英雄都会有这种记忆网络,OpenAI使用了一种用奖励刺激式的深入强化学习模式。这些奖励包括技能,人头,助攻,最后一击,净资产等Dota 2中计分的数据。

有趣的是,这五个LSTM网络之间并不互通。每一位机器人控制的英雄更重视个人奖励还是团队奖励,是由名为"团队精神"的超参数决定的(值为0-1)。

在比赛之前,AI游戏选手每天玩游戏所获得的经验,相当于人类180年的游戏经验。这些比赛有80%是和自己来对战,20%对战和之前的自己进行对战。这些都是通过256个Nvidia Telsa P100显卡和128000核心处理器((过去Dota机器玩家使用的60000核心)处理器)的计算系统来完成的。

AI玩家要处理的数据很多,在比赛中每位玩家可能使出的招数有170000乘以好几倍这么多。综合对比来看,比赛中的全部英雄在每一帧之间存在1万种不同操作的可能,而AI玩家则已考虑出2万种人类Dota玩家会使出的招数。

Rapid是OpenAI的训练框架,其包括两部分: 一组运行Dota 2和LSTM网络的战术机器人,和进行同步梯度下降的优化器节点,机器学习的重要一步是运用大量GPU。战术机器人取得经验后,会通知优化器节点,另一组机器人会对比训练后的LSTM网络或(参考)媒介。

OpenAI在博客中还提到,前几场比赛中,AI操控的英雄“在地图上漫无目的行走”。不过几小时后,这些英雄学会了基础技能,如防守和基础走位。几天后,“他们”又学会了高级技能,如在地图上切换英雄,偷符文(对手在游戏地图上生成的特殊加成)。

Brockman说: "以前大家都觉得这种技术无法应用在当今的深度学习中,但这种网络(LSTM)训练出的一些策略能够应用在专业比赛中,其中有一些很棒的长期游戏策略。更让我觉得震惊的是,现在居然用上了之前被大家吐槽有明显缺陷的已知算法。"

谈及AI的里程碑

OpenAI Five并不是第一款在复杂游戏中打败人类的AI系统,前者还有Alphabet子公司DeepMind开发的深度神经网络AlphaZero,已在国际象棋、将棋、围棋几个领域达到甚至超过人类的水平;卡内基梅隆大学研发的Liberatus AI扑克比赛玩家在与专业玩家对战一个月后,赢了数千美元虚拟货币;还有2017年被谷歌收购,Maluuba开发的机器学习方法,创造出一种在《吃豆小姐》游戏中获得最高分(999990分)的系统,目前还没有任何人能打破这个记录。

Brockman认为:“OpenAI Five的成就不止停留在《Dota 2》这款游戏,这也进一步说明AI能够完成更精细的一些任务。游戏一直是衡量AI研究的基准,这些复杂的策略游戏比赛是我们追寻目标路上的里程碑,因为它们代表了真实世界的样子。”

为此,OpenAI已经在多个AI领域展开业务。去年,OpenAI开发的软件可以为神经网络制作高质量资料组,在模拟情景中随机分配颜色、灯光、纹理与相机设定。今年二月时,OpenAI还推出了Hindsight Experience Replay(HER)--有效帮助机器人从失败中学习的开源算法。

Brockman说: "我们的目标是开发出能够影响真实世界,帮助人类的系统,如照顾老人的机器人等,AI很有可能成为人类的最有用发明。"

(END)

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180626A1TE1J00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券