高层速读
关键信息:OpenAI今日宣布,一个由5个神经网络组成的OpenAI Five,已经开始击败Dota 2的业余玩家队伍。利用强化学习,模型可以在没有人类数据的情况下学到可识别的策略,在每秒30帧的游戏中实时做出决定。
关键数据:OpenAI Five在256个GPU和128,000个CPU内核上进行训练,每天需要玩180年之久的Dota 2游戏来进行自我对战学习。
关键意义:OpenAI Five的下一步目标是击败专业玩家队伍。
人工智能与人类的较量是计算机科学的一大传统,幸运的是,我们还处在一个不是战争较量的游戏阶段。花费大量的时间和精力来研究AI如何在游戏中打败人类,似乎是一件没有实际用途的怪事,但这一切都是AlphaGo和深蓝把研究方向带到这里的延续:建造能够在看似简单的游戏中击败人类的机器。
OpenAI一直在Dota 2游戏中尝试人工智能与人类玩家对弈的可能性。
OpenAI今日宣布,一个由5个神经网络组成的OpenAI Five,已经开始击败Dota 2的业余玩家队伍。在2017年,其人工智能在Dota2 1v1 比赛中战胜了人类职业玩家 Dendi。
埃隆•马斯克与他人共同创立的这家创业公司旨在提高人们对人工智能技术的认识,以及科技行业如何能够促进未来安全,并让每个人都从中受益。
与国际象棋或围棋这样的回合制游戏不同,Dota 2是一个需要大量实时决策的游戏,尽管AlphaGo有时要花几分钟来决定如何应对一个精心设计的步骤,但OpenAI Five没有那么多奢侈的时间,因为它的对手在此期间也会采取行动。
OpenAI说,这些游戏的运行速度为每秒30帧,平均为45分钟,最终产生了大约8万帧图像,OpenAI Five在256个GPU和128,000个CPU内核上进行训练,与之前在1v1的比赛中所做的努力相比,这是一个由五个不同的神经网络组成的团队,共同作用于最优秀的人类对手。可见马斯克玩起游戏来也不输任何人, 玩得了火箭,开通的能了隧道,还能让游戏AI击败人类。
OpenAI对OpenAI Five给出了一些有趣的数据,特别是它如何通过每天玩180年之久的Dota 2游戏来进行自我对战学习。OpenAI Five为每个英雄使用单独的一个LSTM,模型可以在没有人类数据的情况下学到可识别的策略。这表明强化学习即使没有根本性的进步,也能够产生大规模但也可接受的长期规划。
OpenAI Five的目标是在8月的Dota 2电子竞技世界锦标赛上与人类玩家进行竞争,在那里将进行全面的测试。此外,OpenAI将在下个月举办一场Twitter直播的Dota 2锦标赛,以展示它与顶级玩家竞争时的场景。
分享这篇文章
与同仁共同探讨AI行业动向
往期文章
「AI商业报道」现已入驻
知乎号 | 头条号 | 百家号 | 网易号 | ZAKER
领取专属 10元无门槛券
私享最新 技术干货