前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >腾讯AI制霸王者荣耀,世界杯5V5 「绝悟」绝杀职业玩家,1天训练强度超人类440年

腾讯AI制霸王者荣耀,世界杯5V5 「绝悟」绝杀职业玩家,1天训练强度超人类440年

作者头像
代码医生工作室
发布2019-08-06 10:25:44
6980
发布2019-08-06 10:25:44
举报
文章被收录于专栏:相约机器人相约机器人


新智元报道

来源:腾讯AI实验室

【新智元导读】腾讯AI Lab研发的智能体「绝悟」在王者荣耀世界冠军杯,与职业选手5v5的对决中获胜!绝悟达到了电竞职业玩家水平!这是继dota2、英雄联盟后,王者荣耀也被AI征服。新智元第一时间带来赛事精彩解说,以及对绝悟团队的专访。

继dota2、英雄联盟后,王者荣耀也被AI征服了!

昨日,腾讯AI Lab研发的智能体「绝悟」在王者荣耀世界冠军杯半决赛特设环节,与职业选手职业选手赛区联队的5v5对决中获胜!

可以说,AI已经达到了电竞职业玩家水平了!

「绝悟」职业水平测试完整视频(从 3 分 55 秒开始)

据了解,「绝悟」训练使用384块GPU,8.5w核CPU,平均每天自对战局数相当于人类训练440年的量,训练周期持续训练半个月以上。

不仅如此,「绝悟」的 1v1 版本今天也在上海举办的国际数码互动娱乐展览会ChinaJoy首次对公众亮相,向顶级业余玩家开放为期四天的体验测试。

在首日的504场测试中,「绝悟」测试胜率为 99.8%,仅输 1 场(对方为王者荣耀国服第一后羿)

赛事精彩瞬间:即时策略+团队协作,四个AI拿下完美首杀

「绝悟」建立了基于 “观察 - 行动 - 奖励” 的深度强化学习模型,无需人类数据,从白板学习(Tabula Rasa)开始,让 AI 自己与自己对战,一天的训练强度高达人类 440 年

AI 从 0 到 1 摸索成功经验,勤学苦练,既学会了如何站位、打野、辅助保护和躲避伤害等游戏常识。

AI 也探索出了不同于人类常规做法的全新策略。团队还创建 One Model 模型提升训练效率,优化通信效率提升 AI 的团队协作能力,使用零和奖惩机制让 AI 能最大化团队利益,使其打法果断,有舍有得。

探索全新策略:开局时「绝悟」没选择传统人类对线走位策略,而是由双 C 位英雄虞姬和王昭君先一起清理中路第一波兵线,压制敌方中辅。之后又转上路压制曹操血线。

长线策略:对线期,赛区联队三人压迫下路,「绝悟」果断选择用三个 AI 反压赛区联队的上路,最终双方互换一塔,维持均势。

团队协作:比赛中期,「绝悟」四人追击娜可露露,AI 达摩一脚将娜可露露反踢入 AI 群中,再由四个 AI 完美配合拿下自己的首杀。

即时策略:一对一时,赛区联队实力较强的曹操追击「绝悟」虞姬,虞姬在残血状态退至高地。看到曹操抗塔血量大减后,把握机会绝地反杀。

即时策略 + 团队协作:比赛后期在赛区联队的上路高地塔团战,AI 王昭君先手被对方秒杀,「绝悟」果断选择反打,以漂亮的一波团战全歼对手。

即时策略 + 团队协作:在赛区联队全队覆灭后, 「绝悟」的兵线尚未到达,下路高地塔还有过半血量,「绝悟」果断选择四人轮流抗塔,无兵线强拆塔。* 注:赛事尾声,赛区联队团灭后,「绝悟」未直接推水晶,而是计算整体收益后,选择先推最后一个高地塔,再推水晶直至胜利。

技术细节:“观察 - 行动 - 奖励” 的深度强化学习模型

「绝悟」名字寓意绝佳领悟力,其技术研发始于 2017 年 12 月,并在 2018 年 12 月通过了顶尖业余水平测试(前职业选手与主播联队带来)。

游戏中测试的难点,是 AI 要在不完全信息、高度复杂度的情况作出复杂快速的决策。在庞大且信息不完备的地图上,10 位参与者要在策略规划、英雄选择、技能应用、路径探索及团队协作上面临大量、不间断、即时的选择,这带来了极为复杂的局面,预计有高达 10 的 20000 次方种操作可能性,而整个宇宙原子总数也只是 10 的 80 次方。

若 AI 能在如此复杂的环境中,学会人一样实时感知、分析、理解、推理、决策到行动,就可能在多变、复杂的真实环境中发挥更大作用。因此业界认为下一个 AI 里程碑,可能会在复杂策略游戏中诞生。世界顶级科技公司均在推进此类研究,如 Google Deepmind(星际争霸 2)、Facebook(星际争霸 2) 及 Open AI(Dota 2)等。

腾讯 AI Lab 从2016年开始研究此类智能体。2016 年起,研发的围棋 AI “绝艺”(Fine Art),现担任中国国家围棋队训练专用 AI ;2017 年,启动「绝悟」研发;2018 年,「绝悟」 达到业余顶尖水平。现在,「绝悟」终于达到了电竞职业玩家水平!

而长期应用上,「绝悟」将是腾讯攻克 AI 终极研究难题 —— 通用人工智能的关键一步。

绝悟是如何炼成的?新智元专访腾讯AI团队

赛后,新智元第一时间采访了腾讯AI Lab的“绝悟”团队,为我们揭晓制霸王者荣耀的“绝悟”是如何炼成的。

新智元:“绝艺”是围棋AI,“绝悟”为什么选择“王者荣耀”这个游戏?

绝悟团队:首先,王者荣耀在设计上的高复杂度、高挑战性,满足了对高水平游戏AI的研究需要;第二,王者荣耀是一个公平竞技的游戏环境,能测试出AI与职业选手的水平差距;第三,王者荣耀很早就与我们确定了联合研究意向,提供了运行游戏的测试环境,帮助搭建和开发独立的研究平台,极大提升了我们的研究效率;最后,这款游戏的玩家数量众多,口碑很好,能更好帮助普及和推广AI的研究成果,推进技术进步。

新智元:「绝悟」版本建立了基于“观察-行动-奖励”的深度强化学习模型,这个模型是如何训练出来的,训练了多久,用了多少计算资源?

绝悟团队:与去年12月的版本相比,此次达到职业水平的「绝悟」是完全使用深度强化学习模型,无需人类数据,从白板学习(Tabula Rasa)开始,让 AI 自己与自己对战,一天的训练强度高达人类 440 年。AI 从0到1摸索成功经验,勤学苦练,既学会了如何站位、打野、辅助保护和躲避伤害等游戏常识。更惊喜的是,AI 也探索出了不同于人类常规做法的全新策略。(具体可见动图分析)

这个版本经过了几次大的迭代到达目前水平,「绝悟」训练使用384块GPU,8.5w核CPU,平均每天自对战局数相当于人类训练440年的量,训练周期持续训练半个月以上。

新智元:团队还创建One Model模型提升训练效率,“One Model模型”是怎样的,如何能够提升训练效率?

绝悟团队:我们创造了一个统一模型,让每个英雄的训练都使用这个模型,这样就比每个英雄用不同模型要能极大提升训练效率。

新智元:跟DeepMind的AlphaStar相比,「绝悟」有什么特殊的地方?王者荣耀和星际争霸这两个游戏,AI需要解决的问题有什么异同?

绝悟团队:游戏其实是对真实世界的一种模拟,一种只有一个具体目标的模拟,这正是人工智能学习的绝佳试验场。但我们的目标从来不只是游戏 AI ,而是希望 AI 在学习如何做上千个小决定后来达成更大的终极目标。

我们的长期研究目标从未改变:「绝悟」将是腾讯攻克 AI 终极研究难题——通用人工智能的关键一步。AGI 代表研发能在通用系统中执行多种复杂命令,达到或超越人类水平的 AI ,从「绝艺」到「绝悟」,不断让 AI 从0到1去学习进化,并发展出一套合理的行为模式,这中间的经验、方法与结论,长期来看,有望在大范围内,如医疗、制造、无人驾驶、农业到智慧城市管理等领域带来更深远影响。

新智元:你们的团队多少人在做「绝悟」,跟「绝艺」是同个团队吗?8个月的时间胜率从48%提高到99.8%,你们做了哪些优化?

绝悟团队:是长期致力于游戏AI和多智能体研究的团队,部分成员来自围棋AI 「绝艺」的团队。「绝悟」的研发是算法+算力高度结合,需要极致优化的算力平台和持续改进的优化算法,综合了AI Lab的科研与工程人才资源,还联合了我们所在的腾讯技术与工程事业部(TEG)旗下基础架构平台部人才。主要工作包括模型、特征、算力、数据的优化,机器虚拟化、搭建和优化数据处理、并行计算和机器学习训练的平台。

新智元:「绝悟」无需人类数据,从白板学习开始,那么它的策略和人类相比有什么异同,从中可以发现什么?

我们使用零和奖惩机制让 AI 能最大化团队利益,使其打法果断,有舍有得。我们发现 AI 探索出了一些全新策略,并非常见和传统的打法。比如:

非传统对线走位,AI经常从经济最大化角度选用此策略。比如此次测试中,开局时「绝悟」没选择传统人类对线走位策略,而是由双C位英雄虞姬和王昭君先一起清理中路第一波兵线,压制敌方中辅。之后又转上路压制曹操血线。

果断取舍:比如人类打龙时,兵线在 AI 方,AI 会放弃抢龙,放弃兵线优势,直接推高地塔。

新智元:你们下一步的计划是什么?

绝悟团队:研究上,短期仍希望能将 AI 的策略协作提升到极致水平。具体的测试形式仍在探讨中。长期的研究目标从未改变:“绝悟”将是腾讯攻克 AI 终极研究难题——通用人工智能的关键一步。AGI 代表研发能在通用系统中执行多种复杂命令,达到或超越人类水平的 AI ,从「绝艺」到「绝悟」,不断让 AI 从0到1去学习进化,并发展出一套合理的行为模式,这中间的经验、方法与结论,长期来看,有望在大范围内,如医疗、制造、无人驾驶、农业到智慧城市管理等领域带来更深远影响。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-08-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 相约机器人 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 【新智元导读】腾讯AI Lab研发的智能体「绝悟」在王者荣耀世界冠军杯,与职业选手5v5的对决中获胜!绝悟达到了电竞职业玩家水平!这是继dota2、英雄联盟后,王者荣耀也被AI征服。新智元第一时间带来赛事精彩解说,以及对绝悟团队的专访。
相关产品与服务
Prowork 团队协同
ProWork 团队协同(以下简称 ProWork )是便捷高效的协同平台,为团队中的不同角色提供支持。团队成员可以通过日历、清单来规划每⽇的工作,同时管理者也可以通过统计报表随时掌握团队状况。ProWork 摒弃了僵化的流程,通过灵活轻量的任务管理体系,满足不同团队的实际情况,目前 ProWork 所有功能均可免费使用。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档