专栏首页相约机器人腾讯AI制霸王者荣耀,世界杯5V5 「绝悟」绝杀职业玩家,1天训练强度超人类440年

腾讯AI制霸王者荣耀,世界杯5V5 「绝悟」绝杀职业玩家,1天训练强度超人类440年


新智元报道

来源:腾讯AI实验室

【新智元导读】腾讯AI Lab研发的智能体「绝悟」在王者荣耀世界冠军杯,与职业选手5v5的对决中获胜!绝悟达到了电竞职业玩家水平!这是继dota2、英雄联盟后,王者荣耀也被AI征服。新智元第一时间带来赛事精彩解说,以及对绝悟团队的专访。

继dota2、英雄联盟后,王者荣耀也被AI征服了!

昨日,腾讯AI Lab研发的智能体「绝悟」在王者荣耀世界冠军杯半决赛特设环节,与职业选手职业选手赛区联队的5v5对决中获胜!

可以说,AI已经达到了电竞职业玩家水平了!

「绝悟」职业水平测试完整视频(从 3 分 55 秒开始)

据了解,「绝悟」训练使用384块GPU,8.5w核CPU,平均每天自对战局数相当于人类训练440年的量,训练周期持续训练半个月以上。

不仅如此,「绝悟」的 1v1 版本今天也在上海举办的国际数码互动娱乐展览会ChinaJoy首次对公众亮相,向顶级业余玩家开放为期四天的体验测试。

在首日的504场测试中,「绝悟」测试胜率为 99.8%,仅输 1 场(对方为王者荣耀国服第一后羿)

赛事精彩瞬间:即时策略+团队协作,四个AI拿下完美首杀

「绝悟」建立了基于 “观察 - 行动 - 奖励” 的深度强化学习模型,无需人类数据,从白板学习(Tabula Rasa)开始,让 AI 自己与自己对战,一天的训练强度高达人类 440 年

AI 从 0 到 1 摸索成功经验,勤学苦练,既学会了如何站位、打野、辅助保护和躲避伤害等游戏常识。

AI 也探索出了不同于人类常规做法的全新策略。团队还创建 One Model 模型提升训练效率,优化通信效率提升 AI 的团队协作能力,使用零和奖惩机制让 AI 能最大化团队利益,使其打法果断,有舍有得。

探索全新策略:开局时「绝悟」没选择传统人类对线走位策略,而是由双 C 位英雄虞姬和王昭君先一起清理中路第一波兵线,压制敌方中辅。之后又转上路压制曹操血线。

长线策略:对线期,赛区联队三人压迫下路,「绝悟」果断选择用三个 AI 反压赛区联队的上路,最终双方互换一塔,维持均势。

团队协作:比赛中期,「绝悟」四人追击娜可露露,AI 达摩一脚将娜可露露反踢入 AI 群中,再由四个 AI 完美配合拿下自己的首杀。

即时策略:一对一时,赛区联队实力较强的曹操追击「绝悟」虞姬,虞姬在残血状态退至高地。看到曹操抗塔血量大减后,把握机会绝地反杀。

即时策略 + 团队协作:比赛后期在赛区联队的上路高地塔团战,AI 王昭君先手被对方秒杀,「绝悟」果断选择反打,以漂亮的一波团战全歼对手。

即时策略 + 团队协作:在赛区联队全队覆灭后, 「绝悟」的兵线尚未到达,下路高地塔还有过半血量,「绝悟」果断选择四人轮流抗塔,无兵线强拆塔。* 注:赛事尾声,赛区联队团灭后,「绝悟」未直接推水晶,而是计算整体收益后,选择先推最后一个高地塔,再推水晶直至胜利。

技术细节:“观察 - 行动 - 奖励” 的深度强化学习模型

「绝悟」名字寓意绝佳领悟力,其技术研发始于 2017 年 12 月,并在 2018 年 12 月通过了顶尖业余水平测试(前职业选手与主播联队带来)。

游戏中测试的难点,是 AI 要在不完全信息、高度复杂度的情况作出复杂快速的决策。在庞大且信息不完备的地图上,10 位参与者要在策略规划、英雄选择、技能应用、路径探索及团队协作上面临大量、不间断、即时的选择,这带来了极为复杂的局面,预计有高达 10 的 20000 次方种操作可能性,而整个宇宙原子总数也只是 10 的 80 次方。

若 AI 能在如此复杂的环境中,学会人一样实时感知、分析、理解、推理、决策到行动,就可能在多变、复杂的真实环境中发挥更大作用。因此业界认为下一个 AI 里程碑,可能会在复杂策略游戏中诞生。世界顶级科技公司均在推进此类研究,如 Google Deepmind(星际争霸 2)、Facebook(星际争霸 2) 及 Open AI(Dota 2)等。

腾讯 AI Lab 从2016年开始研究此类智能体。2016 年起,研发的围棋 AI “绝艺”(Fine Art),现担任中国国家围棋队训练专用 AI ;2017 年,启动「绝悟」研发;2018 年,「绝悟」 达到业余顶尖水平。现在,「绝悟」终于达到了电竞职业玩家水平!

而长期应用上,「绝悟」将是腾讯攻克 AI 终极研究难题 —— 通用人工智能的关键一步。

绝悟是如何炼成的?新智元专访腾讯AI团队

赛后,新智元第一时间采访了腾讯AI Lab的“绝悟”团队,为我们揭晓制霸王者荣耀的“绝悟”是如何炼成的。

新智元:“绝艺”是围棋AI,“绝悟”为什么选择“王者荣耀”这个游戏?

绝悟团队:首先,王者荣耀在设计上的高复杂度、高挑战性,满足了对高水平游戏AI的研究需要;第二,王者荣耀是一个公平竞技的游戏环境,能测试出AI与职业选手的水平差距;第三,王者荣耀很早就与我们确定了联合研究意向,提供了运行游戏的测试环境,帮助搭建和开发独立的研究平台,极大提升了我们的研究效率;最后,这款游戏的玩家数量众多,口碑很好,能更好帮助普及和推广AI的研究成果,推进技术进步。

新智元:「绝悟」版本建立了基于“观察-行动-奖励”的深度强化学习模型,这个模型是如何训练出来的,训练了多久,用了多少计算资源?

绝悟团队:与去年12月的版本相比,此次达到职业水平的「绝悟」是完全使用深度强化学习模型,无需人类数据,从白板学习(Tabula Rasa)开始,让 AI 自己与自己对战,一天的训练强度高达人类 440 年。AI 从0到1摸索成功经验,勤学苦练,既学会了如何站位、打野、辅助保护和躲避伤害等游戏常识。更惊喜的是,AI 也探索出了不同于人类常规做法的全新策略。(具体可见动图分析)

这个版本经过了几次大的迭代到达目前水平,「绝悟」训练使用384块GPU,8.5w核CPU,平均每天自对战局数相当于人类训练440年的量,训练周期持续训练半个月以上。

新智元:团队还创建One Model模型提升训练效率,“One Model模型”是怎样的,如何能够提升训练效率?

绝悟团队:我们创造了一个统一模型,让每个英雄的训练都使用这个模型,这样就比每个英雄用不同模型要能极大提升训练效率。

新智元:跟DeepMind的AlphaStar相比,「绝悟」有什么特殊的地方?王者荣耀和星际争霸这两个游戏,AI需要解决的问题有什么异同?

绝悟团队:游戏其实是对真实世界的一种模拟,一种只有一个具体目标的模拟,这正是人工智能学习的绝佳试验场。但我们的目标从来不只是游戏 AI ,而是希望 AI 在学习如何做上千个小决定后来达成更大的终极目标。

我们的长期研究目标从未改变:「绝悟」将是腾讯攻克 AI 终极研究难题——通用人工智能的关键一步。AGI 代表研发能在通用系统中执行多种复杂命令,达到或超越人类水平的 AI ,从「绝艺」到「绝悟」,不断让 AI 从0到1去学习进化,并发展出一套合理的行为模式,这中间的经验、方法与结论,长期来看,有望在大范围内,如医疗、制造、无人驾驶、农业到智慧城市管理等领域带来更深远影响。

新智元:你们的团队多少人在做「绝悟」,跟「绝艺」是同个团队吗?8个月的时间胜率从48%提高到99.8%,你们做了哪些优化?

绝悟团队:是长期致力于游戏AI和多智能体研究的团队,部分成员来自围棋AI 「绝艺」的团队。「绝悟」的研发是算法+算力高度结合,需要极致优化的算力平台和持续改进的优化算法,综合了AI Lab的科研与工程人才资源,还联合了我们所在的腾讯技术与工程事业部(TEG)旗下基础架构平台部人才。主要工作包括模型、特征、算力、数据的优化,机器虚拟化、搭建和优化数据处理、并行计算和机器学习训练的平台。

新智元:「绝悟」无需人类数据,从白板学习开始,那么它的策略和人类相比有什么异同,从中可以发现什么?

我们使用零和奖惩机制让 AI 能最大化团队利益,使其打法果断,有舍有得。我们发现 AI 探索出了一些全新策略,并非常见和传统的打法。比如:

非传统对线走位,AI经常从经济最大化角度选用此策略。比如此次测试中,开局时「绝悟」没选择传统人类对线走位策略,而是由双C位英雄虞姬和王昭君先一起清理中路第一波兵线,压制敌方中辅。之后又转上路压制曹操血线。

果断取舍:比如人类打龙时,兵线在 AI 方,AI 会放弃抢龙,放弃兵线优势,直接推高地塔。

新智元:你们下一步的计划是什么?

绝悟团队:研究上,短期仍希望能将 AI 的策略协作提升到极致水平。具体的测试形式仍在探讨中。长期的研究目标从未改变:“绝悟”将是腾讯攻克 AI 终极研究难题——通用人工智能的关键一步。AGI 代表研发能在通用系统中执行多种复杂命令,达到或超越人类水平的 AI ,从「绝艺」到「绝悟」,不断让 AI 从0到1去学习进化,并发展出一套合理的行为模式,这中间的经验、方法与结论,长期来看,有望在大范围内,如医疗、制造、无人驾驶、农业到智慧城市管理等领域带来更深远影响。

本文分享自微信公众号 - 相约机器人(xiangyuejiqiren)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-08-03

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 写在人工智能退潮时

    金融大鳄索罗斯曾经说过:世界经济史是一部基于假象和谎言的连续剧。要获得财富,做法就是认清其假象,投入其中,然后在假象被公众认识之前退出游戏。

    代码医生工作室
  • 98%都认错,图像识别AI遇上对抗性图像竟变“瞎子”

    近几年来,计算机视觉有了很大的改善,但仍然有可能犯严重的错误。犯错如此之多,以至于有一个研究领域致力于研究AI经常误认的图片,称为“对抗性图像”。可以把它们看作...

    代码医生工作室
  • 手机手环都知道你在摸鱼,并告诉了老板......这只AI的前世,还能预测GPA

    有一只AI,只要依靠手机、手环、手表这类设备自带的传感器,就能算出你是不是又在摸鱼了。

    代码医生工作室
  • 2018年AI合成最好的5张图,每张图里都藏着最新技术秘密

    2017年,Google偷偷上线了一个小app,上传你的大头照,测测你长得跟历史上哪个著名油画里的人物最像。

    昱良
  • AI生态赋能2018论坛来袭!转型AI看这里!

    用户1737318
  • 有电脑病毒就会有杀毒软件!李开复和MIT彭特兰这样看AI挑战

    近日,创新工场董事长兼CEO李开复博士与阿莱克斯·彭特兰教授(Alex Pentland)展开了一场”AI如何重塑人类社会”的精彩对话。

    量子位
  • AI浪潮下的技能转型,你准备好了吗?

    用户1737318
  • 速成班出来的AI人才,老板到底要不要?6位导师告诉你行业真相

    用户1737318
  • 全新DPU处理器三年算力跨千倍,你的AI还能跟上么?

    第二波驱动力来自乔布斯的智能手机和4G,今天全球已有30多亿人通过多点触摸的方式连上了移动互联网。

    新智元
  • “深度视野,对话未来”,首届中新人工智能高峰论坛在南京圆满落幕

    镁客网

扫码关注云+社区

领取腾讯云代金券