前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >DeepMind AI与人类合作玩夺旗策略游戏,表现与人类玩家相当

DeepMind AI与人类合作玩夺旗策略游戏,表现与人类玩家相当

作者头像
阿泽
发布2019-06-21 16:04:41
6400
发布2019-06-21 16:04:41
举报
文章被收录于专栏:Flink实战应用指南

导读

DeepMind用强化学习训练AI玩家,在复杂多人连线3D游戏中的夺旗竞赛场景,AI玩家的表现已达人类水准

DeepMind最近发表用强化学习训练AI模型的新进展,在复杂多人连线3D游戏《雷神之锤III竞技场》中的夺旗竞赛场景,AI玩家的表现已达人类水准,能够成功地与人类玩家合作,不仅如此,该AI模型的研究成果,也可以扩展到《雷神之锤III竞技场》完整的游戏场景中,该研究显示多代理人(multi-agent)训练在AI领域开发上的潜力。

这个研究的目标是多代理人学习,也就是每个个别的代理人都必须独立行动,并学会与其他代理人互动和合作,DeepMind指出,地球上有数十亿的人居住,每个人都有自己的目标和活动,但是仍然可以透过团体组织和社会聚集在一起,展现出集体智慧,这就是DeepMind期望AI玩家能学会的能力,不过,这也是一个非常困难的任务,因为环境一直在改变。

为了研究这道难题,DeepMind利用3D第一视角的多人连线游戏,来训练AI模型,这些游戏能够代表最受欢迎的游戏种类,并且也因为沉浸式的游戏方式,可以收集到数百万游戏玩家的想像,也能使AI学习到策略、技巧、手眼协调和团队合作,对AI玩家来说,挑战是要直接从原始的像素资料直接学习,并产生动作,这样的复杂度也使得第一视角的多人连线游戏,成为丰富的AI训练资源。

首先,DeepMind训练AI玩家学习像其他玩家一样行动,而且要学会与同队的玩家合作,不管是AI或是人类玩家,夺旗竞赛的规则很简单,但是动态的变化却很复杂,两个队伍各自的玩家要在给定的地图上,抢夺对方队伍的旗帜带回自己的基地,同时又要保护自己队伍的旗帜,若点击持有自己队伍旗帜的敌对玩家,就能将旗帜送回原本的基地,在5分钟内拥有最多旗帜的队伍即获胜。

从游戏AI玩家的角度来看,夺旗竞赛需要玩家与团队合作一起对抗敌人,为了让研究变得更有趣,DeepMind为夺旗竞赛增添了一些变数,每个竞赛中的地图配置都不相同,如此一来,AI玩家就被迫要找出通用的策略,而不是靠着记忆地图来完成任务,除此之外,为了确保竞争环境公平,AI玩家和人类玩家是用类似的方式玩夺旗游戏,AI玩家观察像素图像的串流资料,并透过模拟游戏控制器来产生执行动作。

DeepMind所用的强化学习有3大概念,第一,DeepMind训练了一群AI玩家,而不是只有一个,因此,AI之间可以互相学习,提供多元的队友或是敌人,第二,每个AI玩家都会学习自己的内部奖励讯号,使得AI产生自己的内部目标,像是抢夺旗帜,第三,AI玩家执行游戏的时间区段的分为快和慢两种,来改善AI使用记忆体和产生一致行动序列的能力。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-06-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Flink实战应用指南 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
图像处理
图像处理基于腾讯云深度学习等人工智能技术,提供综合性的图像优化处理服务,包括图像质量评估、图像清晰度增强、图像智能裁剪等。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档