深度Q网络用语视觉格斗类游戏

最近,基于视觉深度Q的学习在雅达利和视觉Doom AI平台被证明成功的结果。与以前的研究不同,格斗游戏假设两个玩家有相当多的动作,在这项研究中,采用深度Q网络(DQN)用于视觉格斗游戏AI的比赛。动作次数减少到11,并利用视觉格斗平台测试了几个控制参数的灵敏度。实验结果表明,对于双人实时格斗游戏的DQN方法有着很大的潜力!

格斗游戏是一种国际人工智能竞赛平台,具有两个代理之间的匹配。在比赛中,蒙特卡洛树搜索(MCTS)技术是排名在前面的几种方法。近年来,基于视觉的实时游戏AI的数量有所增加,有可能采用基于视觉的方法在格斗游戏的竞争领域击败MCTS方法的情况。

特别是,采用深度Q学习网络(DQN)成功地展示了在雅达利游戏和视觉Doom AI的比赛。

在格斗游戏平台,为每一个角色一共定义了41个动作,为不同的状态定义了几种操作(比如在地上,空中,蹲着等),由于训练的动作数量相对较多,这很有挑战性,最后建议只考虑11个动作。

网络架构:

输入为4通道,分别为连续视频帧,两个卷积层和两个全连接层。

参数设置:

  • 输入为960*640像素的,然后重新变换到96*64大小尺寸;
  • 一个动作用4帧去产生,采用跳帧技术,加快动作额学习
  • 动作有上、下、右、用拳猛击、踢和六个组合键: - ‘Down’ + ‘Down & Right’ + ‘Right & Punch’ - ‘Down’ + ‘Down & Right’ + ‘Right & Kick’ - ‘Right’ + Down’ + ‘Right & Down & Punch’ - ‘Right’ + ‘Down’ + ‘Right & Down & Kick’ - ‘Down’ + ‘Left & Down’ + ‘Left & Punch’ - ‘Down’ + ‘Left & Down’ + ‘Left & Kick’
  • minibatch设置为32,replay memory设置为50000,学习率为10e-6。

学习过程:

其他设置:

输入数据尺寸

跳帧技术

行为数量

实验结果:

从上图可以看出,高分辨率的输入效果比低分辨了的好;

在跳帧技术,用较大的跳帧参数值可以增加性能;

小尺寸的行为可以额很好的提高性能。

最后给大家展示一些效果:

原文发布于微信公众号 - 计算机视觉战队(ComputerVisionGzq)

原文发表时间:2017-12-09

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PaddlePaddle

宠物也刷脸,如何最快长成这个技能树?

然而令人吃惊的是,在 LA Hacks 2018 的活动之中,来自加州理工学院的美籍华裔大二学生 EricZhao做出“狗脸识别”系统,16小时让梦成真!

12930
来自专栏CVer

开源 | 商汤联合港中文开源 mmdetection

项目地址:https://github.com/open-mmlab/mmdetection

39030
来自专栏新智元

谷歌开源JPEG压缩算法,比同类方法性能优越35%

【新智元导读】 谷歌最近开源了一个JPEG图像压缩编码器,比同类方法压缩要小35%。 在互联网上,速度意味着一切。一个通用的规则是:文件越小,载入的速度会越快...

42850
来自专栏fangyangcoder

MaskRCNN-Keypoints

这个月先写一篇吧,后面要复习数学考试了,可能到时候就忘了。今天写一个比较有意思的东西,关于人体的分割与姿态估计。如下图所示:

36430
来自专栏专知

【AlphaGo Zero 核心技术-深度强化学习教程代码实战03】编写通用的格子世界环境类

【导读】Google DeepMind在Nature上发表最新论文,介绍了迄今最强最新的版本AlphaGo Zero,不使用人类先验知识,使用纯强化学习,将价值...

31440
来自专栏悦思悦读

【机器学习实践】水果图片分类

学习理论之外,自己寻找资源动手实践,在实际做项目中巩固了习得的理论知识,并进一步体会到了日常积累的重要性。

75930
来自专栏WOLFRAM

打造自动化数据科学家:新的分类和预测函数

11230
来自专栏新智元

【Science】破解密码“AlphaGo”诞生,训练Gan破解27%LinkedIn测试集密码

【新智元导读】一项新的研究旨在使用生成对抗网络(GAN) 来加快密码破解的速度。斯蒂文斯理工学院的研究人员用类似“AlphaGo”的方法,利用超过 4300 万...

33760
来自专栏量子位

AMD深度学习库MIOpen更新,支持CNN加速

吴唯 编译自 GitHub 量子位 出品 | 公众号 QbitAI 农企的深度学习加速库MIOpen 1.0更新了,它现在已经能支持对CNN的加速。 ROCm全...

377120
来自专栏斑斓

大数据 | Spark中实现基础的PageRank

吴军博士在《数学之美》中深入浅出地介绍了由Google的佩奇与布林提出的PageRank算法,这是一种民主表决式网页排名技术。书中提到PageRank的核心思想...

35680

扫码关注云+社区

领取腾讯云代金券