【AI玩跳一跳终极奥义】首个端到端神经网络,看AI在玩游戏时注意什么

作者:Flood Sung

编辑:费欣欣

【新智元导读】不用传统外挂,训练纯深度学习AI来玩跳一跳,结果会如何?本文作者使用模仿学习,训练了一个端到端的神经网络玩跳一跳,使用注意力机制(Attention)分析后发现,神经网络在玩游戏时,也会自动捕捉棋子与盒子的重要位置信息。代码不过100行,希望这个工作能让大家体会到深度学习的魅力!

微信跳一跳自发布以来,迅速成为人们茶余饭后的休闲利器,同时也演变成了各路程序员的竞技场。程序员们争先开发出各种牛逼外挂,把小游戏玩出了新的境界。

然而,目前出来的各种外挂版本,大多采用传统的方法来实现,比如使用传统计算机视觉的颜色,边缘检测等方法来寻找棋子的位置。虽然已能够在游戏中取得较好分数,但是代码复杂,需要针对不同手机设置不同的参数。

在深度学习如此火热,AlphaZero已经征服各种棋类,Atari游戏已经被计算机吊打的情况下,能不能用纯深度神经网络来玩跳一跳呢?

答案当然是Yes。

本文中,我们就祭出微信跳一跳的终极奥义:仅使用一个端到端的神经网络,远远超越人类水平!

AI玩跳一跳的关键:从二维图像学会三维距离的概念

在介绍端到端神经网络的实现方法前,我们首先要考虑,训练AI来玩跳一跳,关键在哪里?

UCL计算机系教授汪军在接受新智元采访时说,关键是让AI通过观看二维图像,学会“三维距离”的概念。

一个用线性模型玩跳一跳的结果

使用模仿学习,把复杂程序全都装进一个神经网络

那么,端到端神经网络玩跳一跳是怎么实现的呢?

估计有很多朋友的第一反应是:难道是用深度增强学习(Deep Reinforcement Learning),也就是AlphaGo的方法?

老实说,我一开始也是打算这么干的,但是具体分析后发现并不是那么好做。

首先,我们获取不了游戏内部数据,不方便获取Reward,即使我们要自己设定一个Reward,比如计算棋子离盒子正中心的位置,我们依然需要通过计算机视觉分析的方式实现,违背了我们纯端到端神经网络实现的初衷。

其次,跳一跳这个小游戏,玩的速度很慢,基本上一步要一秒多。而使用深度增强学习最大的问题就是需要训练几十万步。这样看来,要用深度增强学习训练出一个能玩的网络,大概要训练到明年吧!

因此,我们不用深度增强学习,而改用模仿学习(Imitation Learning),并且使用模仿学习中最简单的行为克隆(Behavior Cloning)方法。简单的说,就是收集很多好的游戏输入输出数据,然后使用监督学习训练。

本质上说,这种模仿学习的做法就是把人工编写的复杂程序存进一个神经网络中。

好了,确定了方法论。下面就可以开始具体实施了。

具体实施:Talk is Easy,Show Me The Code

1、构造游戏数据库

从哪里搞到很多的游戏输入输出数据呢?别忘了,传统方法都已经可以玩到10000分以上了,我们完全可以用传统方法来收集数据。

在这里,我使用加了点小AI的代码,通过线性回归训练了一个简单的线性模型来估计跳跃距离和按压时间的关系,相对人工设定的参数会好一些。有了这个,我们就可以将每一次跳跃的屏幕截图及按压时间记录下来:

其中图像先做一下预处理,居中裁成正方形,方便之后的训练,而按压数据则存在Json中,一个图片名称对应一个按压时间。图片名称很简单,直接使用的截图时间。

就这样,我们让微信跳一跳跳了n个小时,终于收集到了5000多个数据样本。

有了数据库,下面就是如何训练了。

2、构造端到端神经网络模型及训练

这里我构造了一个5层的卷积神经网络,每一层神经网络包含一个64 通道的3x3 卷积核的卷积层,一个BatchNorm,一个ReLU及一个2x2的Max-Pooling层。具体如下图所示:

由于输出的按压时间是一个单值,非常简单,我们使用Mean Square Error来作为模型的损失函数Loss。因此,我们的模型是一个简单的回归模型。我们使用构建的数据库进行训练。在训练之前,我们对图像数据进行预处理,将其压缩成224x224的RGB图像,然后再输入到神经网络。我们采用Adam作为优化器,学习率设定为0.001,训练200个episode,一个episode随机遍历整个数据集一遍。

3、代码

具体的代码:https://github.com/songrotek/wechat_jump_end_to_end

这个Github仅包含所需的运行代码,就两个文件一个ios,一个android。使用方法非常简单:

(1) 安装iOS或Android开发所需的软件及依赖,具体详见:

https://github.com/wangshub/wechat_jump_game/wiki/Android-%E5%92%8C-iOS-%E6%93%8D%E4%BD%9C%E6%AD%A5%E9%AA%A4

(2) 安装本代码所需的PyTorch深度学习框架:pytorch.org

(3) 手机连接好电脑,注意iPhone需要在run_ios.py中更改WebDriverAgentRunner 运行后得到的IP。打开微信跳一跳,然后在Terminal中输入:python run_ios.py 或者 python run_android.py

接下来就是见证奇迹的时刻!

再看看代码,也就是100行!惊不惊喜!意不意外!

神经网络在玩跳一跳的过程中思考了吗?

上面就是端到端神经网络的实现方法,看起来过于简单了。只玩到这不太符合我们的Geek精神。因此,我们不禁要问:神经网络在玩游戏的过程中“思考”了吗?有没有像人类一样,考虑了确定棋子和盒子的位置等问题?

为了验证这一点,我们做了额外的实验,构建一个带有注意力(Attention)机制的神经网络进行训练。我们使用一个4层的U-Net来输出一个和图像输入维度一致的注意力蒙版(Attention Mask),然后将原有图像与注意力蒙版相乘(Element-wise Product),得到带蒙版的图像,即仅考虑注意力区域的图像。之后,再将带蒙版图像输入到4层卷积全连接后输出按压时间。具体网络结构如下图所示:

注意力蒙版每一个维度的值我们限制为[0,1],越趋于1就表示越关注,反之亦然。基于这样的网络模型训练后,我们就可以来看看神经网络在关注些什么。下面是一些对应的截图:

端到端的神经网络在玩跳一跳过程中,自动捕捉位置等关键信息

可以看出,神经网络一定程度上自动捕捉了棋子和盒子的位置信息,特别注意棋子上头的高亮,这非常符合人玩游戏的方式,也符合传统做法的方法。

这在一定程度上说明,整个端到端神经网络内部也会自动捕捉到这些重要的位置信息!

小结

微信跳一跳的终极奥义就介绍到这了!大家肯定会惊讶于深度学习的神奇之处。老实说只看运行的代码我也非常惊讶。但是,再看看训练的方式似乎不过如此。这大概也是深度学习的魅力吧!

希望这个Work能给大家带来更多欢乐!

本文分享自微信公众号 - 新智元(AI_era)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-01-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏李春晓的专栏

机器学习:从入门到第一个模型

从入门到第一个模型”差点就成了“从入门到放弃”。本文是机器学习在运维场景下的一次尝试,用一个模型实现了业务规律挖掘和异常检测。这只是一次尝试,能否上线运转还有待...

2.6K20
来自专栏AI研习社

如何构建商品定价模型?Mercari Price Suggestion Challenge 最佳方案出炉

「如何分析一件商品究竟值多少钱?」对于消费者和商品卖家来说,这着实是一个不小的挑战。在网上购物时,当只有文字描述时,这个问题显得更为突出。在商品价格上,一些极小...

74580
来自专栏CSDN技术头条

人人都可以做深度学习应用:入门篇

一、人工智能和新科技革命 2017年围棋界发生了一件比较重要事,Master(Alphago)以60连胜横扫天下,击败各路世界冠军,人工智能以气势如虹的姿态出现...

28260
来自专栏机器之心

教程 | 如何使用TensorFlow构建、训练和改进循环神经网络

选自SVDS 作者:Matthew Rubashkin、Matt Mollison 机器之心编译 参与:李泽南、吴攀 来自 Silicon Valley Dat...

36190
来自专栏阮一峰的网络日志

TF-IDF与余弦相似性的应用(三):自动摘要

有时候,很简单的数学方法,就可以完成很复杂的任务。 这个系列的前两部分就是很好的例子。仅仅依靠统计词频,就能找出关键词和相似文章。虽然它们算不上效果最好的方法,...

32790
来自专栏大数据文摘

科技网红Siraj最新油管视频:如何用4分钟搭建神经网络

22280
来自专栏崔庆才的专栏

NLP通用模型诞生?一个模型搞定十大自然语言常见任务

翻译:于之涵 编辑:Leo 出品:AI科技大本营 (公众号ID:rgznai100)

26150
来自专栏玉树芝兰

如何用Python和深度神经网络发现即将流失的客户?

想不想了解如何用Python快速搭建深度神经网络,完成数据分类任务?本文一步步为你展示这一过程,让你初步领略深度学习模型的强大和易用。

29930
来自专栏量子位

Google全新AI实战课发布:从原理到代码,手把手带你入门机器学习

16310
来自专栏专知

【David Silver 深度强化学习教程代码实战07】 DQN的实现

点击上方“专知”关注获取更多AI知识! 【导读】Google DeepMind在Nature上发表最新论文,介绍了迄今最强最新的版本AlphaGo Zero,不...

2.1K70

扫码关注云+社区

领取腾讯云代金券