开发 | 如何从零训练神经网络玩游戏?这里有一段详细的解读视频

AI科技评论消息,最近,Youtube 上的知名游戏博主 SethBling 训练了一个叫 MariFlow 的神经网络来玩 Mario Kart 游戏。在进行15个小时的游戏训练并做了一些针对性的改进后,这个神经网络在 50cc Mushroom Cup 中获得了金牌。

这并不是 SethBling 第一次在游戏中应用神经网络“通关”。此前 SethBling 曾经创建了另一个神经网络MarI/O,通过训练,这个神经网络自己演变成玩“超级马里奥世界”(Super Mario World)的高手。SethBling还拍摄了一个六分钟的视频来解释通过神经网络来进行游戏的原理。他设计了一个四层的神经网络,通过计算,程序会给出它认为在某个点上应该按下什么键的预测。通过这个视频,或许你也可以举一反三,做出更好的应用例子(例如赛车游戏)。

和AI科技评论来看一下构建这个神经网络中 SethBling 的思路吧:

游戏当中,我们可以看到Mario在一直全速奔跑,全程没有任何停顿,并能快速躲开类似上图这样高难度的子弹袭击,最终到达终点的时候剩余时间为354秒。

让我们重头开始看看神经网络是如何进行决策的:如上图所示,这是一个只有4层的神经网络模型,通过对最左侧的输入图像的计算(红色的短线代表Mario、白色方块代表不会移动的物体如地面,黑色方块代表会移动的物体如敌人,等等),最终得出最右侧的8个按键的输出状态(SethBling解释说,神经网络中的神经元和神经树突并不总是被亮起的,这也是我们所说的只使用到了我们一小部分的大脑)。

而在一开始的时候,机器的表现非常笨拙,甚至不会按任何键。在这样的过程中,系统会尝试切换不同的模拟状态,通过尝试了很久后才学会了向右移动;

在遇到子弹的时候也不会跳跃躲避;

那么神经网络是如何学习的呢?还是从最初的简单状况开始,绿色线代表正激励连接,而红色表示负激励连接。自要从目前的状态所激活的是绿色的正激励连接,那么Mario就只管一直按右键狂奔;

当红色的负激励连接被激活时,则切换到相应的状态,如上图中按下A键做一个跳跃动作;

如果没有任何链接被激活,那么Mario就站在那里。这只是一个简单的示意:如果神经网络中的节点和连接越复杂,系统能做出的选择也更多,最终做出最合适的选择;

那么神经网络是如何从简单进化到复杂的呢?我们设定一个函数Fitness,这个函数值取决于Mario奔跑的距离以及所用的时间,奔跑距离越大、所用时间越短,Fitness值越大,而只有获得最大值的模型才能被选为下一代演化的基础模型,而在下一代演化中在关键节点上(如上图吃到子弹游戏结束)会产生随机突变(AI科技评论注:这和生物进化的过程非常相似,只有最适应环境的种类才能生存繁衍),在这样不断演变中达到最优解。

在上图的34代演化得分图中,我们可以看到机器在进化过程中也遇到了一些瓶颈,但最终克服了这些瓶颈取得了好成绩。

这一方法,SethBling称之为NEAT(Neuro Evolution of Augmenting Topologies,增强拓扑神经演化),在 Kenneth Stanley 和 Ari 的论文中也有讲述。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-11-07

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏xingoo, 一个梦想做发明家的程序员

【插件开发】—— 6 SWT 复杂控件使用以及布局

前文回顾: 1 插件学习篇 2 简单的建立插件工程以及模型文件分析 3 利用扩展点,开发透视图 4 SWT编程须知 5 SWT简单控件的使用与布局搭...

2349
来自专栏Golang语言社区

GO语言 TCP传输实例

package main import ( "net" "fmt" ) var ( maxRead = 1100 msgStop = []byt...

3406
来自专栏技术之路

sqlserver 的事务和c#的事务

sql的事务 1 sql 2 create database model 3 go 4 use model 5 go 6 create table ...

1929
来自专栏我和未来有约会

Silverlight制作逐帧动画 v2 - part2

Silverlight制作逐帧动画 v2 - part2 在这里完善了一下算法,加入了fps的机制进去。 private string[] ...

1896
来自专栏田超学前端

【微信小程序】c# 实现获取openid、session_key 服务端

5090
来自专栏自由而无用的灵魂的碎碎念

小项目分享---混色器

编写代码的同志们一般懂美术的就少了,偶也是,什么色轮、三维加色等等。虽然看过一些书籍(如内田广由纪的《配色基础原理》),不过还是一知半解的。

973
来自专栏码匠的流水账

zuul自定义SimpleHostRoutingFilter

zuul的SimpleHostRoutingFilter主要用来转发不走eureka的proxy,里头是使用httpclient来转发请求的,但是有时候我们需要...

1292
来自专栏木宛城主

曾今的代码系列——自己的分页控件+存储过程实现分页

项目里面的测试代码,仅供参考 LoginByAjax <title>Ajax登陆</title> <script src="Scripts/c...

1855
来自专栏菩提树下的杨过

Silverlight:利用异步加载Xap实现自定义loading效果

关键点: 1.利用WebClient的DownloadProgressChanged事件更新下载进度 2.下载完成后,分析Xap包的程序集Assembly信息 ...

18610
来自专栏张善友的专栏

通过SmtpClient发送Exchange会议邮件

看到C#中调用Outlook API 发起会议 ,这个完全可以用SMTP方式实现的,下面我的项目中使用的代码: 对于.NET而言,从2.0开始,发邮件已经是一件...

1949

扫码关注云+社区