前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >AI成功试水的第一款街机游戏是什么样子

AI成功试水的第一款街机游戏是什么样子

作者头像
HuangWeiAI
发布2019-07-30 15:07:15
9410
发布2019-07-30 15:07:15
举报
文章被收录于专栏:浊酒清味

2016年,google旗下deep mind团队完成了一个历史性的壮举,其开发的AlphaGo程序以 4:1的结果战胜了世界围棋冠军李世乭,成为了举世闻名的事件。早在2015年,AlphaGo的分布式版,以5:0击败了欧洲冠军华裔法籍职业棋士樊麾二段,为接下来的一系列动作铺好了道路。

同样是2015年,同样是deep mind团队,他们开发的另一个玩游戏的程序也取得了突破性的进展。这个进展,从研究人工智能的学术界看来,也是一个举足轻重的历史性标记。而其玩的游戏便是今天的主角Breakout,一种打砖块游戏:

这是一款由雅达利开发及发布的街机游戏,是引用1972年雅达利街机游戏《乓》创作,于1976年4月发布2,并且已洐生了不少打砖块作品。我们也或多或少接触过相关延申作品,有的是在小霸王学习机上,有的是在电子词典之类的游戏机上,成为了我们童年美好记忆。

游戏开始时,画面上方显示几排砖块,每个砖块会有颜色的不同。游戏开始后,玩家必须控制一块长长的平台左右移动用来接住球使其反弹。当那个球碰到砖块时,砖块就会消失,而弹又会反弹回来。当玩家没有能用平台将球反弹的画,那么玩家就会输掉这个回合。

很多变种的游戏会添加一些特殊的道具,有的会让平台变长,有的会增加一个球,还有的坑爹的会让平台变短,哈哈,这些都让人怀念。

玩家的最终目的时清除所有砖块,但是我们不可能让程序去理解这个抽象的目标。这时候,游戏过程种的得分机制就显得尤为关键。比如游戏规定,玩家破坏黄色砖块可以获得一分,绿色可以获得三分,橙色能得五分,而红色可以拿到七分。另外,球的移动移动速度会在接触砖块4次、接触砖块12次、接触橙色砖块和接触红色砖块后加速。

AI时如何玩这款游戏的呢?秘诀就是上面说的得分,我们用强化学习的标准术语叫做奖励。强化学习中的程序会因为选择的动作不同,会在环境中不断获得奖励。有的动作造成的奖励时好的,比如接到了小球,之后小球碰到了砖块获得游戏分数;有的动作造成了没有接到小球,于是游戏判断你失败,这就是一个不好的奖励。一般来说,强化学习就是根据奖励的不同,尽量强化那些可以获得高奖励的动作同时避免获得低奖励的动作。如此,我们希望AI刚开始在什么都不会的情况下首先学会接住小球,避免没有接到小球而游戏失败。之后我们希望AI可以不断接到小球,让小球碰到所有的砖块,拿到更高的分数。

其实上面的强化学习的基本算法早在九十年代就已经被人提出并应用到实际当中,但是为什么到2015年才重新火起来呢?这里就不得不提一下神经网络,人们正是将强大的神经网络嵌入强化学习之中,才获得了如此多的成就,包括我们文章开头提到的AlpahGo。

那么2015年deep mind开发的AI程序玩这个游戏是什么样子的呢?

一开始,AI勉强能接住小球几次就挂了:

接着AI可以一直接到小球,让游戏不断进行:

最后,AI竟然成为了大师级别的玩家:

没想到吧,AI最终成为了打砖块游戏无敌手!人类玩家纷纷颤抖!在大约600轮的强化学习迭代之后,AI不但学会了预判球的落点轨迹去接球,还学会了要把弹球绕过下层砖块,直接打到画面最顶上,连续消除顶部方块的策略,并能完美执行。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-05-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 浊酒清味 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档