首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

惊呆!Alpha狗身世大披露,前生竟是“游戏小霸王”!

AI起跑线原创文章

上回我们说到,人工智能界的鄙视链:在Alpha狗看来,“深蓝”根本不是AI。说——

深蓝是被人类“教会”下棋的;而Alpha狗则是看着人类下棋,“看会”的。

那么,学霸Alpha狗究竟是怎么“看会”了下棋的呢?

这先要从Alpha狗的身世说起。

2014年,Google以6.5亿美元的价格收购了一家英国创业公司DeepMind Technologies,并改名“Google DeepMind”,成为Google的一个研发部门,专门研究神经元网络技术。

DeepMind Technologies成立于2010年,其创始人戴密斯•哈萨比斯(DemisHassabis)从小就是国际象棋天才。

2015年,DeepMind团队研发的人工智能“DQN”(Deep-Q-Network的简称)引起了世人的瞩目。人们关注它的重要原因是——

和谷歌之猫一样,在没有人类教授的情况下,计算机具备了“自我学习并变得越来越聪明”的能力。

所不同的是,谷歌之猫是通过图像识别证明了这种能力的存在,而DQN是通过玩儿电视游戏。

美国游戏公司Atari开发的电视游戏“Atari2600”,是早年经典的家庭游戏机。那个年代玩儿游戏,还需要往机器上插入一个比磁带还要大一些的塑料游戏卡盒。

其中,弹球消砖块(Breakout)和吃豆人(Pac-Man)就是两款最为经典的游戏。

DeepMind发表的论文显示,他们让DQN玩儿了Atari2600里面的49款游戏,发现对于多数游戏,DQN只需几天时间,就能超越人类高级玩家的水平!

这是如何实现的呢?DeepMind当时就公开了DQN玩儿弹球消砖块游戏的成长过程:

DQN刚开始玩儿的时候,当然玩儿不溜,甚至都无法接住那个弹球。终于,有一次恰巧接住了弹球并使之反弹消除了砖块。这时候,玩家的积分就会上升,DQN也因此获得了“回报”(Reward)。

也就是说,DQN注意到只要接住弹球,就能得到积分上的奖励,于是就开始努力去接住这个弹球。

玩儿了200局后,DQN接住弹球的成功率已经上升到34%;300局后,它已经超越了人类高级玩家的水平;而到400局的时候,它竟然学会了获得高分的诀窍:

首先在砖墙中开一个小洞,反弹小球让它通过这个小洞后,弹球就能在砖墙的背侧多次反弹,从而消除更多的砖块!

掌握这个诀窍后,DQN活脱脱升级成了一个可以轻松完爆人类玩家的“游戏小霸王”。

在过往,人们更能接受的事实是,对于单纯反复的机械操作、追求正确性的事情,计算机可以比人类做得更好。

但是,DeepMind的这次研究成果显示,人类根本没有教授DQN任何关于弹球消砖块这个游戏的玩儿法、规则和窍门,但它却自行地达到,并超越了人类的水平!

这让我想起我小时候的一件事情。当时去一个亲戚家玩儿,那时候电视游戏机还不普及,但他们家就有一台。

那天亲戚的小孩儿正好不在,大人怕我无聊,就把游戏机和电视帮我接好,让我自己玩儿。我随便选了一个游戏,也是类似于俄罗斯方块那样的消砖块游戏。

那次,没有人教我。我也是先随便把弄了几下,一开始game over得很快,后来慢慢发现只要让砖块横向连在一起,那一行砖块就会消掉,那一瞬间,我的游戏积分就会增加。

发现这一点后,我就开始想方设法地去让砖块更多地连在一起,更多地消掉……因为,这样我就能获得更高的积分。

几局下来,我发现我能玩儿更长的时间,每局的分数也在不断提高。之后,我就开始一局一局地挑战自己的最高分纪录……

也就是说,一个小屁孩儿玩游戏的学习过程,被DQN证实,在计算机身上也能实现。

这一结果,让世人震惊,也让其背后的“神经元网络”、“深度学习”和“强化学习”等技术受到人们的瞩目。

一年后,Alpha狗横空出世。

(关于Alpha狗的今生是如何炼成的,且听下回分解。)

-End -

上一篇:人工智能鄙视链:在Alpha狗看来,“深蓝”根本不是AI

推荐两个不错的公众号:

我们是——

人人能懂的人工智能学习小组

我们还在预热中,赶紧上车!

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20171215G0HEYQ00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券