这个变态级难度的小游戏,只为证明:人类的聪明没那么简单

先别说话。

给自己几分钟的时间,玩一下这个游戏,看看是否能顺利通关。几分钟就好,别为难自己。因为普通人通关平均需要20分钟。

游戏地址:https://high-level-4.herokuapp.com/experiment

推荐在PC端打开,手机端玩不了。如果不在电脑前,可以看看我们试玩的动图:

这是什么鬼?简直有点变态级的难度。

从某种程度上说,你在体验AI打游戏的感觉。

最近几年,大家一方面赞叹AI自行学会了玩打砖块等雅达利游戏,而且达到甚至超过了人类玩家的平均水平。

另一方面大家也质疑说,人类看一眼就能上手的游戏,AI却需要学习非常久的时间。为什么机器和人类之间的学习效率差这么多?

加州大学伯克利分校有一组科学家,就正在研究这个问题。

区别可能在于:人类带着一大堆从现实世界中得来的先验知识(prior knowledge)进入游戏,大大提高了决策效率。

什么意思?

还是基于开头让大家试玩的小游戏,让我们跟随伯克利的研究人员们,一起来感受下。

定量分析

来,开始实验。

先看看游戏原始的样子。

即便你不玩游戏,也能看出来,玩家应该躲避粉色的怪物、地刺路障,然后通过跳跃和爬梯子,拿到右上角的钥匙,接着打开左上角的大门。

如果你想试玩,地址在:https://dry-anchorage-61733.herokuapp.com/experiment

实验表明,人类很快就能上手这个游戏。平均完成时间1.8分钟,平均死亡次数3.3,游戏路径探索达3011种。

好,接下来加大难度。

去掉语义

梯子的形状,就是它的语义。人类看到梯子的形状,就能联想到可以攀爬。语义的重要性几何?实验方法很简单,去掉游戏中各种物体的细节,只用统一的色块来表现。

整个游戏就变成下面的样子。

在这种游戏中,人类完成游戏的平均时间增加到4.3分钟,死亡次数增加到11.1次,游戏路径探索达7205种。

试玩地址在此:https://boiling-retreat-38802.herokuapp.com/experiment

你有没有觉得其他玩家弱爆了?其实你忽略了一点。由于文章的表述结构,你先玩了正常版的游戏,但如果你并不知道游戏的原始设定,就能感觉出来遮蔽语义信息的游戏有多难。

因为在原始游戏中,钥匙和大门都可见。人类自然能想到先获取钥匙,再去开门。在遮蔽语义的版本中,玩家无从获知这种信息。

120位参与者中,只有42位在抵达“大门”(蓝色方块)之前,先取得了“钥匙”(橙色方块)。而且与原始游戏相比,玩家获取“钥匙”后抵达“大门”的时间更长。

这个结果表明,在没有语义的情况下,人类无法推断奖励结构,从而显著增加了探索的时间。

为了进一步量化语义的重要性,接下来这个实验不是简单的遮蔽,而是改变了语义。

游戏中粉色的怪物和地刺路障,替换成有正面含义的金币和冰淇淋;而梯子、钥匙和大门,分别被替换成有负面含义的火焰、地刺路障和粉色怪物。

这样一来,参与实验的玩家花了更长时间来过关。平均耗时6.1分钟,死亡次数13.7次,游戏路径探索达9400种。这个结果表明,语义翻转比遮蔽更具迷惑性。

混淆物体

虽然上述遮蔽之后,游戏里的物体都没有传达语义,但它们与背景截然不同。人类很容易推断这些引人注意的物体是子目标,展开比随机搜索更有效的行动。

为了测试这一点,小游戏的迷惑性进一步升级。平台上每个空间位置,都使用了不同的色块填充,然而大多数都是毫无作用的色块。代表实际物体的色块,位置和之前相同。当然,如果你是第一次玩这个游戏,这次绝对要懵逼一下了。

游戏画面如图。

试玩地址:https://high-level-1.herokuapp.com/experiment

实验结果:人类玩家平均通关时间是原来的四倍,达到7.7分钟;死亡次数达到20.2;游戏路径探索达12232种。找到钥匙与打开门之间的耗时进一步增加。

抹平功能可视性

到目前为止的种种“折腾”,已经说明推断出游戏的基本奖励结构,并不是一件易事。不过整个游戏仍然对人类玩家有利。游戏画面中还是能很清楚的看到,各个平台的位置,以及平台之间的相互连接,黑色背景出卖了这一切。

怎么办?

抹平功能可视性的一种方法,就是用随机纹理填充空白的区域。这些纹理与用于渲染梯子和平台的纹理相似。再强调一下,这次实验中各种物体的语义清晰可见。

试玩地址:https://fierce-sierra-47669.herokuapp.com/experiment

实验结果:人类平均通关时间4.7分钟,死亡次数10.7,游戏路径探索达7031种。这个结果与遮蔽语义时相比,差异不大。可以认为,可视性与语义同等重要。

一旦人类玩家意识到,可以站在或者攀爬特定的纹理,就很容易通过相似性识别其他的平台和梯子。看起来相同的事物,人类会认为具有相同的性质。

接下来继续提升难度。

这次每个平台和梯子的纹理全都不同了。人类再也无法用相似性展开推断。

试玩地址:https://high-level-3.herokuapp.com/experiment

这一次,人类平均通关时间7.6分钟,死亡次数14.8,游戏路径探索达11715种。结果表明,视觉相似性是人类在游戏中第二类重要的知识。

改变交互

以上,都是与视觉相关的研究。在这个游戏中,玩家还得知道如何与不同的物体交互。例如遇到粉色的怪物可以跳过去,遇到梯子可以按上键⬆️往上爬。但是,深度强化学习控制的智能体Agent并没有这种先验知识,必须一点点摸索如何与物体交互。

为了测试这种先验知识的重要性,一个新的游戏版本被创建了。我们先不说到底哪里有了改动,你可以自己试试看。

试玩地址:https://calm-ocean-56541.herokuapp.com/experiment

如上面动图所示,单纯按上键是没办法爬梯子的,在按住上键的同时,还得交替反复按下左键和右键。

与原版游戏相比,这个小改动将平均游戏时间延长到3.6分钟,死亡次数6,游戏路径探索达5942次。

终极挑战

最后,综合上述种种,就产生了开头提到了变态级难度的小游戏。

人类完成这个小游戏的平均时间增加到20分钟,死亡次数达40,各种游戏路径探索的次数提高了9倍。

这个游戏实在是太难了,玩家放弃的比例非常高。

但这还不是最难的,其实伯克利的研究人员还搞出一个更难的版本。在那个版本里,重力方向做了翻转,按键的响应也做了随机的映射。

即便是玩过无数次的研究人员,也很难完成这个版本。

而且,他们也没有放出这个版本的试玩地址。(如果哪位老师自己探索出来了,希望留言给我们)

当然还有一个重力方向旋转90°的版本,可以挑战一下。

地址:https://tranquil-earth-53211.herokuapp.com/experiment

讨论

这篇论文的实验结果显示,强化学习算法再强,如果想像人类一样高效完成奖励稀疏的任务,还要从人类的认知中学习很多东西。关于物体的先验知识,就在打游戏这个奖励稀疏的任务上帮了人类的大忙。

不过,有强大的先验也不一定总是好事,有时候会限制探索范围,以后的研究也应该注意在某些环境中,对探索少加约束。

另外,人类对于游戏的先验知识其实远不止这篇论文所探讨的“物体”,人们在打游戏时还会假设游戏有目标,右键上键通常是往前走等等。这些先验,也都很值得探索。

研究人员最后根据实验,对先验知识的分类和重要性进行了排序。如下图所示:

这项研究的论文Investigating Human Priors for Playing Video Games发表在ICLR 2018 Workshop上。

论文一作Rachit Dubey是伯克利计算认知科学实验室的博士,其他作者也都来自伯克利,包括计算机系的博士生Pulkit Agrawal和Deepak Pathak,以及一作和三作的导师:计算认知科学实验室主任Tom Griffiths和Alexei Efros。

视频讲解

关于这篇研究论文,如果你有兴趣,还可以看看这段讲解视频。

视频内容

原文发布于微信公众号 - 量子位(QbitAI)

原文发表时间:2018-03-09

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏磐创AI技术团队的专栏

热点 | 四月最佳Github项目库与最有趣Reddit热点讨论(文末免费送百G数据集)

1272
来自专栏大数据文摘

自带迷幻剂技能的小贴纸:忽悠神经网络,让它将一切都当作烤面包机!

1833
来自专栏大数据文摘

利用Python进行深度学习的完整入门指南(附资源)

2097
来自专栏AI科技评论

视频 | 进化策略让AI开挂,玩游戏不断给自己续命

针对部分具有挑战性的深度强化学习问题,比如雅达利游戏,已经有研究表明,进化策略(Evolution Strategies)是强化学习的可行替代方案。

982
来自专栏CVer

三个牛人教你怎么高效阅读论文

写论文做研究的时候少不了要看论文,但是很多时候看过同类的论文之后发觉什么也没记住,本文将有三位牛人想大家分享他们在阅读论文的一些技巧,希望对大家有用。

1413
来自专栏AI研习社

2018 机器阅读理解技术竞赛冠军 Naturali 分享问答系统新思路

AI 研习社按:7 月 28 日,由中国中文信息学会和中国计算机学会联合举办的第三届语言与智能高峰论坛于北京语言大学举办,Naturali 奇点机智团队作为 2...

851
来自专栏人人都是极客

自动驾驶汽车传感器融合系统及多传感器数据融合算法浅析

“自动泊车、公路巡航控制和自动紧急制动等自动驾驶汽车功能在很大程度上是依靠传感器来实现的。重要的不仅仅是传感器的数量或种类,它们的使用方式也同样重要。目前,大多...

1.2K7
来自专栏AI科技评论

英特尔IDF PPT揭秘: 高性能计算和深度学习发展的趋势

进行深度学习的训练向来不被认为是CPU的强项,但是以CPU研发见长的英特尔并不甘心屈服于这个定位,在过去的几年里,英特尔及其合作伙伴一直在探索用CPU来进行快速...

3584
来自专栏CreateAMind

狂扫谷歌tesla的开源自动驾驶!

1901
来自专栏量子位

Google大脑工程师详解:深度学习技术能带来哪些新产品?

量子位 | 李林 整理编译 提到深度学习,你可能会想到认猫、认脸,或者下围棋、翻译……其实,这项技术还能用在很多你意想不到的地方。 那么,“深度学习的最新进展能...

3397

扫码关注云+社区

领取腾讯云代金券