好奇心“害死”人工智能：研究人员引导其沉迷游戏

文章来源：企鹅号 - 黑乎乎的悲漠

如果我们教导机器人如何捕鱼，那么其有可能成为一台捕鱼机器人。但如果我们赋予其好奇心，那么人工智能则会像人一样整天沉迷于电视节目与电子游戏。

来自Open AI（由Elon Musk联合创立的智库）的研究人员们最近发表了一篇研究论文，其中详细介绍了一项关于好奇心驱动学习的大规模研究成果。在论文中，他们展示了如何在没有“外在奖励”的条件下训练人工智能模型，从而实现自发的技能学习能力。

基本上，研究人员们已经找到了在不提供明确目标的前提下，引导人工智能执行任务的方法。根据该团队发布的白皮书所言：

这事并不像听起来那么神秘。发展心理学家将内在动机（即好奇心）作为早期发展阶段的主要驱动因素：婴儿似乎就是以无目标探索方式学习今后在生活中具备实用性的技能。还有很多其它例子：无论是游玩《我的世界》还是参观动物园，玩家无需外在奖励即会主动游历各个地点。

其中的基本思路在于，如果我们能够让机器在不存在内置人工编码奖励的条件下自主进行环境探索，那么我们将更接近真正的自动机器目标。这亦可能会对救援机器人开发乃至太空探索等任务产生令人难以置信的重要影响。

为了研究内在动机型深度学习的影响，研究人员开始将着眼点转向电子游戏。由于存在着固有的规则与奖励，这些环境非常适合人工智能研究工作。开发人员可以要求人工智能游玩《Pong》，并设定“不要失败”等特定条件，从而敦促其考虑如何（在理论上）获得更高得分。

当研究人员利用雅达利游戏合集、《超级马里奥兄弟》以及《Pong》等环境中进行实验时，他们发现不具备明确目标的机器代理仍然能够发展自己的技能与学习能力……只是有时候结果比较复杂。

好奇心驱动下的机器代理设定了自己的规则。其有动力体验新鲜事物，因此在游玩经典的《打砖块》游戏时，其出于好奇心的驱动而有着良好的表现：

被打掉的砖块越多，剩余砖块构成的图案就越复杂，这使得机器代理更好奇地进一步加以探索。在这种情况下，得分反而成为一种副产物。此外，当机器代理用尽命数后，砖块会再次被重置为固定的统一结构。由于已经多次看到相同的结构，因此机器代理认为其具有高度可预测性，并能够在下一轮游戏中更活跃地避免再次遭遇失败。

另外，人工智能还通过了多达11关《超级马里奥兄弟》游戏，这表明即使不设定任何目标，好奇心驱动下的人工智能也可以带来出色的表现。

不过此次研究带给人工智能社区的并不完全是好消息——拥有好奇心的机器与人类似，同样很容易分心。研究人员将两套好奇的机器人引入《Pong》游戏以进行对抗时，它们很快自行调整了目标——希望通过比赛探索双方能够最多连续完成多少次截击。

此外，研究团队还测试了一项常见的思想实验，即“嘈杂电视问题”。根据白皮书中的内容来看：

我们的想法是，将电视的随机频道切换作为本地熵源，并将其与机器代理的行动联系起来，应该能够对其产生强烈的干扰性。我们希望单纯验证这一思想实验，只是在其中添加了电视以及频道切换的因素。

事实证明他们的猜测是正确的，人工智能在尝试理解行动与电视节目间的关联时，出现了显著的效能下降。

从此次实验来看，这些拥有好奇心的机器学习代理似乎是我们见到过的，最像人类的人工智能。那么，大家打算如何理解这一切？

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货