DeepMind给最厉害的AI测了IQ，猜猜能得多少分

文章来源：企鹅号 - 挑客服

我们总时不时地会看到AI研究的进展，而每一次进展都会刺激到很多人的神经。在担心被AI替代的人们眼中，AI就像一只怪物一样在野蛮生长，又像一只侵略军在大步逼近。然而，DeepMind对最厉害的AI的IQ测试结果，让人轻松不少。

DeepMind要给AI测IQ

有人说，AI的智商，跟三岁小孩差不多。

智商简称IQ,是普遍被接受的评价人类智商的标准。既然说AI的智商跟三岁小孩差不多，那么究竟是多少呢？测测就知道了。

自 AlphaGo 面世以来，AI 在解决一些复杂的、策略性的问题上，能力已经得到了证明。但如果想要更像“人”，AI 必须也拥有像人类一样的抽象理解能力。

还记得小时候做过的智商测试题吧？比如这个：

还有这个：

先不说是否科学，这些智商测试题的意图还是很明显的，主要为了检测人们在计算、逻辑推理以及抽象理解等方面的能力。

给 AI 测智商也一样。只不过现在 AI的计算能力和推理能力就不用说了，所以就看抽象理解能力了。Google 旗下的 AI 科研机构 DeepMind 认为，“基于神经网络的机器学习模型取得了惊人的成绩，但想要衡量其推理抽象概念的能力，却非常困难。”

为了搞清楚现在 AI 的抽象理解能力怎样，DeepMind 还真给 AI 设计了一套测试题：

这套试题借鉴了人类 IQ 测试中著名的瑞文推理测验：先给一组图片，然后找出符合其“演进”规律的图片。

（图片来源：DeepMind 论文）

在测试中，人们需要根据日常生活中学习或掌握到的一些基本原则，来理解和分析测试中出现的简单图案，并要找到正确的答案。比如，小树苗长会成一棵大树，数字按照一定逻辑的进行。

这些就是我们从生活中提炼出来的抽象“演进”(progression)，一般人理解起来都没什么问题。这就是人类的抽象理解能力。

“但是，我们现在还没有找到办法，能让 AI 也可以从 ‘日常经验’中学到类似的能力。” DeepMind 在论文中说。

“不过，我们依然可以很好地利用人类的这种视觉抽象逻辑测试，来设计一个实验。在这个测试中，我们并不是像人类测试那样，考察从日常生活到视觉推理问题的知识转移，而是研究AI在将知识从一组受控的视觉推理问题，转移到另一组问题的能力。”

说白点儿就是：DeepMind 先给 AI 一组由三角形构成的图像的视觉推理题库，训练得差不多了，再出一组由方形构成的视觉推理题，让 AI 去回答，看它是能随机应变、举一反三，还是只学会了三角形，换个图形就不行了。

机器人仍需努力

DeepMind找来了当前最优秀的一些AI模型，它们在IQ测试中表现并不怎么样。对于担心 AI 取代人类的朋友，看完这一部分实验结果，终于可以释然了。

如预期的那样，当训练集和测试集所采用的抽象元素相同，比如训练三角形、测试三角形时，多个 AI 模型都表现出超过75%的准确率。

但是，当测试集和训练集出现变化，甚至只是把黑点换成较暗的浅色圆点，AI 就会像无头苍蝇一样，失去了判断能力。

（图片来源：DeepMind 论文）

上面这些是深度神经网络领域的AI的IQ测试情况，图中可以看到， Blind ResNet 在一组测试中只得到22.4%。

ResNet (Deep Residual Network)，即深度残差网络，它的提出曾被形容为CNN（卷积神经网络）的一个里程碑式事件。ResNet在网络深度上比其他模型提升了n个量级，更重要的是它的残差学习方式改良了模型的架构，因此一出现就碾压众前辈。

而测试中表现最好的 WReN 模型，则是 DeepMind 在关系网络模型基础上改良的版本。它增加了对不同图像组合之间关系的分析，并可以对这类 IQ 测试的各种可能性结果进行评估。

（PS：对于这些神经网络领域的AI模型及其作者，这个结果并没什么，毕竟它们被设计的初衷不是用来测智商的，而是要解决某些特定问题的。）

不过，DeepMind 针对这个测试的逻辑，对一些模型进行改良，而改良后的模型的表现有明显提升。

比如，在一些模型中，DeepMind 加入了元标记（meta-targets) 的辅助训练方法，让模型对数据集背后体现出的形状、属性（形状的数量、大小、颜色深浅等）以及关系（同时出现、递减、递增等）进行预测，当这部分预测准确时，最终回答的准确率就明显提升，预测错误时，回答准确率明显下降。一些极端情况下，模型回答的准确率更是从预测错误时的32%提升至了87%。

（图片来源：DeepMind 论文）

DeepMind 表示，他们设计这个实验的目的不是为了让 AI 能够通过这种 IQ 测试，而是关注 AI 泛化能力的问题。

泛化是什么意思呢？就是模型能很好地拟合以前未见过的新数据的能力，这是机器学习界的术语。也可以粗暴地理解成一个 AI 模型能否通吃各类场景中。AI 的泛化能力越强，离啥都能干的所谓“通用人工智能”就越近了。

DeepMind 在博客中最后这样说：

研究表明，寻找关于泛化问题的普遍结论可能没有任何意义。我们测试的神经网络在某些泛化方案中表现优秀，但是其他方案下却很糟糕。

诸如所使用模型的架构、模型是否被训练从而能解释答案背后的逻辑等一系列因素，都会对泛化效果带来影响。而在大多数情况下，当需要处理过往经验从未涉及的、或完全陌生的情景时，这些 AI 的表现很糟糕。

这样看来，AI 还有很长的路要走啊。

发表于: 2018-07-252018-07-25 18:35:46
原文链接：https://kuaibao.qq.com/s/20180725G1J1OO00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

DeepMind给最厉害的AI测了IQ，猜猜能得多少分

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐