AI瑞文智力测验超美国人平均IQ,计算模型用类比推理解决视觉问题

【新智元导读】作为广泛应用于无国界的智力/推理能力测试,瑞文标准推理测验可以测验一个人的观察力及推理能力。在此前一项广受争议的对超过 80 个国家和地区进行的 IQ 调查中,曾得出了所谓的“国家(和地区)平均 IQ”。美国西北大学的研究团队开发出了一个新的模型,能够在标准智力测试中超过到美国人的平均 IQ 水平。这项研究构建了用类比推理解决视觉问题的模型,研究者表示:“目前绝大多关于视觉的 AI 研究都集中在对象识别或场景标记,而非推理。但是识别只有能够为后续推理所用才有其意义。我们的研究对于更广泛地认识视觉推理有重要意义。”

AI 模型在瑞文推理测试中表现超过了美国人的平均水平

前一段时间,美国西北大学的研究团队开发出了一个新的计算模型,能够在标准智力测试中达到人类水平。这项研究对于让 AI 像人类那样“看”并理解这个世界有重要意义。

让我们先看看什么是“人类水平”——研究所用的智力测试是瑞文标准推理测验(Raven's Standard Progressive Matrices,简称 SPM),由英国心理学家瑞文(J.C.Raven)于1938年创制,在世界各国沿用至今,用以测验一个人的观察力及清晰思维的能力。它是一种纯粹的非文字智力测验,所以广泛应用于无国界的智力/推理能力测试。

从 2002 年到 2006 年,英国心理学教授 Richard Lynn 和芬兰政治学教授 Tatu Vanhanen 在超过 80 个国家和地区进行了一次 IQ 调查,得出了所谓的“国家(和地区)平均 IQ”——这一结果引发了大量争议,对这一结果的诠释需要非常小心。

这是在调查中排名前 10 位的国家和地区,其中有不少名词是并列的。我们可以看到,中国香港和新加坡的国家平均 IQ 最高,达到 108。中国的国家平均 IQ 是 105,和日本并列第三。排在第二的是韩国(106)。美国的国家平均 IQ 是98,排在第9。

本文末尾,我们附上了 80 多个国家和地区的国家平均 IQ 排名。

图像识别只有能够为后续推理所用才有其意义

模型的开发者是西北大学 McCormick 工学院的电气工程和计算机科学教授 Ken Forbus 和前西北大学心理学博士后研究员 Andrew Lovett 。这一研究发表在了《心理学评论》(Psychological Review)上。

Ken Forbus 介绍说:“相对于成年美国人来说,该模型能够达到第 75 百分位,高出平均水平。人类感觉困难的问题,模型一样会感到困难。这显示出它具有和人类认知相似的一些特性。”

Ken Forbus

Forbus 的实验室开发了一个称为 CogSketch 的人工智能平台,能够解决视觉问题和理解图形,并给出即时、互动的反馈。新模型就是在这一平台上开发而成的。

CogSketch 还引入了一个基于西北大学心理学教授 Dedre Gentner 的结构映射理论的类比计算模型。Gentner 因该理论获得了 2016 年的 David E. Rumelhart 奖。

解决复杂视觉问题的能力是人类智力的重要特征之一。开发具有这一能力的 AI 系统体现了符号表征与类比在视觉推理中的重要性,并可能弥合计算机同人类认知之间的鸿沟。

上图是瑞文标准推理测验中的一道题目。根据题目中所展示的元素之间的关系,答题者被要求在空缺中填出应有的图形组合,选项一般有 6 - 8 个。

聪明如你,一定闪电般做出了选择。

这两道题是测试中比较难的——无论是对于人类还是对于 AI 来说,但它们无疑难不住关注新智元的你。

有兴趣做一套瑞文测试?可以去这里:http://www.ravensprogressivematricestest.com。一共有 60 道题。

“瑞文测试是现有的对心理学家所说的“流体智力”——即抽象思维、推理、模式识别、解决问题和判别关系的一般能力——的最佳测试方法。”Lovett 说,他目前在美国海军研究实验室担任研究员。“我们的研究结果显示,对流体智力来说,灵活运用关系表征,并进行对比和再次阐释的能力非常重要。”

使用和理解复杂关系表征的能力是高级认知(higher-order cognition)的关键。关系表征连接了实体和概念,比如“钟表在门上方”或“压力差导致了水的流动”。这类比较对于制造和进行类比至关重要。而这正是人类赖以解决难题、做出取舍以及描述他们身边世界的关键方法。

Forbus 说:“目前绝大多关于视觉的 AI 研究都集中在对象识别或场景标记,而非推理。但是识别只有能够为后续推理所用才有其意义。我们的研究对于更广泛地认识视觉推理有重要意义。”

构建用类比推理解决视觉问题的模型

模型的开发者 Ken Forbus 和 Andrew Lovett 在《心理学评论》(Psychological Review)上发表了研究报告,题为《Modeling Visual Problem as Analogical Reasoning》。

研究者表示,类比也许是人类智能的一个里程碑。通过比较两个领域并确定其结构的共同点,可以推导出有用的推论、得出有启发性的抽象结果。类比可以驱动科学发现,当年 Rutherford 就曾提出的电子围绕着原子旋转,就像卫星围绕着太阳旋转一样。但它也在我们的日常生活中扮演了重要的角色,让我们将过去学习到的经验应用到当下,比如,解决物理问题,选择电影观看或考虑购买新车一样。

类比的力量在于它的抽象本质。我们可以比较两种截然不同的情景,基于其关系结构的共同点,将我们在一种场景中学到的东西应用到另一种场景中。鉴于这种高度抽象的思维方式及其在人类推理中的重要性,当研究人员想要测试个人的推理能力时,他们往往依赖于具体的视觉任务,这可能令人感到意外。

图1

图1描述了 Raven Progressive Matrices (RPM)智能测试中的一个问题例子。这一测试要求参与者在一个三行三列的矩阵中对图像进行比较。RPM 被设计用于衡量被测试者的演绎能力(也就是在复杂的模拟环境中发现模式的能力),这一术语近期被另一个叫“流体智能”的词取代。近10年来,这一术语依然非常受欢迎,因为在预测被测试者的行为表现商,它取得了较大的成果,而且不仅是在视觉测试集,还包括口语的和数学的数据集等。

图2

一个视觉测试为什么能在衡量通用的问题上会有如此好的效果?解决问题?研究者认为,去掉其固有的本质,RPM测试了个人进行高效的类比的能力。RPM与类比之间的联系在图 2 中得到了良好的证明。

上图展示了 RPM 测试题(模拟题)的“智能考察点”,即所谓的 Carpenter rules (Carpenter 等,1990),以及研究者所开发的模型在解题时所采取的策略。

在这种分析中,视觉(或者几何学)、口语和数学的类比方法都围绕着 RPM 进行聚合,这意味着,二者之间有着强大的关联,所以从整体上能对二者进行衡量。确实,RPM 能被看成是一个复杂的几何学类比问题,其中被试者必须定义首先出现的两张图片和顶层最上面一张图片之间的关系,进而计算出一个能在底部产生类比联系的图像。与这一说法相一致,Holyoak 和同事展示了,在进行类比的地图绘制和检索时,高的 RPM 表现要求更少的协助。

此外,一项脑成像研究的元分析发现,言语类比,几何类比和矩阵问题产生了可能与关系推理相关的常见脑区,也就是左侧前额叶前额叶标记。

上图展示了 RPM 测试题(模拟题)的“智能考察点”,即所谓的 Carpenter rules (Carpenter 等,1990),以及研究者所开发的模型在解题时所采取的策略。

研究者认为,支持有效类比的机制和策略也是支持视觉问题解决的机制和策略。为了测试这个说法,他们使用一个完善的计算模型,即结构映射引擎(RPM),对人力资源管理的绩效进行了模拟。虽然中小企业最初是为抽象类比而设计的,但越来越多的证据表明,其基本原则也适用于具体的视觉比较。RPM提供了测试大规模测类比在视觉思维中起作用的机会,并确定在SME提供的类比映射之外执行此任务所需的组件。特别是,考虑到感知和再现表现的双重挑战:你如何以支持抽象类比思想的方式来表达具体的视觉信息,当图像失调时如何改变表示?

上图展示了 RPM 测试题(模拟题)的“智能考察点”,即所谓的 Carpenter rules (Carpenter 等,1990),以及研究者所开发的模型在解题时所采取的策略。

这种方法还使研究者能够获得有关 RPM 的新洞见。通过去除模型执行某些操作的能力,并将由此产生的错误与人类成绩进行比较,研究者可以确定是哪些因素在让一道问题变得更容易或更难。如下所示,当(a)问题必须更抽象地表达或(b)需要复杂的重新表征操作时(complex rerepresentation),问题往往会变得更困难。最后,研究者关注的是,RPM 中的抽象思维和重新表征是否可能泛化到其他类比任务,从而成为人类智力的核心。

研究者详细地描述了 RPM,包括一个此前已经构建好的计算模型。之后,研究者提出了他们的理论框架,展示了类比推理如何更广泛地映射到 RPM和视觉问题的解决上。然后研究者描述了基于这一框架的计算模型。

国家平均 IQ 排名

编译来源:http://www.mccormick.northwestern.edu/news/articles/2017/01/making-ai-systems-see-the-world-as-humans-do.html

论文 DOI:http://dx.doi.org/10.1037/rev0000039

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2017-09-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

从GPU、TPU到FPGA及其它:一文读懂神经网络硬件平台战局

4814
来自专栏新智元

机器学习经典 Python Machine Learning 作者:新书计划曝光,分享实战经验

【新智元导读】机器学习入门经典读物 Python Machine Learning 的作者 Sebastian Raschka昨天在Quaro回答提问,分享技术...

4148
来自专栏FreeBuf

机器学习对抗案例 | 愚弄Google图像识别算法

2018年CES在美国拉斯维加斯召开,站在风口浪尖上的科技企业纷纷出动,在会场各显神通地展示自己的科技产品和各种智能算法。近年来,人工智能的浪潮不断拍打着 IT...

3289
来自专栏用户3246163的专栏

[脑书笔记]《整体性学习》3-拓展观点技术和记忆随意信息技术

这篇脑书继续讲整体性学习的第二部分整体性学习的技术,在《整体性学习》1里面在谈到信息进入大脑的顺序是,获取,理解,拓展,纠错和应用。这篇脑书笔记主要针对这5个步...

961
来自专栏大数据文摘

炮灰模型:女生如何选择追求者的数学模型?

1852
来自专栏AI科技评论

专访英特尔中国研究院院长宋继强:gcForest开源了,该用什么硬件来训练?

近日,周志华教授开源了其在深度学习领域研究的新型算法——gcForest。他在论文中提到,不同于DNN的神经网络结构,它是一种基于决策树集成的方法。同时相比DN...

2987
来自专栏人工智能头条

2015人工智能重大突破

1843
来自专栏量子位

分享实录 | 第四范式程晓澄:机器学习在推荐系统中的应用

主讲人:程晓澄 | 第四范式资深算法科学家 屈鑫 整理编辑 量子位 出品 | 公众号 QbitAI 9月20日晚,量子位邀请到第四范式资深算法科学家程晓澄,他以...

3595
来自专栏AI研习社

博客 | 一份中外结合的 Machine Learning 自学计划

看了Siraj Raval的3个月学习机器学习计划的视频,感觉非常好,地址:https://www.youtube.com/watch?v=Cr6VqTRO1v...

1071
来自专栏互联网数据官iCDO

用数据讲故事的诀窍 ——创建有说服力图表的5个步骤

用数据说话是当今社会的一个特别流行的词,它反映了当今人类面对这个信息爆炸时代所需要做出的必然的改变。 有预测截至2020年,整个数字世界的数据量将达到44ZB,...

4169

扫码关注云+社区

领取腾讯云代金券