学界 | DeepMind想用IQ题测试AI的抽象思维能力,进展还不错

大数据文摘编辑组出品

抽象理解能力一直是人类引以为豪的智慧来源。

阿基米德基于对物体体积的抽象理解,悟到了物体的体积与物体浮力之间的关系。这就是抽象推理的魔力。

基于神经网络的机器学习模型取得了惊人的成绩,但是测量其推理抽象概念的能力却是非常困难的。

虽然人工智能已经可以在策略游戏的对战中战胜人类,但是却在一些简单任务方面“无能为力”,特别是需要在新环境中发现并重新构建抽象概念。

举个例子,如果你只训练AI计算三角形的属性,那么,你训练的AI系统永远无法计算正方形或者其他没有训练过的形状的属性。

又比如下边这道简单的IQ测试题。

IQ测试给了DeepMind灵感,是不是也能用其测量AI的推理能力呢?

在以往解决通用学习系统努力的基础上,DeepMind最新论文提出了一种如何测量机器模型认知能力的方法,并表达了关于泛化的一些重要见解。

大数据文摘微信公众号后台回复“IQ测试”获得本论文。

要构建更好、更智能的系统,使得神经网络能够处理抽象概念,需要对其进行改进。

此方法的灵感来源于IQ测试。

创建抽象推理数据集

标准的人类智商测试中,通常要求测试者通过应用他们日常经验学习的原则来解释感知上简单的视觉场景。

例如,人类测试者可能已经通过观察植物或建筑物的增长,通过在数学课上学习加法,或通过跟踪银行余额获取利息增长的情况来了解“渐进”(一些属性能够增加的概念)。

然后把这些感性认识上升到理性认识,从而对测试题进行推断预测,例如图形的数量、大小,甚至沿着序列增加颜色强度。

现在机器学习仍然无法理解一些看似简单的“日常体验”,这意味着,人类无法轻易地衡量AI将知识从现实世界转移到视觉推理测试的能力。

基于此认知,DeepMind设计一个实验,希望使人类视觉推理测试得到很好的利用。这一研究不是从日常生活到视觉推理问题(如人类测试)的知识转移,而是研究知识从一组受控的视觉推理问题转移到另一组问题。

为实现这一目标,DeepMind构建了一个用于创建矩阵问题的生成器,涉及一组抽象因子,包括“渐进”之类的关系以及“颜色”和“大小”等属性。 虽然问题生成器使用了一小组潜在因子,但它仍然会产生大量独特的问题。

接下来,DeepMind约束生成器可用的因子或组合,以便创建用于训练和测试模型的不同问题集,以度量模型可以推广到留存的测试集的程度。

例如,创建了一组谜题训练集,其中只有在应用于线条颜色时才会遇到渐进关系,而在应用于形状大小时会遇到测试集。如果模型在该测试集上表现良好,它将提供推断和应用抽象概念的能力的证据,即使在之前从未见过进展的情况下也是如此。

有希望的抽象推理证据

在机器学习评估中应用的典型的泛化机制中,训练和测试数据来自于相同的基础分布,测试的所有网络都表现出良好的泛化误差,其中一些在略高于75%的情况下实现了令人印象深刻的绝对性能。性能最佳的网络明确地计算了不同图像面板之间的关系,并且并行地评估了每个潜在答案的适用性。DeepMind将此架构称为Wild RelationNetwork(WReN)。

当需要在先前看到的属性值之间使用属性值“插值”来推理,以及在不熟悉的组合中应用已知的抽象关系时,模型的泛化效果显著。然而,在“外推”机制中,同样的网络表现得糟糕得多,在这种情况下,测试集中的属性值并不与训练中看到的值处于相同的范围内。

这种事情发生在当训练集中有深颜色的物体而测试集中是浅颜色的物体的谜题中。当模型被训练来应用以前所见的关系(比如形状的数量)到一个新的属性(如大小)时,泛化性能也会更糟。

最后,当训练模型不仅预测正确的答案,而且还预测答案的“原因”(即应该考虑解决这个难题的特定关系和属性)时,DeepMind称观察到了改进的泛化性能。

有趣的是,在中性分割中(the neutral split),模型的准确性与它推断矩阵下正确关系的能力密切相关:当解释正确时,模型会选择当时正确的答案的概率为87%,但当它的解释错误时,性能下降到只有32%。这表明,当模型正确地推断出任务背后的抽象概念时,能够获得更好的性能。

更微妙的泛化方法

目前的文献关注于基于神经网络的机器学习方法的优缺点,通常是基于它们的能力或泛化的失败。DeepMind的结果表明,得出关于泛化的普遍结论可能是没有帮助的:测试的神经网络在某些泛化状态下表现得很好,而在其他状态下表现得很差。

它们的成功是由一系列因素决定的,包括所使用的模型的架构,以及模型是否被训练为其选择的答案提供可解释的“原因”。在几乎所有的情况下,当需要推断出超出其经验的输入或处理完全陌生的属性时,系统表现很差;在这个至关重要的研究领域为未来的工作创造一个清晰的重点。

相关报道:

https://deepmind.com/blog/measuring-abstract-reasoning/

今日机器学习概念】

Have a Great Definition

原文发布于微信公众号 - 大数据文摘(BigDataDigest)

原文发表时间:2018-07-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

十个生成模型(GANs)的最佳案例和原理 | 代码+论文

王小新 编译 原文作者:Sumeet Agrawal 量子位 出品 | 公众号 QbitAI 生成对抗网络(GANs)是一种能“教会”计算机胜任人类工作的有趣方...

6076
来自专栏机器之心

资源 | 最入门级别的机器学习图书:Chris Bishop发布在线新书

选自MBML book 参与:蒋思源 PRML 大神、微软剑桥研究院院长 Chris Bishop 与 John Winn 的机器学习新书 Model Base...

2926
来自专栏量子位

创新工场王嘉平开讲:low-level的计算机视觉

颜萌 整理编辑 量子位 出品 | 公众号 QbitAI ? 近日,在DeeCamp创新工场深度学习训练营期间,创新工场AI工程院副院长王嘉平开讲《low-le...

3175
来自专栏AI科技评论

澳门大学讲座教授陈俊龙:从深度强化学习到宽度强化学习 - 结构,算法,机遇及挑战

AI 科技评论按:2018 年 5 月 31 日-6 月 1 日,中国自动化学会在中国科学院自动化研究所成功举办第 5 期智能自动化学科前沿讲习班,主题为「深度...

1396
来自专栏深度学习自然语言处理

一文了解机器学习以及其相关领域(上)

阅读大概需要10分钟 原文作者 计算机的潜意识 链接 https://www.cnblogs.com/subconscious/p/4107357.html ...

3407
来自专栏大数据挖掘DT机器学习

程序化点击率预估(CTR)

指标 广告点击率预估是程序化广告交易框架的非常重要的组件,点击率预估主要有两个层次的指标: 1. 排序指标。排序指标是最基本的指标,它决定了我们有没有能力把最合...

5268
来自专栏专知

【ACMMM17获奖比赛论文报告】让机器告诉你谁是下一个明星?- Social Media Prediction分享(附下载)

导读 哪部电影将会爆红?谁即将获得格莱美大奖?明天哪些股票会涨?人们对未来有着许许多多的预测,这些预测不仅仅是为了娱乐,还能为那些预测正确的人带来真正的价值。因...

3465
来自专栏数据派THU

【独家】深扒Yann LeCun清华演讲中提到的深度学习与人工智能技术(PPT+视频)

本文长度为3000字,建议阅读10分钟 本文为Yann LeCun在清华大学做的关于深度学习与人工智能技术的演讲梗概。 姚期智先生引言: 非常荣幸来给大家介...

2257
来自专栏AI研习社

BAT资深算法工程师Deep Learning读书分享

「Deep Learning」是机器学习领域的重磅书籍,不管你有没有入手开始阅读,AI 研习社都希望给大家提供一个共同讨论、共同提高的机会。我们请来了曾在百度和...

37810
来自专栏AI科技评论

UC伯克利ICLR论文:论如何教强化学习模型骑自行车去金门大桥?

AI 科技评论按:本文的作者是来自加州大学伯克利分校人工智能实验室(BAIR)的博士生 Vitchyr Pong,他的主研方向为深度强化学习。在本篇博客中作者介...

1103

扫码关注云+社区

领取腾讯云代金券