【CVPR 2018热文】MIT提出“透明设计”网络,揭开视觉黑盒

【新智元导读】MIT和普朗克航空系统公司的研究人员合作,提出了一类“透明设计网络”,在李飞飞等人提出的视觉理解数据库CLEVR上达到了99.1%的准确率,他们设计的模块使用注意力机制,缩小了现有视觉理解模型在性能和可解释性之间的差距,相关论文已被CVPR 2018接收,你也可以用公布的代码构建自己的视觉理解模型。

根据看到的图像来回答问题,需要在图像识别和分类的基础上再进一步,形成对图中物体彼此关系的推理和理解,是机器完成复杂任务所需的一项基本能力,也是视觉研究人员目前正在努力攻克的问题。

最近,在视觉推理任务中,模块化的网络展现出了很高的性能,但它们在可解释性方面还多有欠缺。为了解决这个问题,MIT和普朗克航空系统公司的研究人员合作,围绕视觉注意力机制,提出了一组视觉推理原语(primitives),组合起来后得到的模型,能够以明确可解释的方式,执行复杂的视觉推理任务,在视觉理解数据集CLEVR上达到了99.1%的准确率

他们将这种设计模型的方法称之为“透明设计”(Transparency-by-Design,TbD),使用这种方法设计出的网络则称为“透明设计网络”(TbD-nets)。

CLEVR视觉问答任务示意:新提出的透明设计网络(TbD-net)组成了一系列的注意力掩码(mask),使其能够正确计数图像中的两个大型(Large)金属(Metal)圆柱体(Cyliner)。

由上可见,模块在输出时,将结果高亮显示,这样人类也能够检查每个模块的中间输出,并且从一个高的层次理解模块的行为,研究人员认为,这样的模型就可以说是“透明”的。他们在论文中写道,这些原语的输出的保真度(fidelity)和可解释性(interpretability),让我们在诊断所得模型的优缺点方面,获得了无与伦比的能力。由此,缩小了现有视觉理解模型在性能和可解释性之间的差距。

他们还表明,当提供给模型的数据集很小,而且其中含有从未见过的新数据时,模型也能很好地学会泛化表示。在CoGenT泛化任务中,得到了比现有最好技术提高了20个百分点的成绩。

相关论文《透明设计:缩小视觉推理中性能和可解释性之间的差距》(Transparency by Design: Closing the Gap Between Performance and Interpretability in Visual Reasoning),已经被CVPR 2018接收。利用开源代码,你也能构建视觉理解模型并在CLEVR数据集上测试,自己问问题,看看模型能否给出正确回答。

论文: https://arxiv.org/abs/1803.05268v1

代码: https://github.com/davidmascharka/tbd-nets

CLEVR:10 万图像+100 万问题,构建视觉理解基准

在介绍成果前,简单介绍一下这项工作的基础——CLEVR数据集。CLEVR是李飞飞领导的斯坦福人工智能实验室和Facebook AI Lab联合提出的一个视觉问题基准,结合语义和推理,测试机器的语言视觉(Language Vision)在语义(Syntax)和推理(Inference)方面的能力。

CLEVR 包含 10 万张经过渲染的图像和大约 100 万个自动生成的问题,其中有 85.3 万个问题是互不相同的,包含了测试计数、比较、逻辑推理和在记忆中存储信息等视觉推理能力的图像和问题。

CoGenT是CLEVR的一个子任务,全称是Compositional Generalization Test,检验模型在测试时识别新组合的属性的能力。

CLEVR中的每个问题都以自然语言和函数编程(functional program)的形式表示,函数编程表示让人能精确确定模型回答每个问题所需的推理技能。

透明设计:围绕注意力机制构建,可解释的视觉推理原语

将一个复杂的推理链分解为一系列较小的子问题,其中每一个子问题都可以独立解决,然后组合起来,这是一种强大而直观的推理手段。像这样的模块化结构还允许在推理过程的每个步骤检查网络的输出,取决于产生可解释输出的模块设计。

受此启发,我们提出一个神经模块网络(neural module network),该网络在图像空间中构建一个注意力机制模型,我们称之为透明设计网络( Transparency by Design network ,TbD-net),因为透明度(Transparency)是我们设计决策的驱动因素。

这个设计决策考虑到一些模块只需要关注图像中某个局部的特征,例如注意力模块(Attention module)只关注不同的对象或特征一样。其他模块则需要在全局环境中执行操作,例如关联模块(Relate modules),它必须要将注意力转移到整个图像上。我们将每个模块任务的先验知识与经验实验相结合,从而为每个操作优化出一套新的模块化架构。

在视觉问题回答任务中,推理链中的大多数步骤都需要对具有一些明显可见属性的对象(例如颜色,材质等)进行定位。我们确保每个执行此类型过滤的TbD模块都输出一维注意力掩模(attention mask),它可以明确地划分相关的空间区域。因此, TbD-net不是在整个网络中细化高维特征映射,而是仅通过其模块之间的attention mask。通过故意强化这种行为,我们产生了一个极好的具有可解释性和直观性的模型。这意味着我们离打开复杂的神经网络的黑盒又近了一步。

图3显示了一个TbDnet如何在整个推理链中适当地转移注意力,它解决了一个复杂的VQA问题,并且通过直接显示它产生的attention mask,可以很容易地解释这个过程。这里显示的所有attention masks都是使用视觉均匀的颜色图生成的。

架构细节

以下描述每个模块的架构。表1显示了所有的模块概览。有几个模块共享输入和输出类型(例如Attention和Relate),但实现方式不同,这取决于它们的特定任务。

表1:Transparency by Design network中使用的模块。Attention和Encoding分别指前一模块的单维和高维输出。Stem是指训练的神经网络产生的图像特征。变量x和y表示场景中不同的对象,例如[property]表示颜色,形状,大小或材质。

我们使用从ResNet-101中提取的图像特征,并通过一个简单的卷积模块“stem”提供这些特征。我们为大多数模块提供了stem特征,这确保了每个模块都可以轻松访问图像特征,并且在长的合成中不会丢失任何信息。stem可以将ResNet的高维特征输入转换为适合我们任务的低维特征。

具体的模块描述如下:

  • Attention 模块处理包含具有指定属性的对象的图像区域。
  • And和Or模块分别在一组交集和并集中组合两个attention masks。
  • Relate 模块处理与另一个区域有一定空间关系的区域。
  • Same模块处理一个区域,从该区域提取相关的属性,并出现在共享该属性的图像中其他区域。
  • Query 模块从图像的参与区域提取特征。
  • Compare 模块比较两个Query 模块输出的特征,并生成一个特征映射,用于对特征是否相同进行编码。
  • 最后一个模块是一个classifier,它将Query或Compare 模块中的特征映射作为输入,并产生一个分布答案。

图3. 从上到下看,透明设计网络(TbD-net)组成视觉attention masks来回答关于场景中对象的问题。树形图(左侧)表示TbD-net使用的模块,右侧显示了相应的attention masks。

实验:精度达到99.1%

我们使用CLEVR数据集和CLEVR-CoGenT来评估我们的模型。CLEVR是一个VQA数据集,包含70k图像和700k问题的训练集,以及15k图像和150k问题的测试和验证集。

CLEVR

我们的初始模型在CLEVR数据集上实现了98.7%的测试精度,远远超过其他基于神经网络的方法。我们利用模型生成的attention masks来优化这个初始模型,进而实现99.1%的精确度。考虑到针对CLEVR已有许多高效的模型,我们对模型进行了5次训练,以得到统计性能测量,结果平均验证准确率为99.1%,标准差为0.07。此外,我们注意到其他模型没有一个能够以直观的方式检查它们的推理过程。而我们的模型在视觉推理过程的每个阶段都提供了直接的、可解释的输出。

图4. 输入图像(左)和Attention[large]模块产生的attention mask覆盖在输入图像上。如果不处罚attention mask输出(中间),attention mask会产生噪音并在背景区域产生响应。惩罚attention输出(右图)提供了一个信号来减少外界的attention。

透明度

我们检查了TbD模型的中间模块产生的attention masks。结果显示,我们的模型明确地构成了视觉attention masks以得出答案,从而导致神经网络具有前所未有的透明度(transparency)。

图3显示了整个问题的视觉注意力组成。在本节中,我们提供透明度的定量分析。我们进一步检查了几个模块的输出,表明任何组成的每一步都可以直接解释。

图5. 输入图像(左)和被要求注意蓝色柱状块后面区域以及大的青色椭球块前面区域产生的attention masks,输入特征分别是14×14(中)和28×28(右)。

表2. CLEVR数据集上 state-of-the-art 模型的性能比较。我们的模型运行良好,同时保持模型透明度。我们在Query问题上实现了最先进的性能表现,同时保持了其他所有类别的竞争力。

图6. 输入图像(左)和Attention[metal]模块(右)产生的attention mask。当attention mask叠加在输入图像顶部(中图)时,显然注意力集中在金属块上。

CLEVR-CoGenT

CLEVR-CoGenT数据集为泛化提供了极好的测试。它与CLEVR数据集的形式完全相同,只是它有两个不同的条件。在条件A中,所有立方体的颜色都是灰色,蓝色,棕色或黄色,并且所有圆柱体都是红色,绿色,紫色或青色中的一种; 在条件B中所有颜色交换。这可以检查模型是否将形状和颜色的概念关联在一起。

图7. 一个输入图像(左)和Relate[right]模块(右)在紫色圆柱体受到注意时产生的attention mask。当attention mask叠加在输入图像顶部(中图)时,很明显注意力集中在紫色圆柱右侧的区域。

表3. 仅在条件A数据(中间列)上训练,并且在微调具有新属性的少量数据(右侧列)之后的CoGenT数据集上,TbD-net与当前 state-of-the-art 模型的性能比较。

如表3所示,我们的模型在条件A上达到98.8%的准确性,但条件B上只有75.4%。然后我们使用3k图像和条件B数据中的30k个问题对我们的模型进行微调。其他模型在微调后会看到条件A数据的性能显着下降,而我们的模型保持高性能。如表3所示,我们的模型可以从少量的条件B数据中有效地学习。在微调后,我们在条件A上达到96.9%的准确度,在条件B上达到96.3%的准确度,远高于 state-of-the-art模型报告的条件A 76.1%和条件B 92.7%的准确度。

强大的诊断工具,有助于信任视觉推理系统

我们提出Transparency by Design网络,它构成了利用明确的注意力机制来执行推理操作的可视化基元。与此前的模型不同,由此产生的神经组件网络既具有高性能又易于解释。这是利用TbD模型的关键优势——通过生成的attention masks 直接评估模型的学习过程,这是一个强大的诊断工具。

人们可以利用这种能力来检查视觉操作的语义,例如“相同的颜色”,并重新设计模块以解决推理中明显的偏差。利用这些attention作为提高性能的手段,我们在具有挑战性的CLEVR数据集和CoGenT generalization任务上实现了最高的准确度。对神经网络操作的这种洞察也有助于用户建立对视觉推理系统的信任。

论文地址:https://arxiv.org/pdf/1803.05268v1.pdf

代码: https://github.com/davidmascharka/tbd-nets

本文分享自微信公众号 - 新智元(AI_era)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-03-17

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏磐创AI技术团队的专栏

目标检测算法上手实战

从广义上说,计算机视觉就是“赋予机器自然视觉能力”的学科。计算机视觉与人工智能有密切联系,但也有本质的不同。人工智能更强调推理和决策,但至少计算机视觉目前还主要...

59960
来自专栏机器学习AI算法工程

怎样做中文文本的情感分析?

2016课程地址 项目描述地址 ---- 什么是情感分析? 就是要识别出用户对一件事一个物或一个人的看法、态度,比如一个电影的评论,一个商品的评价,一次...

41280
来自专栏PPV课数据科学社区

当看裸体的时候,卷积神经网络会看到什么

? 作者 RYAN COMPTON时间2016.04.19 发表于ENGINEERING 我们上周在Clarifai正式宣布不安全的工作(NSFW)成人内容...

36560
来自专栏机器之心

学界 | 为卷积模型执行加入循环和远程反馈,更完整地拟合生物视觉

大脑的感觉系统必须要在复杂的有噪声感觉数据中检测出有意义的模式 [James, 1890]。视觉环境可以揭示对象的积极或消极性质,包括食物种类、危险标志以及令人...

9820
来自专栏数据派THU

一文读懂FM算法优势,并用python实现!(附代码)

作者:ANKIT CHOUDHARY 翻译:张媛 术语校对:冯羽 文字校对:谭佳瑶 本文共3933字,建议阅读9分钟。 本文带大家了解因子分解机算法并解析其优势...

2.1K80
来自专栏悦思悦读

利用逻辑回归模型判断用户提问意图

在之前开发聊天机器人的文章里,我们讲解了如何使用在线工具LUIS (https://luis.ai) 开发Chat bot的自然语言理解模型。 在构造问题解决型...

503140
来自专栏新智元

超越GAN!OpenAI提出可逆生成模型,AI合成超逼真人像

【新智元导读】OpenAI最新提出的可逆生成模型Glow,可以使用相对少的数据,快速生成高清的逼真图像,具有GAN和VAE所不具备的精确操作潜在变量、需要内存少...

14100
来自专栏数据科学与人工智能

朴素贝叶斯分类算法|机器学习

贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。本文作为分类算法的第一篇,将首先介绍分类问题,对分类问题进行一个正式的定义。然...

30390
来自专栏磐创AI技术团队的专栏

谱聚类概述

17430
来自专栏ATYUN订阅号

我的神经网络不工作了!我应该做什么? 详细解读神经网络的11种常见问题

“当你正在深入研究深度学习的下一个重大突破时,或许会遇到一个不幸的挫折:你的神经网络不起作用。你去找你的老板/主管,但他们也不知道如何去解决这个问题——他们和你...

32730

扫码关注云+社区

领取腾讯云代金券