知乎大神周博磊:用“Network Dissection”分析卷积神经网络的可解释性

当地时间 7 月 22 日,备受瞩目的 CVPR 2017 最佳论文在夏威夷会议中心揭晓。本届 CVPR 2017 共有两篇最佳论文(分别被康奈尔和清华团队、以及苹果团队拿下),两篇最佳论文提名,以及一篇最佳学生论文。

除了这些获奖论文之外,CVPR 2017还收录了一些非常有意思的论文。其中,MIT 在读博士周博磊的论文——“Network Dissection: Quantifying Interpretability of Deep Visual Representations”,提出了一种名为“Network Dissection”的通用框架,主要分析了卷积神经网络的可解释性,并尝试回答一些有意思的问题:神经网络是不是只是个黑箱?神经网络内部到底学习了些什么东西?不同网络结构比如 ResNet 和 AlexNet,除了最后分类准确度的差异,内部表征会有些什么差别?如何量化网络的可解释性?

AI科技大本营(rgznai100)对论文进行了简要翻译,并独家专访了周博磊本人。

周博磊:本科就读于上海交通大学生物医学工程专业,在香港中文大学获得信息工程硕士学位,目前在 MIT 的 Computer Science and Artificial Intelligence Laboratory (计算机科学和人工智能实验室)攻读博士学位。

论文简介

摘要

我们提出了一种名为“Network Dissection”的通用框架,通过评估单个隐藏单元与一系列语义概念间的对应关系,来量化 CNN 隐藏表征的可解释性。对于任何 CNN 模型,我们提出的这种方法利用大量的视觉概念数据集来评估每个中间卷积层隐藏单元的语义。这些带有语义的单元被赋予了大量的概念标签,这些概念包括物体、组成部分、场景、纹理、材料和颜色等。

我们使用该方法测试了“单元的可解释性等同于单元的随机线性结合”的假设。接下来,在训练多种神经网络解决不同的监督和自监督训练任务时候,我们用此方法将这些神经网络在训练期间的隐藏表征(latent representations)进行了对比。我们进一步分析了训练迭代的影响,对比了用不同初始化训练的网络,探究了网络深度和宽度的影响,并估量了 dropout 和批规范化(batch normalization)对深度视觉表征可解释性的影响。我们证明了该方法可以揭示 CNN 模型和训练方法的特性,而不仅仅是衡量他们的判别能力。

引言

Figure 1. Unit 13 in [40] (classifying places) detects table lamps. Unit 246 in [11] (classifying objects) detects bicycle wheels. A unit in [32] (self-supervised for generating videos) detects people.

通过观察大型深度神经网络中的隐藏单元,我们发现:人类可解释的概念有时候会以单一隐藏变量的形式出现在这些网络中:例如,目标检测单元出现在被训练用来识别场所的网络[40]中;组成部分检测器出现在物体分类器[11]中;目标检测器存在于生成视频的网络[32]中(图1)。当网络未受限于只能用可解释的方式分解问题时,就会出现这种内部结构。这种可解释结构的出现意味着,深度神经网络也许可以自发学习分离式表征(disentangled representations)。众所周知,神经网络可以学习某种编码方式,高效利用隐藏变量来区分其状态。

按照通常的理解,一个网络可以学习一种有效的编码,使得通过隐藏变量来区分其状态可以被更经济地应用,但是分离式表征的出现还未被完全理解。分离式表征将其变量与隐含问题结构的某个重要因数分解匹配在一起。分离式表征是一个非常重要的研究领域[5]。如果深度神经网络的内部表征是部分分离的,那么检测断分离式结构并读取分离因数可能是理解这种机制的一种方法。

但是,我们提出这种方法引出了以下问题:

  • 何为分离式表征(disentangled representation)?如何量化与检测这种表征的要素?
  • 可解释的隐藏单元是否反映了特征空间的某种特殊对齐属性?解释隐藏单元是否只是一种妄想?
  • 在流行的训练方法中,哪些条件会导致更多或更少纠缠的表现??

为了探讨这些问题,我们提出了一种通用的分析框架:网络剖析(Network Dissection),用以解释深度视觉表征并量化其可解释性。以 Broden 作为数据集,这种数据集的标记范围广且密度高。我们的框架可以识别出任意给定 CNN 中隐藏单元的语义,然后将其与人类可解释的概念匹配在一起。我们在各种使用物体和情景识别训练的 CNN(AlexNet、VGG、GoogLeNet和ResNet)上对这种方法进行了评价,并证明了:显现出的可解释性是表征的某种轴对齐属性,轴的旋转可以在不影响判别能力的条件下毁坏这种可解释性。我们进一步探究了训练数据集影响可解释性的方式,并研究了诸如dropout 和批规范化(batch normalization)这样的训练方法,以及主要任务不同的监督训练。

论文地址:https://arxiv.org/pdf/1704.05796.pdf 源代码和数据获取地址: http://netdissect.csail.mit.edu

以下是AI科技大本营对周博磊的独家采访:

问:您的论文的主要想解决什么问题?

周博磊:这次我 Network Dissection 的论文主要在分析卷积神经网络的可解释性,并尝试回答一些有意思的问题:神经网络是不是只是个黑箱?神经网络内部到底学习了些什么东西?不同网络结构比如 ResNet 和 AlexNet,除了最后分类准确度的差异,内部表征会有些什么差别?如何量化网络的可解释性。

问:论文用到了哪些算法?有哪些创新?

周博磊:论文大致做法是我们准备了一个带有不同语义概念的图片数据库,里面每张图都有像素层次的标定,如颜色,纹理,场景,物体部分,物体等,然后我们把每个神经元在图像上的激活响应当做对这些概念进行语义分割(Semantic segmentation),然后看每个神经元对哪个语义概念分割得最好,那么这个神经元就是在检测这个语义概念。

创新点主要在首先提出了对网络内部表征的可解释性进行量化测量的方法,并第一次对不同网络结构,网络训练监督方式都进行了系统性的比较。

问:有什么实际用途?

周博磊:可以用来分析不同网络内部表征的可解释性,也进一步推动研究人员在设计神经网络的时候不仅考虑最后的准确度,也更进一步考虑网络的可解释性。

问:这次 CVPR 大会有什么亮点?

这次CVPR的亮点不是论文,而是有这么多大公司、小公司、和创业公司作为会议赞助商,以及再次破记录的参会人数。

问:分享一下您在 MIT 做研究的方式方法,和最近的心得体会?

导师普遍更重视对问题本身的思考,如何解决问题用什么模型算法解决别不是重点。提出好的新问题,比提出新的方法更有意义。

最近另外一个心得体会就是现在 AI 研究越来越平民化和工程化。平民化指的是开源代码和库到处都是,大家都可以炼钢,发所谓顶级会议论文不再是难事。工程化是目前AI研究对硬件要求和工程能力要求越来越高,这点公司占了巨大优势。公司三多(显卡资源多,工程师程序员多,数据多),能做的事就多,这也是为什么知名教授纷纷加入公司的原因之一。反而是学校实验室在这股 AI 的洪流里越来越艰难。比如说我在学校里,一个人又得搭硬件和软件实验平台,又得想研究 idea,跑实验,做图片,写论文,活脱脱的 full stack researcher(笑)。

问:对于想转行到人工智能领域的人有什么建议?

我本科是生物医学工程,其实是算 EE 的专业,大三就进入计算机系张丽清老师的实验室开展计算机视觉的研究工作了。这里特别感谢张老师当年让我破格进实验室学习,那个时候 AI 根本就没这么火,兴趣使然。(其他人)其实没必要跟风。

原文发布于微信公众号 - AI科技大本营(rgznai100)

原文发表时间:2017-07-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

学界 | 机器学习十大算法都是何方神圣?看完你就懂了

AI科技评论按:机器学习与人工智能变得越来越热。大数据原本在工业界中就已经炙手可热,而基于大数据的机器学习则更加流行,因为其通过对数据的计算,可以实现数据预测、...

35650
来自专栏目标检测和深度学习

VALSE 2018年度进展报告 | 物体检测与识别

11520
来自专栏机器之心

学界 | CVPR 2017最新论文:使用VTransE网络进行视觉关系检测

选自arxiv.org 机器之心编译 参与:李亚洲、吴攀 知识表示学习的思想(TransE)已经被成功应用于视觉关系提取(Visual Relation Ex...

39970
来自专栏机器之心

ICML 2018 | 腾讯AI Lab提出误差补偿式量化SGD:显著降低分布式机器学习的通信成本

作者:Jiaxiang Wu、Weidong Huang、Junzhou Huang、Tong Zhang

14720
来自专栏CreateAMind

Sensorimotor Robot Policy Training using RL(ref163篇 90页) 笔记 超长

14540
来自专栏量子位

你的广告能打几分?Kaggle需求预测挑战赛冠军方案这样做丨教程

我们每天在网页上看到的各种电商广告,到底够不够吸引人?4个月前Kaggle和“俄罗斯版58同城”Avito办了个需求预测挑战赛,预测不同的广告能吸引用户多大的购...

12340
来自专栏新智元

【经典】机器学习可视化演示

【新智元导读】机器学习应用统计学习技术,自动识别数据集内的模式。这些技术可以用来作出准确性很高的预测。决策树是机器学习作预测的常见方法之一,本文以一个房屋资料数...

44180
来自专栏新智元

苹果重磅推出AI技术博客,CVPR合成逼真照片论文打响第一枪

【新智元导读】 苹果刚刚推出一个名为 Apple Machine Learning Journal 的新研究博客,第一篇文章介绍了他们的CVPR论文,提出一种改...

35380
来自专栏CDA数据分析师

基于R语言的梯度推进算法介绍

简介 通常来说,我们可以从两个方面来提高一个预测模型的准确性:完善特征工程(feature engineering)或是直接使用Boosting算法。通过大量数...

26270
来自专栏新智元

【深度学习模型哪个最像人脑?】MIT等人工神经网络评分系统,DenseNet实力夺冠!

虽然ANN发展到现在也无法完全模拟生物大脑,但是技术是一直在进步的。那么问题来了:

23750

扫码关注云+社区

领取腾讯云代金券