论文学习Grad-CAM

文章来源：企鹅号 - 肥咪博士小剧场

介绍

1. Grad-CAM能够应用在多种类型的CNN模型中，1）带有全连接层的CNN模型；2）用于结构化输出的CNN ；3）用于多模式输入的CNN

2. 借由Grad-CAM，我们可以对模型的错误分类进行深入分析，洞察模型错误分类的根据，对模型看似不合理的分类提供合理的解释

3. 尽管深度神经网络获得了巨大的成功，缺少直观的、可理解的元素使得其很难被说明。

4. CAM的方法是去除掉卷积神经网络中的全连接层，实际上是牺牲模型复杂度和性能来换取模型的透明度，Grad-CAM没有更改模型结构，在不降低准确率的前提下获得了模型的可解释性。

5. Guided Backprop和反卷积的可视化方法可以获得分辨率较高以及详细特征的图片，但是对于一张图片分为不同类时，无法展现类别差异。

6. CAM及Grad-CAM方法显现了较好的类别差异，但是无法得到分辨率较高的图像，为了结合两类方法的特点，提出Guided Grad-CAM,该方法能够对图片中对分类有帮助的重要区域进行高分辨率的可视化，即使图片是由多种目标构成的，该方法既能够像Grad-CAM具有较好的类别差异性，同时具有较高的分辨率。

7. CNN可视化相关研究工作，[44]是预测类别分数的衍生方法，[46]Backprop方法和[49]反卷积方法对原生梯度进行了改进，获得了较好的提升。

8. 本文将Gram-CAM技术应用于分类、图片说明和视觉问答领域，在图像分类领域中，可视化可以帮助识别数据集误差，同时可以帮助我们洞察CNN错误分类的原因，可以对模型做出看似不合理的预测给出合理的解释；对于图像说明和视觉问答领域，可视化技术揭示CNN+LSTM模型善于定位图像重要区域，尽管模型没有在图像-文字对上进行训练；在对Resnet网络的可视化工作中，发现从深层到浅层，当使用不同输出维度的层时，Grad-CAM的区分能力剧烈降低。

方法

1.相关工作已经断定CNN中更深的表达（网络结构）可以捕捉到更深级别的视觉结构。卷积特征包含空间信息，这些空间信息经过全连接层后会丢失，我们可以推断CNN最后一层卷积层在高层语义和详细的空间信息间具有最好的折中。

1. Grad-CAM利用伴随CNN最后一层的卷积网络的梯度信息来理解对于一个决定而言每个神经元的重要性。

2. 虽然Grad-CAM具备解释类别差异以及定位相关图片区域的能力，但是缺乏展示细粒度重要性的能力，如像素-空间梯度可视化方法（pixel-space gradiet visualization method）（如guided back-propagation 和反卷积方法），例如，在图片分类中，对于"虎猫"分类中，Grad-CAM可以很容易的定位猫所在的区域，但是在低分辨率的热图中，很难解释为何CNN会将这部分区域预测为“虎猫”。为解决这一点，结合Grad-CAM和guided back-propagation方法，形成guided Grad-CAM可视化方法。

guided Grad-CAM方法具备高分辨率的特点，当将图片分类为“虎猫”时，该方法能够识别“虎猫”重要的特征，如条纹，耳朵，眼睛；也具备类别差异性，分类为“虎猫”，没有展示狗的特征。

定位评价

Grad-CAM不需要更改模型结构，也不需要重新进行训练，其定位准确率相对于标准模型没有降低，甚至top-5定位准确率是最优的，而CAM方法由于需要替换网络结构，进行重新训练，所有其分类和定位准确率都有所降低。

诊断用于图片分类的CNN

使用 guided Grad-CAM方法分析CNN错误分类模式。选取一系列CNN错误分类的图片例子，使用guided Grad-CAM方法分别观察分类正确与错误的类别的可视化效果，正常情况下我们无法解释为何网络做出了错误的分类，但是通过此可视化方法，在一定程度上，我们可以理解为何网络做出了难以理解的判断。

对抗噪声的效果

深度神经网络对于对抗样本十分脆弱，通过加入对抗图片（欺骗网络，将图片类别定义为围在图片中出现的物体）试验证明，Grad-CAM仍然能够根据图片真正包含的物体进行定位，证明Grad-CAM可视化方法具有较好的抵抗噪声的能力。

识别数据集中的偏差

对在ImageNet预训练好的VGG-16模型迁移到护士-医生分类任务上进行调参，每个类别有250张图片，分析结果发现在测试集模型泛化能力不够好，使用Grad-CAM方法进行可视化分析发现模型通过观察任务的脸和发行进行分类，因此陷入了模式化。模型把女性医生和男性护士分错了，说明由于数据集存在性别偏差（医生图片集里主要是男医生，护士图片集里主要是女护士），导致模型不够准确。通过平衡训练集中的性别比例，重新训练得到的模型准确率更高，不存在性别偏差。说明Grad-CAM方法能够帮助检测和移出数据集的偏差，这对于泛化效果是很重要的。

图片说明和视觉问答

图片说明是对图片生成说明文字，需要CNN解决图片，LSTM解决语言模型

视觉问答使用CNN形成图片模型，RNN形成语言模型。

两类问题均通过在CNN最后一层卷积层计算梯度，实现可视化，最终针对这两类问题能够实现较好的可视化效果，这部分属于展示工作量，没有深入的分析。

发表于: 2018-02-052018-02-05 22:13:01
原文链接：http://kuaibao.qq.com/s/20180205G1DOM400?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

论文学习Grad-CAM

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐