如何通过梯度上升实现可视化卷积核？

量子位

发布于 2018-03-23 08:53:14

1.1K0

文章被收录于专栏：量子位量子位

作者：陈仲铭海格通讯 | 高级算法工程师量子位已获授权编辑发布转载请联系原作者

为什么我的CNN网络模型训练出来的东西总是过度拟合？已经改了很多次参数都不行，到底是样本有问题还是网络模型定义有问题？问题在哪来？

CNN网络模型中的每一层学习的是些什么特征？为什么有的人说第一层卷积核提取的边缘信息特征？有的人却说第一层卷积核提取的是颜色特征？到底是两者都有还是什么回事？

CNN网络可不可以减掉几层然后保持相同的精度和损失率呢？减掉几层可以减少网络参数，本来我的GPU显存不是很大，太大的网络塞不下，不想重新买GPU只能减层，有没有大神可以教教我怎么操作啊？

很多时候我们会遇到上面的问题，然后道听途说地开始给别人瞎粑粑吹吹牛皮。在这之前，连我自己都不知道VGG16网络原来最后两层block5 conv2,block5 conv3训练到最后几乎没有太多的纹理特征。你知道吗？

不知道的话可以跟我一起学习学习，我也是个初学者，在国内CNN还没有太流行起来之前就开始跳坑，到现在蹲坑已深。弃坑 ing。。。。

最近为自己所在的公司写了一个工具来分析训练出来的CNN网络模型，如下图所示：从第一张图我们可以看到这张图有一些goldfish金鱼的模型，好像有很多条鱼尾巴，然后中间有好多鳞片，一张很奇怪的图像。

但是别嫌弃这张图像，因为假设你把这张图像扔到经过ImageNet数据集训练过的VGGNet模型，1.这张图语出出来为goldfish的概率绝对是99%的，你多试100次看是不是都为goldfish。

同理，第2张图，第3张图，都是这样的结果，连我学文科的妹纸看到这些图就yaya叫，这是什么，好恶心，怎么第3张有点像鸟但是有不是鸟的呢。对，我们搞神经网络的就喜欢这些恶心的图片。越恶心特征越明显。

通过梯度上升获得可视化卷积图

假设人工合成的可视化卷积核图为 x，我们希望这张合成图 x 能够使其对应的神经元（卷积核）具有最高的激活值。所得到的这张合成图像就是该卷基层的卷积核“想要看到的”或者“正在寻找的纹理特征”。

也就是说我们希望找到一张图像经过CNN网络，传播到指定的卷积核的时候，这张图片可以使得该卷积核的得分最高。

为了合成这一张图片，我们开始从一张带有随机噪声的图像开始，每个像素值随机选取一种颜色。

接下来，我们使用这张噪声图作为CNN网络的输入向前传播，然后取得其在网络中第 i 层 j 个卷积核的激活 a_ij(x)，然后做一个反向传播计算 delta a_i(x)/delta x 的梯度，最后我们把该噪声图的卷积核梯度来更新噪声图。目标是希望通过改变每个像素的颜色值以增加对该卷积核的激活，这里就使用了梯度上升法：

其中 itselong 为梯度上升的学习率。不断重复上诉过程，直到图像 x 能够让第 i 层第 j 个卷积核具有较高的激活值。

对于具体的实现我们需要定义一个损失函数，该损失函数将用于最大化某个指定卷积核的激活值。以该损失函数作为优化目标，我们可以了解到底什么样的图片才可以使得这个卷积核取得更好的激活值。

现在我们使用Keras的后端来完成这个损失函数， gradients(loss, variables)为返回loss函数关于variables的梯度。

注意这里有个小小的trick——对计算出来的梯度进行了L2正则化操作，使得梯度不会过小或过大，其带来的好处是使梯度上升的过程平滑进行。

后端函数function用传递来的参数实例化一个Keras的Function类返回。这相当于Function的对象当作函数来使用，相当于重载了括号运算符,如outputs = self.train_function(inputs)。

根据刚刚定义的损失函数iterate_fun，现在可以根据梯度上升对卷积核的激活值进行梯度上升计算。

最后输出的图像如下图所示，这不是鱼头？还是羊头？告诉我不看ImageNet的连接我也不知道是什么头。不过这样的方法是我们让输入的图像尽量与卷积核希望看到的东西一样，通过该层卷积核的损失和梯度进行上升补充，对输入的原图进行填充细节，最后得到可视化卷积核图。

可视化所有卷积核图

可视化卷积核是本例子最有趣的部分，也是笔者最喜欢的部分。通过分析CNN网络模型中的卷积核，我们将会看到每一层卷积核到底提取的是什么样的内容、纹理、特征。当我们深入了解CNN模型提取特征背后的意义，就可以有足够信心去修改卷积神经网络CNN的参数。

下面我们将会利用已经训练好的VGG16网络模型，来系统地可视化各个网络层的各个卷积核，看看CNN是对输入进行逐层分解提取特征的到底都是些什么。

最后的执行结果如下图所示，Block1_Conv1的卷积核主要完成如颜色、方向等编码，到了Block2_Conv2的卷积核明显比Block1_Conv1多了更多的纹理和不同的纹理方向，所表达的颜色也更加丰富多样，并且在边缘处可以看到有部分凹凸表现。

随着VGG16网络模型继续深入，这些颜色和方向与基本的纹理进行组合，逐渐生成特殊纹理。当进入Block3_Conv1后，方向和颜色的表现开始变少，开始出现更加复杂的纹理特征（圆形、螺旋形、多边形、波浪等形状组合），到了Block5_Conv1后可以清晰看到其纹理更加特别，卷积核随着网络空间信息的增长而出现了更加精细和复杂的特征。