深度学习CNN眼中的图片是什么样的

2017年最后一天,无心学习。本来想休息下的,结果看到了一篇Paper叫《Visualizing and Understanding Convolutional Networks》,比较老13年发的,但是蛮有趣的,因为通常人们做深度学习训练的时候其实是在一个黑盒环境下进行,人们也不知道模型的每一层是怎么完成图片识别的,那这篇文章给了一个很好的解释,于是就读了下,顺便也跟大家分享。

正文

大家都知道深度学习,特别是CNN结构的模型有一个很神奇的功能:可以识别图片。有一些生物尝试的同学可能了解,人脸通过眼睛对图片进行识别其实是要经过大脑皮层上千万个神经元的判别。那么在CNN网络中,算法模型是怎么对于物品进行识别的呢,首先来看这张图:

其实模型对于图片的识别跟人脑是近似的,选取了一个CNN模型中的三层Layer,每个Layer左边的黑色的小方块是每一个feature map,可以理解为一个个小的神经元。右边的是随机选取的跟feature map对应的图片。我们可以看到,在模型比较初期的Layer1,只能识别出一些图片的菱角,也就是横、竖或者斜线。到了Layer2可以识别出一些形状,到了Layer3甚至可以识别出一些纹路。经过逐层的抽象,使得图片识别结果逐渐清楚。于是我们大致了解了模型的整个识别流程,是跟人的大脑近似的,是通过多层次的不断叠加的认知来识别图片。接下来我们看下CNN在识别图像过程中还有哪些特性。

越高层级的模型对于图像变化的感知越不敏感

图a、b、c是三种图像形式的图片表示:a是原图,b是图片的分辨率降低,c是图片翻转。通过对于图片不同的变化的比较,发现Layer越低的层级对于图片变换的感知越明显。如果是高Layer的层级,那么图片翻转或者清晰度变化对于识别影响不大。也就是说我们在训练CNN模型的时候,要适当增加层数。

关键位置的特征是否清晰对于识别非常重要

看上图左边以及它在算法计算过程中的feature map(右边),我们看到蓝色的热力图部位对应的位置差不多是狗的脸,也就是说算法在识别这张图是什么的时候主要检查的是脸部部位。

再看上面的这张图,蓝色热力图表示的是车的文字的牌子处,但是我们的输入图片牌子处被灰色方块遮挡,导致识别错误,这张图片返回结果是车轮,本来应该是车牌。也就是说图片的关键位置特征是最决定一张图片的识别精度的,比如我们做人脸识别,可能鼻子、眼睛、嘴这些就是关键特征,而图片的背景对于结果影响不大。以上论证可以通过下面的图来充分展示:

如果我们做一个狗的图片识别,挡住狗的眼睛、鼻子对于图片的识别准确度影响要远大于随机挡住一块背景。

PS:想自己研究研究的同学可以去下载这篇论文,我觉得还挺有趣的。另外,元旦我要出去浪3天,请假请假!感谢2017年大家的陪伴,2018年要更充实。

End

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20171230G009SO00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券