学界 | DeepMind论文:CNN的变形稳定性和池化无关,滤波器平滑度才是关键

选自arxiv

作者:Avraham Ruderman等

机器之心编译

参与:白悦、刘晓坤

传统观点认为,CNN 中的池化层导致了对微小平移和变形的稳定性。在本文中,DeepMind 的研究者提出了一个反直觉的结果:CNN 的变形稳定性仅在初始化时和池化相关,在训练完成后则无关;并指出,滤波器的平滑度才是决定变形稳定性的关键因素。

1. 引言

近年来,卷积神经网络(CNN)在计算机视觉的物体识别方面取得了巨大的成功(Krizhevsky et al., 2012; Simonyan & Zisserman, 2014; He et al., 2016; Russakovsky et al., 2015),然而目前尚不清楚这些模型如此成功的原因。

直到最近,人们才对 CNN 成功的原因有了一个普遍的解释,解释说是因为交错地引入池化层(interleaved pooling layer)才使这些模型对小的平移和变形(translation and deformation)不敏感。视觉域中的许多变化来自视图、物体位置、旋转、尺寸和非刚体变形的微小变化。因此,「对这些变化不太敏感」这一描述有用,但只是看起来合理。此外,长久以来人们都假设引入交错池化层将这种偏差构建到的模型中是有益的 (LeCun et al., 1990; Krizhevsky et al., 2012; Simonyan & Zisserman, 2014; LeCun et al., 2015; Giusti et al., 2013)。然而,这个假设的解释还没有被彻底地验证。

图 1. 变形的 ImageNet 图像示例。左:原始图像,右:变形图像。虽然图像变化了很多,比如,在 L2 度量下,他们可能会被人类赋予相同的标签。

事实上,最近证明,由交错池化层提供的归纳偏差(inductive bia)并不是良好性能的必要条件,因为最近的一些架构已经减少了交错池化层,而且仍然实现了强大的性能(Springenberg et al., 2014; He et al., 2016)。这引出了本文中的以下问题:

1. 池化是否对学习的变形稳定性是否有影响?

2. 在没有池化的情况下是否能实现变形稳定性?

3. 如果可以,是如何实现的?

关于池化作用的传统推理是假设混淆变量(nuisance variables)的不变性在总体上有帮助。这里,本文对其有效性做出了一个猜想,并进一步定义了本文将讨论的特定类别的混淆变形(nuisance deformations)。

本文的主要贡献是:

  • 学习稳定性:本文展示了没有池化的网络在初始化时对变形敏感,但经过训练学习表征的过程之后对变形是稳定的。作者还表明,即使在有池化的网络中,训练过程中变形稳定性模式也会发生显著变化。此外,在训练过程中,变形稳定性有时会下降,这表明这种稳定性不是单方面的有用(3.2 节)。
  • 收敛稳定性:本文表明池化和非池化训练网络的层间变形稳定性模式最终会收敛到相似的结构(3.3 小节)。
  • 稳定性的实现:本文表明无论池化还是非池化网络,都可通过滤波器的平滑性实现和调节变形稳定性(第 4 节)。

此外,从理解神经网络的权重和层如何影响整个网络行为的角度来看,此工作提供了一个有潜在价值的重要例子,解释各层中权重的简单性质如何影响网络的整体计算。

从设计神经网络模型的角度来看,这项工作提供了对「指导设计神经网络 20 多年的重要归纳偏差」的洞察。长期以来人们认为池化对实现变形稳定性很重要,认为池化是 CNN 成功的主要因素。这项工作表明,无论看起来多么合理,并通过经验和理论验证来加强,我们对神经网络工作原理的直觉往往是不准确的。

图 2:生成变形图像:为了使图像随机变形,我们:(a)从固定均匀间隔的控制点网格开始(这里是 4x4 个控制点),然后在点邻域内为每个控制点选择一个随机源;(b) 然后使用薄板插值平滑得到的矢量场;(c) 矢量场叠加在原始图像上:使用原始图像中箭头尾部附近的值的双线性插值计算箭头顶端的最终结果中的值;(d) 最终结果。

3. 在池化和非池化的网络中学习变形稳定性是相似的

图 3:池化在初始化时赋予变形稳定性,但在训练过程中稳定性发生显着变化,而且无论是否池化,都会收敛到类似的稳定性。(a) 在初始化时,最大池化的网络对变形较不敏感。(b) 训练后,池化和非池化的网络对层的变形有非常相似的敏感模式。CIFAR10 有类似的模式: (c) 初始化时,池化对变形的敏感性有显着影响,但 (d) 训练后,下采样层的选择对所有层的变形稳定性几乎没有影响。图层 0 对应于输入图像;这些层包括下采样层;最后一层对应于最后的下采样层。因此对于 CIFAR10,我们一共有 13 层,包括 1 个输入层、8 个卷积层和 4 个池化层。

4. 滤波器的平滑度有助于提高变形稳定性

图 4:使用更平滑的随机滤波器进行初始化会使变形稳定性更好。使用标准偏差σ的高斯滤波器对滤波器进行平滑处理,然后测量对变形的敏感度。当增加σ来增加滤波器的平滑度时,表征对变形的敏感度下降。较深的线条代表更平滑的随机滤波器。

图 5:需要更高变形稳定性的任务要用更平滑的滤波器。(a) 生成一个合成任务,每个类基于单个 MNIST 图像,每类的示例通过应用该类图像的强度 C 的随机变形生成。左边的图像使用强度 3 的变形生成,右列图像分别使用强度为 1、2、3、4 的变形生成。(b) 训练后,在强变形训练任务上得到的网络滤波器更平滑。黑色虚线表示初始化的平均值。

5:滤波平滑性取决于监督任务类型

图 6:训练得到更平滑的滤波器。(a) 和 (b) 在训练之后,滤波器明显更加平滑,不同的架构收敛到类似的滤波平滑度。(c)对随机标签进行训练时,滤波器的平滑性很大程度取决于选择的下采样层。有趣的是,(a)训练 ImageNet 时滤波器的平滑度逐层递增,(b)CIFAR10 则是逐层递减。黑色虚线表示初始化的平均值。

图 7:训练随机标签时,变形稳定性依赖于架构类型。

论文:Learned Deformation Stability in Convolutional Neural Networks(卷积神经网络的学习变形稳定性)

论文地址:https://arxiv.org/pdf/1804.04438.pdf

传统观点认为,卷积神经网络中的池化层导致了对微小平移和变形的稳定性。此项工作中,我们根据经验探索了这一观点。我们发现,虽然池化层在初始化时赋予网络变形稳定形,但在训练的过程中每层的变形稳定性变化显著,一些层甚至有所减小,这表明变形稳定性不是单方面有帮助的。令人惊讶的是,训练完成之后,层间的变形稳定性模式很大程度上与是否引入池化无关。然后我们在本文展示了决定变形稳定性的一个重要因素是滤波器的平滑度。此外,滤波器的平滑度和变形稳定性不仅是输入图像分布的结果,而且关键地取决于图像和标签的联合分布。本项工作展示了学习变形稳定性等偏差的一种方法,并提供了「理解学习网络权重的简单性质如何有助于对整体网络的计算」的一个例子。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2018-05-01

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏目标检测和深度学习

MIT 6.S094· 深度学习 | 学霸的课程笔记,我们都替你整理好了

计算机视觉,到目前为止都是深度学习。并且大部分成功理解图片含义的案例都是使用神经网络。

1165
来自专栏人工智能头条

王晓刚:图像识别中的深度学习

2572
来自专栏CDA数据分析师

入门 | 一文简述循环神经网络

什么是循环神经网络(RNN)?它们如何运行?可以用在哪里呢?本文试图回答上述这些问题,还展示了一个 RNN 实现 demo,你可以根据自己的需要进行扩展。

973
来自专栏AI科技评论

卷积神经网络(CNN)新手指南

引言 卷积神经网络:听起来像是生物与数学还有少量计算机科学的奇怪结合,但是这些网络在计算机视觉领域已经造就了一些最有影响力的创新。2012年神经网络开始崭露头角...

3284
来自专栏机器之心

教程 | 拟合目标函数后验分布的调参利器:贝叶斯优化

4815
来自专栏机器之心

CVPR 2018 | 新型语义分割模型:动态结构化语义传播网络DSSPN

选自arXiv 作者:Xiaodan Liang、Hongfei Zhou、Eric Xing 机器之心编译 参与:乾树、路雪 近日,来自 CMU、Petuum...

3986
来自专栏数据科学与人工智能

【机器学习】特征工程

作者:JasonDing1354 引言 在之前学习机器学习技术中,很少关注特征工程(Feature Engineering),然而,单纯学习机器学习的算法流程,...

4625
来自专栏人工智能LeadAI

想搞机器学习,不会特征工程?

引言 在之前学习机器学习技术中,很少关注特征工程(Feature Engineering),然而,单纯学习机器学习的算法流程,可能仍然不会使用这些算法,尤其是应...

2933
来自专栏机器之心

入门 | 一文简述循环神经网络

什么是循环神经网络(RNN)?它们如何运行?可以用在哪里呢?本文试图回答上述这些问题,还展示了一个 RNN 实现 demo,你可以根据自己的需要进行扩展。

1083
来自专栏数据派THU

一文读懂神经网络(附PPT、视频)

本文共6500字,建议阅读10分钟。 本文从神经网络的发展历史出发,为你介绍感知器模型、前馈神经网络及BP算法。 [导读] 提起神经网络,你会想到什么?关于深度...

4599

扫码关注云+社区