网络模型--Squeeze-and-Excitation Networks

Squeeze-and-Excitation Networks https://arxiv.org/abs/1709.01507

ILSVRC 2017 image classification winner https://github.com/hujie-frank/SENet

本文主要提出了一个新的网络模块 Squeeze-and-Excitation block,作用就是对不同 channel 给予不同的权重, selectively emphasise informative features and suppress less useful ones 网络简单,效果显著啊!

3 Squeeze-and-Excitation Blocks

首先来看看我们要解决的问题是如何描述的? 对于任意一个给定 transformation F

为了简化问题的描述,我们假定 F 为一个标准的卷积运算,我们用 V = [v 1 ,v 2 ,…,v C ] 表示学习到的一组滤波器,U = [u 1 ,u 2 ,…,u C ] 表示卷积的输出

输出 U 是将所有的 channels 综合到一起得到的(summation),所以通道的相关性被隐性的包含在 vc中,但是这些相关性又被滤波器捕获的空间相关性 交错在一起。 Since the output is produced by a summation through all channels, the channel dependencies are implicitly embedded in v c , but these dependencies are entangled with the spatial correlation captured by the filters. 我们的目标就是确保网络能够 增加有用信息的重要性,这些信息将在后续网络层被利用,抑制那些不重要的信息 Our goal is to ensure that the network is able to increase its sensitivity to informative features so that they can be exploited by subsequent transformations, and to suppress less useful ones.

我们通过下面这个模块实现上述功能 Squeeze-and-Excitation Blocks

3.1. Squeeze: Global Information Embedding 为了分析 channel dependencies ,我们首先分析每个 channel的信息,从整体上来看看该 channel 的特征吧 因为每个滤波器只对应局部的感受野,所有U 的每个单元不能分析该感受野以外的 contextual information, 当网络前面层的感受野较小时这个问题变得更加的严重。为此我们首先压缩全局空间信息,将其变为一个 channel 描述子 we propose to squeeze global spatial information into a channel descriptor, 具体是由 global average pooling 来实现

3.2. Excitation: Adaptive Recalibration 为了充分利用 上面一步压缩后的信息,这里我们为了 fully capture channel-wise dependencies 设计了第二步运算。 该运算需要满足两个条件:1)足够的灵活(特别是能够学习channel之间的非线性相关性),2)它必须能够学习一个非相互排斥的关系,a non-mutually-exclusive relationship,因为 multiple channels are allowed to be emphasised opposed to one-hot activation 多通道可以共同抑制一个 激活相应,为此我们采用了一个 simple gating mechanism with a sigmoid activation

δ refers to the ReLU

最后是对每个通道乘以对应的权重系数 The final output of the block is obtained by rescaling the transformation output U with the activations

3.3. Exemplars: SE-Inception and SE-ResNet SE-Inception

SE-ResNet

4 Model and Computational Complexity

总体上计算资源增加的不多。 SE-ResNet-50 requires ∼3.87 GFLOPs, corresponding to only a 0.26% relative increase over the original ResNet-50 对于 ResNet-50 , corresponding to a ∼10% increase in the total number of parameters

6 Experiments ImageNet validation set

训练曲线

Single-crop error rates of state-of-the-art CNNs on ImageNet validation set

Activations induced by Excitation in the different modules of SE-ResNet-50 on ImageNet

对于 SENets 中的 Excitation 我们观察到以下三点信息: 1) the distribution across different classes is nearly identical in lower layers, e.g. SE_2_3 2)at greater depth, the value of each channel becomes much more class-specific as different classes exhibit different preferences to the discriminative value of features e.g. SE_4_6 and SE_5_1 3) SE_5_2 exhibits an interesting tendency towards a saturated state in which most of the activations are close to 1 and the remainder are close to 0 This suggests that SE_5_2 and SE_5_3 are less important than previous blocks in providing recalibration to the network.

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器学习之旅

应用:数据预处理-异常值识别

上四分位数Q3,又叫做升序数列的75%位点 下四分位数Q1,又叫做升序数列的25%位点 箱式图检验就是摘除大于Q3+3/2*(Q3-Q1),小于Q1-3/2...

1163
来自专栏深度学习入门与实践

【深度学习系列】用PaddlePaddle和Tensorflow实现经典CNN网络AlexNet

上周我们用PaddlePaddle和Tensorflow实现了图像分类,分别用自己手写的一个简单的CNN网络simple_cnn和LeNet-5的CNN网络识别...

3468
来自专栏AI科技评论

干货 | 史上最好记的神经网络结构速记表(上)

本文提供了神经网络结构速查表,盘点了神经网络的大量框架,并绘制了直观示意图进行说明,是人手必备的神经网络学习小抄。 新的神经网络结构不断涌现,我们很难一一掌握。...

41012
来自专栏用户3246163的专栏

2.3 模型相关

covariance stationary:一个时间序列,均值,方差,协方差不随时间而变化 上面的模型都和两维度有关: 1. 数据相互关联的程度 2. 稳定性

1572
来自专栏AI研习社

史上最好记的神经网络结构速记表(上)

翻译 / 陈俊雅 校对 / 李傲 整理 / 雷锋字幕组 本文提供了神经网络结构速查表,盘点了神经网络的大量框架,并绘制了直观示意图进行说明,是人手必备的神经网络...

39312
来自专栏专知

【干货】Lossless Triplet Loss: 一种高效的Siamese网络损失函数

【导读】本文是数据科学家Marc-Olivier Arsenault撰写的一篇博文,主要讲解了在Siamese网络中使用Lossless Triplet Los...

6366
来自专栏磐创AI技术团队的专栏

TensorFlowNews五大经典卷积神经网络介绍:LeNet / AlexNet / GoogLeNet / VGGNet/

前言:这个系列文章将会从经典的卷积神经网络历史开始,然后逐个讲解卷积神经网络结构,代码实现和优化方向。 (以下内容来翻译自斯坦福大学课程:http://cs23...

4098
来自专栏杂七杂八

机器学习分类

机器学习通常分为四类 监督学习 无监督学习 半监督学习 强化学习 监督学习 监督学习是从标记的训练数据来推断一个功能的机器学习任务。在监督学习中,每个实例都是由...

3016
来自专栏机器之心

教程 | 仅需六步,从零实现机器学习算法!

从头开始写机器学习算法能够获得很多经验。当你最终完成时,你会惊喜万分,而且你明白这背后究竟发生了什么。

1062
来自专栏大数据挖掘DT机器学习

比较R语言机器学习算法的性能

原文:Compare The Performance of Machine Learning Algorithms in R 译文:http://g...

3356

扫码关注云+社区