Network In Network

故事尾音

发布于 2019-12-18 16:53:30

1.2K0

发布于 2019-12-18 16:53:30

文章被收录于专栏：NLP算法工程师之路NLP算法工程师之路

论文Network In Network(Min Lin, ICLR2014).

论文的主要贡献

采用 mlpcon 的结构来代替 traditional 卷积层
采用 global average pooling 层代替卷积神经网络最后的全连接层

NIN

传统cnn网络中的卷积层其实就是用线性滤波器对图像进行内积运算，在每个局部输出后面跟着一个非线性的激活函数，最终得到的叫作特征图。而这种卷积滤波器是一种广义线性模型。所以用CNN进行特征提取时，其实就隐含地假设了特征是线性可分的，可实际问题往往是难以线性可分的。

什么样的模型抽象水平更高呢。当然是比线性模型更有表达能力的非线性函数近似器了（比如MLP 多层感知神经网络）。

MLP的优点：

非常有效的通用函数近似器
可用BP算法训练，可以完美地融合进CNN
其本身也是一种深度模型，可以特征再利用

NIN和1x1卷积的关系

因为NIN中的MLP层可以用两层1×1卷积核来代替，比如当前这一层是54×54×96的图像层，然后过一个1×1×96的卷积核，还是一个54×54×96的卷积层，然后再过一个1×1×96的卷积核，还是一个54×54×96的卷积层。但是这样但看最开始那个96个特征层的图像同一个位置不同层之间的像素点，相当于过了一个96×96×96的MLP网络。

1x1卷积

如果卷积的输出输入都只是一个平面，那么1x1卷积核并没有什么意义，它是完全不考虑像素与周边其他像素关系。但卷积的输出输入是长方体，所以1x1卷积实际上是对每个像素点，在不同的channels上进行线性组合（信息整合），且保留了图片的原有平面结构，调控depth，从而完成升维或降维的功能。

比如3x3卷积或者5x5卷积在几百个filter的卷积层上做卷积操作时相当耗时，所以1x1卷积在3x3卷积或者5x5卷积计算之前先降低维度。比如，一张500×500且厚度depth为100 的图片在20个filter上做1×1的卷积，那么结果的大小为500×500×20。然后再进行3x3卷积或者5x5卷积就可以了。

总结一下：