DLA：一种深度网络特征融合方法

CV君

发布于 2021-04-20 11:09:24

1.9K0

发布于 2021-04-20 11:09:24

文章被收录于专栏：我爱计算机视觉

本文回顾一篇CVPR 2018 的论文 Deep Layer Aggregation，一种网络特征融合方法，谷歌学术显示目前该文已有398次引用，希望对研究网络基础结构设计的同学有启发。

论文：https://arxiv.org/pdf/1707.06484.pdf

代码：https://github.com/ucbdrive/dla

0.动机

CNN为多种计算机视觉任务提供了很好的解决方案。随着视觉任务对高性能算法更严格的追求，Backbone的设计成为了一个很重要的主题。

更多的非线性操作、更大的网络往往能提高模型性能，bottleneck、residual block、concatenative connection等模块的出现，进一步增强了网络的性能和可实现性，网络架构也从最初的串行连接逐渐演变成包含skip connection的形式。

作者认为当前流行的skip connection结构过于单一，因此设计了IDA（Iterative Deep Aggregation）和HDA（Hierarchical Deep Aggregation）两个结构，作为对skip connection的扩展，能够更好地融合语义和空间特征。

1.IDA（Iterative Deep Aggregation）

为便于叙述，作者将CNN架构进行模块化拆分，1个CNN由多个stage组成，1个stage由多个block组成，每个block包含多个layer，用下面的图标表示block和stage：

传统的串行连接的CNN如下图所示：

为了融合浅层的底层信息和深层的语义信息，引入从浅层向深层的skip connection，如下图所示：

在此基础上，作者提出了IDA（Iterative Deep Aggregation）模块，结构如下：

上图中绿色的方块称作“Aggregation Node”，Aggregation Node在特征由浅到深传播的同时聚集特征。

使用如下公式表示上图：

I\left(\mathbf{x}_{1}, \ldots, \mathbf{x}_{n}\right)=\left\{\begin{array}{ll} \mathbf{x}_{1} & \text { if } n=1 \\ I\left(N\left(\mathbf{x}_{1}, \mathbf{x}_{2}\right), \ldots, \mathbf{x}_{n}\right) & \text { otherwise } \end{array}\right.

在上面的公式中，表示整个IDA模块，表示Aggregation Node。例如表示一个输入为和的Aggregation Node，即图中最左侧的绿色方块。

从上图中也可以看出，IDA以stage为基本单位，IDA结构在多个stage外部增加连接和Aggregation Node。

2.HDA (Hierarchical Deep Aggregation)

IDA能够有效融合多个stage的特征，但是没有对stage内部多个block的特征进行融合。作者提出了HDA（Hierarchical Deep Aggregation）结构增强stage内部多个block的融合，如下图所示：

在上图结构的基础上，为了进一步对特征进行聚合，将Aggregation Node中的特征引回到Backbone中，使得当前block将前面聚合后的特征作为输入，如下图所示：

为提高计算效率，将上图中同一深度的Aggregation Node进行融合，融合后的结构如下图所示：

3.Aggregation Node

根据上文内容可以看出，在IDA结构中，Aggregation Node的输入为2个；在HDA结构中，Aggregation Node的输入为2个或更多。Aggregation Node将多个输入的特征进行融合，形成单一特征并输出。

可以使用任意网络结构构造Aggregation Node，为减少计算量，作者使用单个“卷积-BN-激活函数”结构来构造Aggregation Node，一般情况下使用卷积，表达式为：

上式中表示非线性激活函数，和表示卷积中的weight和bias。

此外，作者尝试在Aggregation Node中加入residual connection，表示如下：

4.Deep Layer Aggregation

将上述的IDA和HDA结合，形成下图所示的DLA（Deep Layer Aggregation）结构：

上图中每个红色框可以看作1个stage，使用IDA连接多个不同的stage，使用HDA融合stage内部的特征，IDA和HDA共享Aggregation Node。上图中包含4个stage，与ResNet类似，每个stage之间会进行降采样操作。这里使用kernel size为2、步长为2的max pooling进行降采样。