CVPR2020 中科院+商汤出品 Small Big Net

BBuf

发布于 2020-08-04 16:27:59

7200

发布于 2020-08-04 16:27:59

文章被收录于专栏：GiantPandaCVGiantPandaCV

1. 简介

时空卷积常用于视频分类任务，然而其有限的视野使其影响网络对视频数据的表征能力

为了解决该问题，我们提出了一种SmallBig网络，它分为small biew和big view两个分支

「其中small view用来捕获核心语义，big view用来捕获上下文语义。同时big view这一分支能给small view更大的感受野」。

2. 介绍

「时空卷积只对时间维度上有大感受野，因此会对空间信息提取不充分，甚至会引入噪声」

3x1x1的时空卷积

比如这是1个3x1x1的时空卷积。

在不同帧下，它所得到的信息不一样。前面一帧是手臂，最后一帧则是上半部分身体。这几帧所得到的信息不仅冗余，还引入噪声，很难让网络去推断这是个跳高的动作。为了解决这一问题，我们提出了一个SmallBig单元

SmallBig单元

我们先对Big Branch做了一个3D 最大池化，它「选取其中表征最大的特征」，比如红色框这里标记出来运动员腿部，「同时能为small分支提供一个大感受野」
两个分支「共享1x1x1卷积参数」，「进而加强两个分支的关联性」，有助于提高准确率该结构以数学公式表达如下

我们以该模块作为基础，按照Resnet的方式构建了最终的网络架构

一共有这几种模块 c：使用3x1x1的3D最大池化层 d：使用3x3x3的3D最大池化层，「同时也为空间域上提供了更大的感受野」e：在最后一层使用了TX3X3的3D最大池化层。这么做的原因是前面两个3D最大池化层都扩展到空间域上，后面还加了个1x3x3的卷积，就更进一步扩大了空间域的感受野。「为了保持时空两个感受野一致，需要在时间维度上扩张」f：在e的基础上加入了额外的smallbig单元。此时TxHxW大小的池化层，得到了一个「全局特征向量」，这一向量通过sigmoid激活，做了一个「注意力机制」

最终网络整体结构图如下

3. 与NonLocal的区别

作者将NonLocal算法的公式进行化简，最后一行也表明两个机制的相似性。进一步分析

Nonlocal采用的是寻找相似的上下文信息，做一个软注意力(soft-attention)。而SmallBig的出发点是使用最大池化作为一个硬注意力(hard-attention)，从而获取关键的上下文信息
两者的感受野是有区别的。Nonlocal是以全局的思想学习长期信息，而SmallBig是以局部的形式去捕捉细微特征。另外SmallBig的感受野是渐进式增大的，从局部学习到全局信息