首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Beyond Skip Connections Top-Down Modulation for Object Detection

Beyond Skip Connections: Top-Down Modulation for Object Detection

作者:Abhinav Shrivastava, Rahul Sukthankar, Jitendra Malik,Abhinav Gupta

摘要

近年来,我们在目标检测领域取得了巨大的进步。大多数最近的改进都是通过采用更深的前馈网络来实现的。然而,许多硬物类别(如瓶子等)需要细节表示,而不仅仅是粗略的语义表示。但是,大部分这些细节都在早期的卷积层中丢失了。我们需要的是将较低层的更精细的细节融入检测架构的方法。已经提出skip connection来结合high-level和low-level特征,但是我们认为从low-level选择正确的特征需要top-down contextual information。受人类视觉通路的启发,在本文中,我们提出top-down modulation作为将精细细节融入检测框架的一种方式。我们用一个自顶向下的神经网络补充经典的自底向上的前馈网络,用横向连接进行连接。这些连接负责调制较低层过滤器,top-down网络负责处理上下文信息和低级功能的选择和集成。所提出的TDM架构为COCO基准测试提供了重大推动,VGG16达到28.6 AP,ResNet101网络达到35.2 AP。使用InceptionResNetv2,我们的TDM模型达到了37.3 AP,这是迄今为止在COCO testdev基准测试中的最佳单模型性能,没有任何虚饰之物,在小物体识别上获取了极大提升。

1. Introduction

在目标检测框架中,卷积层和池化层导致了最终层学习到粗糙的,高度语义化的特征。但是,像瓶子等小物体时,更需要诸如水平及竖直边缘这样的细节特征。而这些细节特征正是卷积神经网络在位置靠前的卷积层所要学习的。 那么,我们如何将这些细节融入目标检测?

为了捕捉这些细节特征,目前较流行的是skip connection方法。但是简单的融合高维度skip feature由于维度灾难可能导致过拟合,并不会明显提升网络性能。我们需要的是一个selection/attention 机制,它从较低的卷积层中选择相关的特征。

我们采用自上而下的调制过程。 在人类视觉通路中,一旦接收场属性使用前馈处理进行调整,则自上而下的调制就会通过反馈和水平连接引起。 这些连接在多个层次上调制表示并负责其选择性组合。 我们认为skip connections的使用是这个过程的一个特例,其中调制被降级到最终的分类器,直接试图影响低层特征和/或学习如何组合它们。

在本文中,我们建议将自顶向下调制过程纳入ConvNet本身。 我们的方法补充了标准的自下而上,前馈ConvNet与自上而下的网络,使用横向连接进行连接。 这些连接负责调制和选择较低层过滤器,而自上而下的网络则处理功能的集成。

具体而言,在自下而上的ConvNet传递之后,最终的高级语义特征由自顶向下网络传回。 在侧面处理之后,中间深度的自下而上特征与自上而下的特征相结合,并且这种组合由自上而下的网络进一步传递。 新表示的容量由横向连接和自顶向下连接确定,并且可选地,自顶向下连接可以增加要素的空间分辨率。 这些最终的,可能是高分辨率的自顶向下特征本质上具有局部和更大的接受范围的组合。

所提出的Top-Down Modulation (TDM) 网络是端对端训练的,并且可以很容易地应用于任何基本的ConvNet架构(例如,VGG,ResNet,Inception-Resnet 等)。 为了证明其有效性,我们使用标准的Faster RCNN中提出的网络,并对具有挑战性的COCO进行评估。 我们报告了跨网络体系结构的所有指标的性能一致且显着提升, 这些是迄今为止报告的最好的性能,没有任何虚饰之物(例如,多尺度特征,迭代框精化)。 此外,我们看到小型对象(例如+4.5 AP)和使用自顶向下环境选择细节的对象非常重要。

2. Related Work

目前‘skip connection’方法的思路:使用或组合来自较低层的较精细特征和较高层的粗略语义特征。还有一些方法不是将特征组合起来,而是在多个层次上进行独立预测并对结果取平均值。

与本文类似的工作:

V. Badrinarayanan, A. Kendall, and R. Cipolla. Segnet: A deep convolutional encoder-decoder architecture for image segmentation. arXiv preprint arXiv:1511.00561, 2015.

T.-Y. Lin, P. Dollar, R. Girshick, K. He, B. Hariharan, and ´S. Belongie. Feature pyramid networks for object detection. arXiv preprint arXiv:1612.03144, 2016.

P. O. Pinheiro, T.-Y. Lin, R. Collobert, and P. Dollar. ´Learning to refine object segments. arXiv preprint arXiv:1603.08695, 2016.

A. Ranjan and M. J. Black. Optical flow estimation using a spatial pyramid network. arXiv preprint arXiv:1611.00850, 2016.

O. Ronneberger, P. Fischer, and T. Brox. U-net: Convolutional networks for biomedical image segmentation. In International Conference on Medical Image Computing and Computer-Assisted Intervention, 2015.

3. Top-Down Modulation (TDM)

我们通过提出一个简单的自顶向下调制(TDM)网络来形式化这个网络,如下图所示。

TDM网络从最后一层自下而上的前馈网络开始。TDM网络的每一层也通过横向连接获得自底向上的特征作为输入。 因此,TDM网络学习:(a)发送指导相关低级特征的学习和选择的高级上下文特征,和(b)使用自底向上特征来选择要发送的上下文信息。 拟议网络的输出捕捉到相关的更精细的细节和高层次的信息。

3.1. Proposed Architecture

核心思想就是在自顶到底的特征基础上从低层特征图获取细节特征,我们通过如图2所示的简单自顶到低调制网络(TDM)解决这个挑战。TDM从原网络的上一层获取输入,同时也从原网络的侧向连接获取输入。这样,TDM就能传递高层语义特征,对学习过程进行导向并指导相关低层特征的选择。最终,网络的输出既捕获了细节特征又获取了高层信息。

TDM网络取决于两个关键组件:横向模块L和自顶向下模块T(见图3)。

C_i为原网络的一层,侧向连接将原网络输出x_i^c作为输入,输出x_i^L, x_i^L与自顶到底的特征x_j^T结合,产生自顶到底的特征x_i^T。T_i和L_i通过改变输出特征维度改变调制网络的容量。训练时,反向传播通过T及L到原网络的C。侧向连接L学习如何传递低层特征,自顶向下模块T学习在自顶向下的特征传递中应该保留什么样的语义特征,并且起到筛选相关低层特征的作用。

Architecture details.

Training methodology.

我们通常从一个预先训练的自下而上的网络开始,逐步构建自上而下网络的表现通常会更好。

4. Approach Details

4.1. Preliminaries: Faster R-CNN

我们使用Faster R-CNN 框架作为我们基础的目标检测系统。Faster R-CNN由两个核心模块组成:1)ROI Proposal Network (RPN),它将图像作为输入并提出rectangular regions of interests (ROIs); 和2)ROI Classifier Network (RCN),它是Fast R-CNN 的检测器,对这些提议的区域进行分类并学习改进ROI坐标。

4.2. Preliminaries: Base Network Architectures

在本文中,我们使用三种标准的ConvNet体系结构:VGG16,ResNet101和InceptionResNetv2。

4.3. Top-Down Modulation

应遵循的原则:

(a)粗略的语义模块需要更大的容量;

(b)横向和自下而上的连接应该减少特征的维度以便强制选择;

(c)应由Proposal (RPN)和Classifier (RCN)网络设计通知Tout的能力。

(d)TDM增强的ConvNet应该适用于标准GPU的硬件约束。

5. Results

小物体的平均准确率(APs)得到提高,证明了TDM网络获取特征的有效性。

6. Design and Ablation Analysis

7. Conclusion

本文介绍了Top-Down Modulation (TDM)网络,该网络利用自顶向下的上下文特征和横向连接来实现目标检测的自下而上特征。 TDM网络使用自上而下的上下文来选择较低级别的更精细的细节,并学习将它们集成在一起。 通过对COCO数据集进行实验,我们证明了来自TDM网络的功能的有效性和重要性。 我们通过实证展示了所提出的表示法有益于所有对象,无论大小,都有助于准确定位。 尽管我们专注于目标检测,但我们相信这些自上而下的调制功能将有助于各种计算机视觉任务。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180417G0N6RN00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券