目标检测--Light-Head R-CNN: In Defense of Two-Stage Object Detector

Light-Head R-CNN: In Defense of Two-Stage Object Detector Code will be make publicly available

本文对 Two-Stage Object Detector 进行改进,主要侧重的是网络结构的简化速度的提升,性能稍有提升。

首先说说什么是 Two-Stage Object Detector ,就是将目标检测分为两个步骤:候选区域提取+候选区域分类,代表性的方法有 Faster R-CNN [28] and R-FCN [17] 相对于 Two-Stage Object Detector,就有 One-Stage Object Detector,没有候选区域提取这个步骤,直接检测分类,代表性的方法有YOLO [26, 27] and SSD [22]。

Two-Stage Object Detector 能否在速度和精度上都超越 One-Stage Object Detector 了? 我们发现 Two-Stage Object Detector 具有一些共性: a heavy head attached to the backbone network,例如 Faster R-CNN 中使用了较复杂的网络用于每个候选区域的分类和回归,另一个就是 ROI pooling 之后的 feature channels 数目较大导致内存消耗和计算量较大。 所以这里我们提出了一个 轻量级的分类回归网络设计,得到一个 efficient yet accurate two-stage detector,我们主要做了两件事: 1) apply a large-kernel separable convolution to produce“thin” feature maps with small channel number 2)A cheap single fully-connected layer is attached to the pooling layer

3 Our Approach 3.1. Light-Head R-CNN

Faster R-CNN 中的分类器使用了two large fully connected layers or whole Resnet stage5,虽然精度较高,但是计算量大。为了加速 RoI-wise subnet,R-FCN 对每个区域生成一组 score maps,然后pool along each RoI, average vote the final prediction,使用一个 computation-free R-CNN subnet, R-FCN 通过将计算量前移至 RoI shared score maps generation 得到相当检测结果。 Faster R-CNN and R-FCN 都是 heavy head,但是位于网络不同的位置。从 精度的角度来说,尽管 Faster R-CNN 在 区域分类上不错,但是为了降低第一全连接层的计算量进行了 global average pooling ,这对空间定位具有一定的伤害性。 对于 R-FCN 来说, it directly pools the prediction results after the position-sensitive pooling,它的性能要差点。 从速度的角度来分析: Faster R-CNN 对每个候选区域使用了一个 costly R-CNN subnet,所以当候选区域较多时,其整体速度变慢。R-FCN 虽然使用了一个 cost-free R-CNN subnet,但是 对每个 RoI pooling 生成了大量 score map,这导致整个网络的 内存和时间都较大。

3.1.2 Thin feature maps for RoI warping 为了降低计算量,我们提出使用小数目的特征通道 small channel number (thin feature maps) RoI warping on thin feature maps will not only improves the accuracy but also saves memory and computation during training and inference

3.2. Light-Head R-CNN for Object Detection 这里我们设计了两个网络:1)setting “L” to validate the performance our algorithm when integrated with a large backbone network 2) setting“S” to validate the effectiveness and efficiency of our algorithm when uses a small backbone network

Basic feature extractor:setting L: ResNet 101 setting S: utilize the Xception-like small base model Xception like architecture:

Thin feature maps: large separable convolution layers [35, 25] on C5

RPN (Region Proposal Network) is a sliding-window class-agnostic object detector that use features from C4 non-maximum suppression (NMS) is used to reduce the number of proposals

4 Experiments We investigate the impact of reducing channels of feature maps for ROI warping

COCO test-dev

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏深度学习入门与实践

机器学习基础与实践(三)----数据降维之PCA

写在前面:本来这篇应该是上周四更新,但是上周四写了一篇深度学习的反向传播法的过程,就推迟更新了。本来想参考PRML来写,但是发现里面涉及到比较多的数学知识,写出...

1977
来自专栏SnailTyan

Single Shot MultiBox Detector论文翻译——中英文对照

SSD: Single Shot MultiBox Detector Abstract We present a method for detecting ob...

2080
来自专栏数值分析与有限元编程

矩阵特征值计算

对于计算特征值,没有直接的方法。2阶或3阶矩阵可以采用特征多项式来求。但如果试图求下列矩阵的特征值,我们试图用特征多项式 P(x)=(x-1)(x-2)...(...

2645
来自专栏ml

降维之pca算法

pca算法:  算法原理: pca利用的两个维度之间的关系和协方差成正比,协方差为0时,表示这两个维度无关,如果协方差越大这表明两个维度之间相关性越大,因而降维...

3186
来自专栏SIGAI学习与实践平台

用一张图理解SVM的脉络

SVM在之前的很长一段时间内是性能最好的分类器,它有严密而优美的数学基础作为支撑。在各种机器学习算法中,它是最不易理解的算法之一,要真正掌握它的原理有一定的难度...

1201
来自专栏新智元

不可错过的 GAN 资源:教程、视频、代码实现、89 篇论文下载

【新智元导读】这是一份生成对抗(神经)网络的重要论文以及其他资源的列表,由 Holger Caesar 整理,包括重要的 workshops,教程和博客,按主题...

65810
来自专栏机器学习算法原理与实践

主成分分析(PCA)原理总结

    主成分分析(Principal components analysis,以下简称PCA)是最重要的降维方法之一。在数据压缩消除冗余和数据噪音消除等领域都...

814
来自专栏jeremy的技术点滴

机器学习课程_笔记07

3397
来自专栏Python小屋

使用Python+pillow绘制矩阵盖尔圆

盖尔圆是矩阵特征值估计时常用的方法之一,其定义为: ? 与盖尔圆有关的两个定理为: 定理1:矩阵A的所有特征值均落在它的所有盖尔圆的并集之中。 定理2:将矩阵...

2654
来自专栏Pulsar-V

降维技术

常见的几种降维方案 缺失值比率 (Missing Values Ratio) 该方法的是基于包含太多缺失值的数据列包含有用信息的可能性较少。因此,可以将数据列缺...

2694

扫码关注云+社区