前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >论文阅读: Faster R-CNN

论文阅读: Faster R-CNN

作者头像
JNingWei
发布2018-09-27 11:28:11
6330
发布2018-09-27 11:28:11
举报
文章被收录于专栏:JNing的专栏

Introduction

作者的本意说白了就是:

让 ‘生成RP’ 这个task也能享受到GPU的利好。

RP原本主要用SS (Selective Search) 来生成,只能在CPU上跑。一张图片生成~2,000个proposal,效率0.5fps,实在太慢。 想让GPU来揽下这个活儿,就必须把问题转换成GPU能接受的任务形式:network

对应的,设计出来的network自然就叫 RPN (Region Proposal Network) 了。 RPN抱上了GPU的大腿,每张图片还是生成~2,000个proposal,但是效率飞跃到了100fps。

Structure

以下是我画的Faster R-CNN结构:

RPN

RPN的本质是 “ 基于滑窗的无类别object检测器 ” 。

以下是我画的RPN结构:

RPN的运用使得region proposal的额外开销就只有一个两层网络。 从此,“生成RP”的市场被RPN完全垄断了。 至于one-stage系,它们压根不需要生成RP,自然也就从未引进RPN。

Note:

  • 不生成RP的Detection算法都是one-stage系;
  • 生成RP的Detection算法都是two-stage系或者古老的multi-stage系(Cascade R-CNN这种four-stage属于例外)。

Anchor

没有了SS,network要如何“从无到有”地生成~2,000个proposal呢?RBG大神想到了在输入RPN的feature map (起初是topmost,后来变成multi-scale) 上穷举出anchor。

Note:

  • “anchor”这个名词是Faster R-CNN第一个提出来的。前人也有过类似尝试,但没有研究这么深。

后来的SSD承接了Faster R-CNN的设计,选用的“anchor套餐”和Faster R-CNN不一样:

“anchor套餐”

生成方式

生成位置

生成anchor数

k值

Faster R-CNN 的选择

conv:3×3

conv5_3

k⋅W⋅Hk⋅W⋅Hk\cdot W\cdot H

3×3=9

SSD 的选择

conv:3×3(前五层)、conv:1×1(第六层)

conv4_3、fc7、conv8_2、conv9_2、conv10_2、conv11_2

k⋅W⋅Hk⋅W⋅Hk\cdot W\cdot H

6(第二~四层)、4(第一、五、六层)

multi-scale的角度看:

  • SPPNet第一个提出了multi-scale,但只是在topmost feature map上尝试通过SPP Layer(多scale的max pooling)来实现的multi-scale;
  • Fast R-CNN在该方向无作为;
  • Faster R-CNN号称自己的multi-scale anchor能够好过你们这些pyramid;
  • 在FPN(+Faster R-CNN)时,feature map已经具有了multi-scale,anchor在每层feature map上就只需要单scale了;
  • RetinaNet虽然沿用了FPN作为basemodel,却发现在multi-scale的feature map上再分别玩multi-scale anchor(通过anchor分别乘上20202^{0}、21/321/32^{1/3}、22/322/32^{2/3}来实现),效果更好,并采用之;
  • SSD第一个在multi-scale feature map上尝试“multi-scale”;
  • 由于意识到了multi-scale对精度的重要影响,后人(除了YOLOv1)都把“multi-scale”作为了标配。

Loss

Faster R-CNN一共有4个loss,包括:

  • RPN 的 二分类(1+1)lossreg loss
  • RoI-wise network 的 全分类(k+1)lossreg loss

Innovation

RPN的出现,使得SS走入历史。

speed上:

  • 解决了two-stage系的 proposal生成慢 的瓶颈(数量并没有发生多少变化)。

accuracy上:

  • 对 Fast R-CNN 的一次大提升 (因为RPN生成的proposal质量肯定高过Selective Search生成的) 。

Result

  • ILSVRC2015 1st-place
  • COCO2015 1st-place

Thinking

Faster R-CNN将Fast R-CNN中的“网络化”趋势做到了极致,实现了“All in one network”。


[1] Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2018年05月19日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Introduction
    • Structure
      • RPN
        • Anchor
          • Loss
          • Innovation
          • Result
          • Thinking
          相关产品与服务
          GPU 云服务器
          GPU 云服务器(Cloud GPU Service,GPU)是提供 GPU 算力的弹性计算服务,具有超强的并行计算能力,作为 IaaS 层的尖兵利器,服务于生成式AI,自动驾驶,深度学习训练、科学计算、图形图像处理、视频编解码等场景。腾讯云随时提供触手可得的算力,有效缓解您的计算压力,提升业务效率与竞争力。
          领券
          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档