专栏首页机器学习、深度学习3000类目标检测--R-FCN-3000 at 30fps: Decoupling Detection and Classification

3000类目标检测--R-FCN-3000 at 30fps: Decoupling Detection and Classification

R-FCN-3000 at 30fps: Decoupling Detection and Classification Code will be made available

本文主要解决的问题是怎么实时检测3000类物体。主要思路就是将 object检测和物体分类 分离 我们提出的 R-FCN-3000 比 YOLO9000 高 18%,速度每秒 30帧。 对于几十类的物体实时检测已经发展的比较成熟了。但是在实际生活中,物体的类别达到几千种。 最近提出的 fully convolutional class of detectors 对于给定图像计算每个类别的 objectness score,它们使用有限的计算资源可以达到很高的精度。尽管 fully-convolutional representations 对诸如目标检测、实例分割、跟踪、关系检测等提供了一个有效的方法。但是它们需要一组特定滤波器 来学习每个类别的相关信息,require class-specific sets of filters for each class。 例如 R-FCN / Deformable-R-FCN requires 49/197 position-specific filters for each class Retina-Net requires 9 filters for each class for each convolutional feature map

R-FCN-3000 最关键的地方就是将 objectness detection and classification 解耦,这样类别的增加不会增加定位步骤的计算量。 The key insight behind the proposed R-FCN-3000 architecture is to decouple objectness detection and classification of the detected object so that the computational requirements for localization remain constant as the number of classes increases

4.1. Weakly Supervised vs. Supervised? 半监督的效果要差于 监督学习方法,所以这里我们还是用有监督的训练方法。我们对 ImageNet database 里的图像进行标记,每个图像只有 1-2 个物体

We show that careful design choices with respect to the CNN architecture, loss function and training protocol can yield a large-scale detector trained on the ImageNet classification set with significantly better accuracy compared to weakly supervised detectors

R-FCN-3000 主要思路如下

图示显示有两个流程,上面流程负责物体的有无,即提取有效候选区域,不管其具体的物体类别信息, super-class detector。 下面的流程负责每个候选区域的类别信息。 最后将两者的信息融合起来得到每个候选区域的类别信息及有物体的概率。

Super-class Discovery 这里我们首先从 the final layer of ResNet-101 提取 一个 2048-dimensional feature-vectors 表示一个类别的信息,对于 C 个类别 一共有 C 个 2048-dimensional feature-vectors,这个 C 个特征向量 applying K-means clustering,得到 K 个 super-class clusters, When K is 1, the super-class detector predicts objectness

11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 分割候选区域--FastMask: Segment Multi-scale Object Candidates in One Shot

    FastMask: Segment Multi-scale Object Candidates in One Shot CVPR2017 https:/...

    用户1148525
  • ubunu16.04 TensorFlow object detection API 应用配置

    TensorFlow object detection API应用–配置 主要参考 : https://github.com/tensorflow/mode...

    用户1148525
  • 网络模型--Densely Connected Convolutional Networks

    Densely Connected Convolutional Networks CVPR2017 best paper Code: https://...

    用户1148525
  • 2019 牛客暑期多校训练营 第五场 F maximum clique 1 最大独立集

    解:至少两位 补集是 至多一位不同也即恰好一位不同,因为这些数相异 ,不存在0为不同。

    用户2965768
  • MapReduce之分区器(Partitioner)

      Partitioner 组件可以对 MapTask后的数据按Key进行分区,从而将不同分区的Key交由不同的Reduce处理。这个也是我们经常会用到的功能。

    用户4919348
  • BZOJ 4152: [AMPPZ2014]The Captain(最短路)

    Description 给定平面上的n个点,定义(x1,y1)到(x2,y2)的费用为min(|x1-x2|,|y1-y2|),求从1号点走到n号点的最小费用...

    attack
  • 英国脱欧对科技领域的五个影响

    昨日,英国正式脱欧。 英国正式脱欧前,民调显示:「留下」和「离开」欧盟的对立意见持续很久。但来自科技与创新产业的意向是非常明确:不希望英国脱欧。 根据《卫报》指...

    人称T客
  • Linux学习_010_在 CentOS6.8 上安装 Eclipse

    安装环境:CentOS 6.8 桌面版(其他发行版本安装过程基本一样) 所需软件:(下载时选择 Linux 版 tar.gz 格式)   1、Oracle jd...

    黑泽君
  • Hadoop学习笔记—4.初识MapReduce

      MapReduce是Google的一项重要技术,它首先是一个编程模型,用以进行大数据量的计算。对于大数据量的计算,通常采用的处理手法就是并行计算。但对许多开...

    Edison Zhou
  • Rxjava 2.x 源码系列 - 变换操作符 Map(上)

    版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/gdutxiaoxu/article/de...

    用户2965908

扫码关注云+社区

领取腾讯云代金券