专栏首页唐国梁Tommy笔记分享 : 论文解读 Spatial Pyramid Pooling in Deep Convolutional

笔记分享 : 论文解读 Spatial Pyramid Pooling in Deep Convolutional

今天分享的学习笔记是CV(Computer Vision)领域中一篇论文,该论文由何凯明大神于2015年发表。何大牛在CV界几乎无人不知、无人不晓。

今天这篇论文的题目是《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》,接下来,我们一起学习一下。

【注意:这篇论文于2015年发表,比较早了,所以有些表述是基于当时的情境。】

论文开篇提出了一个问题或现状,即:现有的(指2015年以前啦)深度神经网络需要固定输入尺寸,比如224x224。这种预先设定的尺寸会降低在任意大小或尺度上图像的识别准确率。既然存在问题,那么就有解决方案。作者提出了SPP-net,spatial pyramid pooling的简称,中文翻译是:空间金字塔池化。SPP的主要目标是不管输入图像的大小或尺度,SPP都会生成一个固定长度的表示(representation)。

在Introduction部分,作者总结了SPP的三大非常好的特性,分别是:

① SPP不受输入image大小或尺度的限制,都会生成固定长度的表示;

② SPP使用了多层空间的bins(multi-level spatial bins);

③ 由于输入尺度的灵活性,SPP能够共享基于不同尺度提取的特征。

个人观点:这三种特性增加了网络提取特征的灵活性,同时基于共享特征,可以减少计算量。

接下来,我们看一下深度网络中SPP到底做了哪些事情?

第一件事:SPP通过共享局部空间的bins来保存空间信息,因而提升了BoW (Bag of Words);

第二件事:无论输入image的大小是多少,这些bin的数量是固定的,且这些空间bins的大小与image的大小成比例关系;

以下是SPP网络结构图:(256 :第5层卷积层的filter的数量)

个人观点:如图所示,基于feature map,SPP基于多个尺度提取信息,然后拼接这些信息,形成固定长度的representation。这种方法的优点是可以对物体特征的提取更加细粒度,检测和识别效果也会更好。

我们继续看一下网络的训练部分,这里分成两种情况:single-size training 和 multi-size training

1. single-size training (论文结论是不采用此种方法,这里不予介绍)

2. multi-size training : 会将之前的图片尺寸由224x224转换为180x180,除了会降低分辨率,并不会改变图片中内容或布局。

以上single/multi-size仅针对training部分,在test阶段,SPP适用于任意尺寸的图片。

个人观点:这里的多尺度训练,主要还是让模型提取更多信息,使得模型的泛化性能更高。

在论文中,作者用SPP-net分别在image classification和object detection上进行了大量对比实验,感兴趣的同学可以看一下这个结果对比数据。

例如,SPP在ImageNet 2012 分类任务上的实验,作者用了3种网络模型,如图所示:

同时,作者通过以下几个tricks提高了accuracy,这几个tricks分别是:multi-level pooling,multi-size training,full-image representation 以及 multi-view testing。

关于在VOC 2007 classification上的实验,请查看论文中的数据对比。

个人观点:在六年前,SPP用的这些模型进行实验,得到的结果确实不咋好。毕竟技术‘日’新月异,变化太快。不过,SPP这种思想在后续的很多算法中得到了体现,例如RPN。

那么,SPP-net在object detection上表现如何呢?

SPP采用了RCNN算法的思想,对于每张图片,利用selective search算法采样2000个候选框,针对每个候选框,采用4个spatial pyramid(1×1, 2×2, 3×3, 6×6, totally 50 bins)提取特征。每个候选框用12800维(256x50)来表示。然后,这些representations被输入到全连接层FC,然后用SVM进行分类。

个人观点:SPP这种检测算法其实比较落伍了,目前YOLO v4/v5算法可比这快好几个量级的速度。

最后,是本论文的结论:

1. SPP 解决不同尺度、大小、长宽比非常灵活;

本文分享自微信公众号 - 唐国梁Tommy(TangGuoLiangAI),作者:唐国梁Tommy

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2021-05-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 【专知荟萃09】目标检测知识资料全集(入门/进阶/论文/综述/视频/代码等)

    目标检测(物体检测, Object Detection) 专知荟萃 入门学习 进阶文章 综述 Tutorial 视频教程 代码 领域专家 入门学习 图像目标...

    WZEARW
  • 论文阅读理解 - Pyramid Scene Parsing Network

    PSPNet 特点: * 场景标注 Scene parsing * 全局内容信息 global context information * dif...

    AIHGF
  • 【论文推荐】最新五篇图像分割相关论文—R2U-Net、ScatterNet混合深度学习、分离卷积编解码、控制、Embedding

    【导读】专知内容组整理了最近五篇图像分割(Image Segmentation)相关文章,为大家进行介绍,欢迎查看! 1. Recurrent Residual...

    WZEARW
  • 语义分割 - Semantic Segmentation Papers

    语义分割类的论文与代码汇总 逐渐迁移到搭建的博客上 - AIUAI - www.aiuai.cn 新地址 - 语义分割 - Semantic Segme...

    AIHGF
  • 深度学习与TensorFlow:FCN论文翻译

    这篇论文跟上一篇的VGG论文一样,在深度学习领域同样的经典,在2015年的CVPR,该论文拿到了best paper候选的论文,在之后的PASCAL VOC20...

    云时之间
  • 【每周CV论文推荐】 初学目标检测必须要读的文章

    欢迎来到《每周CV论文推荐》。在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的。

    用户1508658
  • 语义分割DeepLab v2

    DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convol...

    用户1148525
  • 读论文系列:Object Detection SPP-net

    本文为您解读SPP-net: Spatial Pyramid Pooling in Deep Convolutional Networks for Visua...

    梦里茶
  • 语义分割研究党福利来袭,谷歌宣布开源 DeepLabv3+

    DeepLab 是一种用于图像语义分割的顶尖深度学习模型,其目标是将语义标签(如人、狗、猫等)分配给输入图像的每个像素。 经过三年左右的发展,目前 DeepLa...

    AI研习社
  • 原始图片中的ROI如何映射到到feature map?

    最后找到一篇靠谱的文章 卷积神经网络物体检测之感受野大小计算 - machineLearning - 博客园,它给出了一个不错的启发,还附带了代码,最关键的是它...

    用户1908973
  • 转-------CNN图像相似度匹配 2-channel network

    徐飞机
  • ResNet、Faster RCNN、Mask RCNN是专利算法吗?盘点何恺明参与发明的专利

    前段时间OpenCV正式将SIFT算法的实现从Non-free模块移到主库,因SIFT专利到期了(专利授权后,从申请日开始有20年的保护期)。

    CV君
  • 论文阅读学习 - (DeeplabV3+)Encoder-Decoder with Atrous Separable Convolution

    DeepLabV3 采用多个不同比例的并行 atrous conv 来挖掘不同尺度的上下文信息,记为 ASPP.

    AIHGF
  • CNN卷积神经网络的改进(15年最新paper)

    回归正题,今天要跟大家分享的是一些 Convolutional Neural Networks(CNN)的工作。大家都知道,CNN 最早提出时,是以一定的人眼生...

    深度学习思考者
  • Github项目推荐 | AutoML与轻量模型列表

    本项目旨在为自动化研究(特别是轻量级模型)提供信息。有兴趣的同学可以进行收藏或者在Github中推荐/提交项目(论文、项目仓库等)。

    AI研习社
  • 论文解析之《Fully Convolutional Adaptation Networks for Semantic Segmentation》

    论文网址:Fully Convolutional Adaptation Networks for Semantic Segmentation

    狼啸风云
  • DeepLab V3

    好长一段时间没有和大家见面,但是在学习群里,大家每天都是非常活跃的进行着学术邻域的探讨,今天算是四月的初始,又是一个清爽明媚的季节,在这个样的季节中,大家一定都...

    计算机视觉研究院
  • tensorflow 语义分割系列DeepLabV3/V4实践

    语义分割是图像高级别像素理解的主要任务之一,也是无人驾驶的重要技术基础。前面已经对该方面进行过复现实验,见:空洞卷积与DeeplabV2实现图像语...

    sparkexpert
  • 目标检测综述

    这张图清楚说明了image classification, object detection, semantic segmentation, instance...

    故事尾音

扫码关注云+社区

领取腾讯云代金券