空间金字塔池化Spatial pyramid pooling net,用于语义分割

水球喵子

发布于 2018-04-10 11:25:40

1.3K0

发布于 2018-04-10 11:25:40

文章被收录于专栏：计算机视觉

这篇文章属于小笔记类型，了解空间金字塔的作用就好。

金字塔池化层有如下的三个优点，第一：他可以解决输入图片大小不一造成的缺陷。第二：由于把一个feature map从不同的角度进行特征提取，再聚合。第三：同时也在object recongtion增加了精度。其实，是因为在卷积层的后面对每一张图片都进行了多方面的特征提取，他就可以提高任务的精度。

SPP

我们可以看到这里的spatital pyramid pooling layer就是把前一卷积层的feature maps的每一个图片上进行了3个卷积操作。最右边的就是原图像，中间的是把图像分成大小是4的特征图，最右边的就是把图像分成大小是16的特征图。那么每一个feature map就会变成16+4+1=21个feature maps。我们即将从这21个块中，每个块提取出一个特征，这样刚好就是我们要提取的21维特征向量。这就解决了特征图大小不一的状况了。

首先通过选择性搜索（selective search），对待检测的图片进行搜索出2000个候选窗口

进行特征提取

这一步是和R-CNN最大的区别，用卷积神经网络进行特征提取，但是SPP-Net用的是金字塔池化提取特征。

这一步骤的具体操作如下：

SSP-Net输入是：整张待检测的图片，进入CNN中，进行一次特征提取，得到feature maps，然后在feature maps中找到各个候选框的区域，再对各个候选框采用金字塔空间池化，提取出固定长度的特征向量。

R-CNN输入：是每个候选框，然后在进入CNN,所以对于2000个候选框，都要进入一次CNN。

FCN是把全连接层去掉了，只剩下卷积层，这样，不管你输入多大的图片都无所谓啦~~

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2017.07.17 ，如有侵权请联系 cloudcommunity@tencent.com 删除

卷积神经网络

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

卷积神经网络

登录后参与评论

0 条评论

热度