文章开篇即指出,现有的三种 Scale handling 方法都不好。
基于深度网络的检测算法出来之前,检测算法基本都是基于这种scale handling;后来出现的SNIP、SNIPER也是基于Image Pyramid。
使用Single feature map的包括R-CNN、SPPNet、Fast R-CNN、Faster R-CNN、YOLOv1以及R-FCN系列。
使用Pyramidal feature hierarchy的包括SSD。
Note:
如何能设计一个算法,能同时做到:
设计出包含 “ top-down路径 ” 和 “ 横向连接 ” 的套件,来 融合 “ 少位置信息而多语义信息的top层feature map ” 和 “ 多位置信息而少语义信息的down层feature map ” :
具体地,“ top-down路径 ” 采用 2×上采样 来保证左右的scale相同;“ 横向连接 ” 采用 conv1×1 降维来保证所有channel都为256-d:
Note:
FPN组件明显能提升召回率:
在COCO数据集上Fast R-CNN因为使用了FPN组件而精度涨点:
同样也能让COCO数据集上的Faster R-CNN精度涨点:
用了FPN的Faster R-CNN,效果拔群: