Introduction
Face++的Li Zeming大神注意到了现有Detection Network的两大通病:
- 寄生于原为class task而设计的network,牵强地附加上其他辅助结构(SPP layer/RoI Pooling/RoI Align/Position-sensitive score map)来实现Detection;
- 下采样能带来大感受野,从而提升class任务精度;但又会损失空间信息,影响detection精度。二者难以协调。
为此,Li Zeming大神专门设计了Detection专属的DetNet Backbone。结构如下:
并设计了专属的bottleneck:
需要注意的是,DetNet本身只是一个backbone,和FPN一样,只是为广大two-stage detector服务的RP供应商。因此它是无法独立存在来完成检测任务的。
Innovation
最大的创新点,其实就是将原本的32X的下采样,用两个16X的卷积来替换。这样既能通过叠加卷积实现感受野的扩张,也避免了因为下采样所导致的位置信息的丢失:
其实呢,个人感觉这不是什么新东西。YOLO早在16年就有类似的操作了:
另外是层组件上的改进,设计了一套(A+B)bottleneck组合:
感觉就是Inception的变种。
Result
刷到了新的state-of-the-art:
该backbone在分割任务上也同样出众,说明general性能好:
po出效果图:
Thinking
- 这篇文章的创新点和FAIR的 Focal Loss 类似,都是一点点的小改进,但却是涨点的大杀器。
- 不过我总觉得backbone极似YOLOv1的网络结构。one-stage系的YOLOv1是几个下采样后缩小32X,之后几个连续的同size卷积。DetNet则是下采样到16X就停止了,然后几个连续的同size卷积号称可以在扩大感受野的同时不损失空间信息。
或许是YOLOv1无心插柳,却被DetNet注意到了,并深入挖掘了背后的理论知识吧。
- 这是第一次专门针对Detection所设计的Network。估计也只有Li Zeming大神有底气用这么霸气的名字了吧。
- 另外,或许Li Zeming大神可以学习一下He Kaiming大神的写作,对该创新点进行更加高大上的包装。
- 看论文格式,应该是打算投ECCV。
- 最后,期待Li Zeming大神的源码发布。
[1] DetNet: A Backbone network for Object Detection