在COCO数据集上实现了精度和运算量的最好Trade-Off
上周六解读了Google Brain在2019年的大作EfficientNet,可以在这个链接找到:卷积神经网络学习路线(二十二)| Google Brain EfficientNet。紧接着Google Brain又提出了这篇EfficientDet一举刷新MS COCO数据集的目标检测精度,今天就一起来看看这篇论文的核心思想吧。论文原文见附录,代码实现官方没开源,文后有一个别人复现的链接。
模型的效率在计算机视觉中的地位越来越重要,这篇论文系统的研究了用于目标检测的各种神经网络结构设计选择,并提出了提高效率的几种关键优化方法。首先,论文提出了一个基于加权的双向特征金字塔网络(BiFPN)允许简单快速的进行多尺度特征融合。其次,论文提出了一种复合尺度扩张方法,该方法可以统一地对所有的Backbone网络,特征网络和预测网络的分辨率,深度和宽度进行缩放。基于这些优化,本文的新网络被称为EfficientDet。特别地,本文的EfficientDer-D7以52M的参数量和326B FLOPs的运算量在MS COCO数据集上实现了SOTA的51.0 mAP,比当前精度最高的检测器mAP值高3个点,速度快4倍,且参数量少9.3倍。
EfficientDet是在EfficientNet的基础上针对目标检测任务提出的,它的贡献可以总结为如下几点:
如下图所示,BiFPN在Simplifield 的基础上增加了横向直连。
Figure2 BiFPN与其他的特征融合方法的比较
同时,作者观察到以前的征融合方法对所有输入特征一视同仁,在BiFPN中则引入了加权策略,下边介绍论文提出来的加权策略,也可以看作一种Attention机制。具体来说特征融合方法可以分成以下几种:
softmax
。公式如下:softmax
比较慢,于是作者提出了快速的限制融合方法,公式如下:。为了保证weight大于0,在weight前使用ReLU激活函数。以Figure2中的第6层为例,公式如下:在上图BiFPN结构中第6层中的加权特征融合
EfficientDet的网络结构如Figure3所示,使用了EfficientNet和Bi-FPN,最后接上分类头和回归头即可。
EfficientDet网络结构
模型复合扩张请读一下之前对EfficientNet的解读。论文将EfficientDet的模型复合扩张分成以下几个部分。
对于BiFPN network中width和depth的设置
对Box/class prediction network中的depth的设置
对于Input image resolution的设置
详细的复合系数设置汇总到Table1中了。
EfficientDet各个模型扩张复合系数表
在MS COCO数据集上和其他流行的检测网络的详细对比结果如Table2所示。
EfficientDet在COCO的表现
模型大小和推理延迟的比较如Figure4所示。
模型大小和推理延迟
不同特征融合方式的对比实验结果如Table5所示。
不同特征融合方式的对比实验结果
不同缩放方式的比较结果,本文复合融合是最强的
从结果看起来是非常牛逼的,不过具体用起来怎么样我们暂时也是不知道的,毕竟没有开源。等开源之后,如果真的好用,将是对目标检测领域的一个极大冲击,很可能在工业界大展身手。
欢迎关注GiantPandaCV, 在这里你将看到独家的深度学习分享,坚持原创,每天分享我们学习到的新鲜知识。( • ̀ω•́ )✧