代码也已开源,可谓实用之佳作。
作者信息:
下图展示了使用此trick大礼包训练Faster RCNN和YOLOv3之后,获得的精度增益,相同的算法最多竟有+4.0%AP的增长!
论文使用了dramatically(戏剧性地)这个词来修饰,实不为过!
训练技巧
作者们在文章主要公布了以下训练实用技巧:
1.视觉一致的Image Mixup(Visually Coherent Image Mixup for Object De- tection)
Image Mixup已经成功用于图像分类的样本增广,做法非常简单,图像简单按照比例进行像素混合,如下图:
同样,将带有目标的两幅图像也可以像素混合,生成新的图像含有含有原来的目标,用在目标检测的Image Mixup示意如下:
2.分类头标签平滑(Classification Head Label Smoothing)
3.数据预处理(Data Pre-processing)
主要是随机几何变换和颜色扰动。
4.训练调度程序改造(Training Scheduler Revamping)
改进学习率的衰减方法,使用cosine schedule 代替step schedule取得了更好的结果,如下图:
5.同步批归一化(Synchronized Batch Normalization)
方便多GPU训练。
6.随机形状训练(Random shapes training for single-stage object detection networks)
实验结果
作者首先研究了使用上述trick大礼包(文中以BoF代之)后对目标检测中各个类的影响。
在COCO数据库上,如下图所示,红色代表精度提高,可见绝大部分类别检测精度提高。尤其是Faster RCNN算法,几乎都是明显地正增长。
下图是YOLOv3和Faster RCNN在Pascal VOC 2007 test set上的结果,改进非常明显!
下图是在MS COCO 2017 val set上的结果,同样两种目标检测算法都获得精度提升。
算法检测结果示例:
代码论文地址
https://arxiv.org/abs/1902.04103v1
https://github.com/dmlc/gluon-cv