位置蒸馏：针对目标检测提高定位精度的知识蒸馏

CV君

发布于 2021-05-07 11:41:13

1K0

发布于 2021-05-07 11:41:13

文章被收录于专栏：我爱计算机视觉

今日分享一篇最近新出的目标检测论文『Localization Distillation for Object Detection』

论文链接：https://arxiv.org/abs/2102.12252
项目链接：https://github.com/HikariTJU/LD

论文作者来自天津大学、哈尔滨工业大学。

动机

定位的准确性对目标检测算法的性能有很大的影响，而在数据集或者实际应用场景中，位置模糊性（localization ambiguity）是广泛存在的，如下图所示：

上面左图中大象的下边框和右图中冲浪板的右边框是模糊的，很难被检测器检测到，尤其是轻量级的目标检测网络。

在Gaussian yolov3中使用高斯分布对目标边框的不确定性进行建模，GFocal使用一般的离散分布表示目标边框的不确定性，将目标的边框表示为没有任何先验知识限制的离散概率分布。

与上述方法不同，作者将蒸馏学习引入到目标检测网络的定位分支中，提出使用位置蒸馏（简称为LD，Localization Distillation）的方法提高目标框的质量：使用能够解决位置模糊性问题的高性能教师网络，通过蒸馏学习得到学生网络，使得学生网络能像教师网络一样解决位置模糊问题；此外，对于高性能的检测网络使用Self-LD，能够进一步增强网络预测框的精确度。

另外，作者还将Teacher Assistant Strategy引入到LD中，降低使用LD时对教师网络选取的敏感性。

知识蒸馏基础

知识蒸馏（KD，Knowledge Distillation）使得轻量级的学生网络能够模仿高性能的教师网络，提高学生网络的性能。

使用表示教师网络，表示学生网络，和分别表示和中最后一个FC层的输出，对和进行softmax操作得到和。

在KD中，是高性能网络，是轻量级网络，将应用到的训练过程中，使得同时学习ground-truth 和的输出，损失函数为：

上式中的表示交叉熵损失，表示KL散度损失，表示蒸馏温度，和的定义为：

在蒸馏学习过程中，只更新的权重，的权重保持不变。KD通常用于模型压缩中，利用大的模型得到轻量级的模型，以减少模型推理时的计算需求。

Localization Distillation

位置蒸馏

3.1 使用概率分布表示目标框

使用表示目标框，中的4个元素分别表示目标框上边沿、下边沿、左边沿和右边沿到采样点的距离，按照论文《Generalized Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object Detection》中的内容，对于，有：

上式中的表示区间内的回归坐标，表示该坐标对应的概率。即用在不同坐标值处的概率描述回归框中各边框位置的概率分布，用数学期望表示网络预测的最终位置。

为便于将上述表示应用于CNN检测器中，对上式进行离散化。将区间进行等分，即：

，，,

，,

对于回归框中的任一边框，网络的回归分支输出个元素的向量，对使用softmax操作，得到该边框在个位置上的概率分布，即。则可以使用下式计算该边框的最终结果：

则网络预测的回归框可以表示为。在训练时，可以通过和计算Smooth-l1损失、GIoU损失或者CIoU损失。

显然，可以使用目标框中4个边框的概率分布来衡量预测框的不确定性。

3.2 位置蒸馏

在LD中，同样有教师模型和学生模型。为预测目标框中某个边框，教师网络和学生网络分别输出和，对它们进行softmax操作，得到概率分布和，可以用下面的公式表示边框的蒸馏损失：

回归框中4个边框的蒸馏损失表示为：

上述关于位置蒸馏的表述可以用下图表示：

上图中的表示温度为的softmax函数。

位置蒸馏和普通的蒸馏在形式上是一样的，而且不依赖于特定的架构，具有很强的通用性。若有一个能解决边界模糊的高性能教师网络，通过使用位置蒸馏将这种能力迁移至学生模型中，学生模型也具有解决边界模糊性的能力。

对于学生网络，总体的损失函数可以表示为：

上式中的表示回归损失，表示distribution focal loss，表示位置蒸馏损失。在实际使用时，上式中的，。

3.3 Self-LD

蒸馏学习使得轻量化学生网络拥有高性能教师网络的性能，而对教师网络本身使用蒸馏方法，即自蒸馏，也能提高教师网络本身的性能。

同样地，也可以在自蒸馏方法中引入位置蒸馏，即Self-LD，来增强教师网络解决边界模糊性的能力。

Teacher Assistant Strategy

作者通过实验表明，在蒸馏学习时，若选择的教师网络与学生网络的规模差距比较大，反而会降低学生网络的性能。为解决此问题，作者参考论文《Improved Knowledge Distillation via Teacher Assistant》中的方法，引入了Teacher Assistant（简称为TA）方法，以保证蒸馏学习的效果。

对于一个比较大的教师网络和一个比较小的学生网络，指定个Teacher Assistant网络，记作，按照下标从1到，模型的规模逐渐递减。如下图所示：

若不使用Teacher Assistant，即学生网络直接学习教师网络，对应于上图中最上面的一条路径，这种方法得到的学生网络性能会差一些，训练时间最短；
若使用个Teacher Assistant，即学习教师网络，后面的Teacher Assistant依次学习前面的Teacher Assistant，学生网络学习，对应于上图中最下面的一条路径，这种方法得到的学生网络性能最好，训练时间最长；
也可以介于上述2种极端情况之间，使用个Teacher Assistant，对应于上图中间的某条路径，这种方法得到的学生网络性能和训练时间位于上述2种情况之间。

实验

5.1 使用LD提升学生网络性能

在PASCAL VOC和COCO这2个数据集上验证LD对于学生网络的性能提升。在实现过程中，中的值为10。

分别使用ResNet-101和ResNet-101-DCN作为教师网络，使用ResNet-18、ResNet-34和ResNet-50作为学生网络。

PASCAL VOC

使用VOC2007 trainval和VOC2012 trainval训练，使用VOC2007 test测试，训练过程、数据增强等策略遵循mmdetection框架中GFocal模型的配置。结果如下表所示：

COCO

分别使用train2017和val2017作为训练集和验证集，使用COCO2017 test-dev进行评估。结果如下表所示：

从上面2个表格中可以看出，使用LD能使得学生网络有更高的性能。

5.2 Self-LD对baseline检测器的性能提升

在COCO数据集上使用ResNet-18、ResNet-50和ResNeXt-101-32x4d-DCN这3个模型进行评估，评估它们使用Self-LD后的性能提升情况。在COCO val2017上的测试结果如下表所示：

从上表中可以看出，Self-LD能够提升baseline检测器的性能。

5.3 使用Teacher Assistant提升LD效果

在实验过程中，发现对于同样的学生网络，使用性能更好的教师网络反而会降低学生网络的性能。比如对于学生网络ResNet-50，使用ResNet-101-DCN作为教师网络，性能提升要小于使用ResNet-101作为教师网络，尽管ResNet-101-DCN的性能要优于ResNet-101。

使用Teacher Assistant方法可以解决这一问题。在实现时，使用ResNet-101-DCN作为教师网络，使用ResNet-101和ResNet-34作为Teacher Assistant，ResNet-18作为学生网络。在COCO数据集上训练，在COCO val2017上的测试结果如下图所示：