CVPR2020 | 京东AI研究院提出统一样本加权网络，提升通用目标检测性能

AI算法修炼营

发布于 2020-06-17 17:45:44

1.1K0

发布于 2020-06-17 17:45:44

文章被收录于专栏：AI算法修炼营

本文由京东AI研究院发表在CVPR2020上的文章，从统一样本加权网络的角度来考虑目标检测问题，在提出了一种对分类损失和回归损失联合加权的通用损失函数，并在此基础上实现了一个统一的样本加权网络来预测样本的任务权重，能够即插即用，在较少的参数量增加的情况下实现1.8%性能提升。

论文地址：https://arxiv.org/pdf/2006.06568.pdf

代码地址（基于mmdetection实现）：https://github.com/caiqi/sample-weighting-network

区域采样（Region sampling）或加权（weighting ）对基于区域的目标检测器非常重要。与先前的一些工作（在优化目标函数时只专注于“困难”样本）不同，本文认为样本加权应与数据和任务相关。样本对于目标函数优化的重要性取决于样本对目标对象分类和边界框回归任务的不确定性。为此，本文设计了一个通用损失函数，以各种采样策略覆盖大多数基于区域（region-based）的目标检测器。然后在此基础上，提出了一个统一的样本加权网络来预测样本的任务权重。

整体的网络框架简单而有效，它利用样本在分类损失、回归损失、IoU和概率得分上的不确定性分布来预测样本权重，主要有几个优点：1）可以同步学习分类和回归任务的样本权重，从而将样本权重与以前的大多数工作区分开。2）整体是一个数据驱动的过程，因此避免了一些手动参数调整。3）可以毫不费力地将其插入大多数目标检测器中，并在不影响其推理时间的情况下实现显着的性能提升。

简介

基于区域的目标检测是一个多任务学习问题，由目标分类和定位组成。它涉及区域采样region sampling（滑动窗口或region proposal），region分类和回归以及非最大抑制nms。根据区域的搜索方式，可以将目标检测器分为一阶段和两阶段。通常，精度最高的目标检测器基于两阶段框架，例如Faster R-CNN ，该框架在region proposal阶段会迅速缩小区域范围（大部分来自背景）。相反，单级检测器例如SSD 和YOLO ，实现了更快的检测速度，但精度却更低。这是由于类别不平衡问题（即前景区域和背景区域之间的不平衡），这也是目标检测的经典挑战。两级检测器通过region proposal机制处理类别不平衡，然后采用各种有效的采样策略，例如使用固定的前景与背景比率进行采样并进行难例挖掘OHEM。尽管类似的难例挖掘OHEM策略也可以应用于一阶段检测器，但由于存在大量容易产生的负样本实例，因此通常效率较低。

前面提到的“困难”样本通常是指分类损失较大的样本。但是，“困难”样本不一定重要。如图1（a）（所有样本均选自训练过程），该样本具有较高的分类损失，但权重较小（“困难”但不重要）。相反，如果“简单”的样本反映了图1（b）所示的目标类别的重要，则可能很重要。此外，当分类得分较高时，边界框回归是准确的这一假设并不总是像图1（c）所示那样成立。有时分类与回归之间可能会不一致。此外，由于遮挡，不正确的标注和模糊的边界，在边界框注解中存在歧义。换句话说，训练数据具有不确定性。

图1.训练过程中的样本。（a）样本的分类损失大，权重小。（b）样本的分类损失小但权重大。（c）样本的分类得分和IoU之间不一致。

样本加权是一个非常复杂且动态的过程。当应用于多任务问题的损失函数时，个体样本中存在各种不确定性。然而，样本加权应该是数据依赖的和任务依赖的。一方面，与以前的工作不同，样本的重要性应该由样本的内在性质（与ground truth相比）及其对损失函数的响应来决定。另一方面，目标检测是一个多任务问题。样本的权重应该在不同任务之间保持平衡。如果检测器将其能力用于准确分类，并产生较差的定位结果，则定位错误的检测将损害平均精度，尤其是在高IoU准则下，反之亦然。

遵循以上思想，本文提出了一种用于目标检测的统一动态样本加权网络。这是学习样本权重的一种简单而有效的方法，它还可以在分类和回归任务之间取得平衡。具体来说，除了基本的检测网络外，还设计了一个样本加权网络来预测样本的分类权重和回归权重。该网络将分类损失、回归损失、IoU和得分作为输入，将样本的当前上下文特征转换为样本权重。

本文方法：A Unified Sample Weighting Network

一、目标检测Sample 加权方法及问题

RPN（Region ProposalNetwork）将每个样本分为与类别无关的前景类别或背景类别。

随机抽样（Random Sampling）均匀地从AP（正）中选择n个样本，从AN（负）中选择n个样本，其中n分别代表所需数量的正样本和负样本。所选样本的分类权重被分配为1，其余样本的权重被分配为0。

OHEM并非以相等的概率随机抽样，而是根据正负样本的损失值以单调递减的顺序分别对正样本和负样本进行排名。然后，将正负样本和负负样本的分类权重分配为1，将其余的权重分配为0。

Focal-Loss将损失函数重塑为轻量化简单样本，并将训练重点放在困难样本上。

KL-Loss根据估计的不确定性重新加权回归损失。

图2：Faster R-CNN训练样本。白色虚线框表示ground truth。A，B，C是三个正样本并且具有不同的预测分数和IoU。

NMS通过删除分数相对较低的框来过滤混乱的边界框。例如，在图2中对三个方框A，B，C进行计数，由于推论与A和B相比得分较低，因此在推论中Ciss被抑制。相反，当应用OHEM时，由于其损失较高（分数较低），因此将选择C进行训练。过多地关注“ C”之类的“困难”示例可能并不总是有帮助的，因为在推理过程中，我们也追求good ranking。Focal-Loss还面临类似的问题，因为它为box A和B分配了相同的分类权重。但是，考虑到A的基本IoU高于B的IoU，提高A的得分可能会更加有益。这是因为mAP是在各种阈值下计算的，这有助于更精确地定位检测结果。另一方面，KL-Los根据边界框不确定性为回归损失分配不同的样本权重，而忽略重新加权分类损失。

考虑到现有方法的这些缺点，本文建议从数据驱动的角度共同学习分类和回归的样本权重。简而言之，先前的方法集中于重新加权分类（例如OHEM和Focal-Loss）或回归损失（例如KL-Loss）。但是本文的方法联合加权分类和回归损失。此外，与在OHEM和Focal-Loss方法中挖掘“困难”示例（它们具有较高的分类损失）不同，本文的方法侧重于重要样本，这些样本也可能是“简单”样本。

二、联合学习分类和回归损失进行样本加权

（该部分参考多任务学习中的损失平衡方法）本文以概率形式重新构造了样本加权问题，并通过反映不确定性来衡量样本重要性。实验证明了本文提出的方法使样本加权过程变得灵活并且可以通过深度学习来学习。请注意，本文的概率建模不仅解决了样本权重问题，而且还解决了分类和定位回归任务之间的平衡问题。

首先将回归任务建模为高斯似然，将预测的位置偏移作为均值和标准偏差。

为了优化回归网络，最大化似然的对数概率：

加权回归损失为：

随着偏差增加，L上的权重增加。直观地讲，这种加权策略将更多的权重放在了自信的样本上，并对这些样本在训练过程中所犯的错误进行了更多的惩罚。

加权分类损失为：

整体加权损失为：

优化后：

三、统一样本加权网络设计（Unified Sample Weighting Network Design）

图3. 样本加权网络（SWN）的框架。（a）两阶段检测器的通用框架（也可以用一阶段检测器代替）。在前向传递中，将每个样本与其ground truth进行比较，计算分类和回归损失。在反向传播中，将所有样本的损失平均以优化模型参数。（b）通过损失函数的分解来优化基本检测网络和SWN，可以将梯度反向传播到检测网络和样本加权网络SWN。（c）描述了SWN设计。它将分类损失，回归损失，得分概率，IoU损失作为输入并为每个样本生成权重。

图3显示了加权网络（SWN）的框架。可以看到，SWN是目标检测器的一个子网罗，受检测目标的监督，该网络采用一些输入功能来预测每个样本的权重。我网络非常简单，由两个级别的多层感知（MLP）网络组成，如图3（c）所示。不是直接使用样本的视觉功能，而是从目标检测器本身设计了四个区分功能。它利用了估计值与ground truth（即IoU和分类得分）之间的相互作用，因为分类和回归损失在某种程度上都固有地反映了预测的不确定性。

更具体地说，它采用以下四个特征：分别为分类损、回归损失IoU损失和得分概率。对于负样本，IoU和得分概率设置为0。接下来，引入四个函数F，G，H、K将输入转换为密集特征，以实现更全面的表示。这些功能全部由MLP神经网络实现，它们能够将每个一维值映射到更高的维特征。

如图3所示，SWN对基本目标检测器没有任何假设，这意味着它可以与大多数基于区域的目标检测器一起使用，包括Faster R-CNN，RetinaNet和Mask R-CNN。

为了证明方法的一般性，对原始框架进行了最小的修改。Faster R-CNN由区域提议网络（RPN）和Fast R-CNN网络组成。保留RPN不变，并将样本加权网络插入Fast R-CNN分支。对于每个样本，首先计算SWN的输入：分类损失、回归损失、IoU损失和得分概率。然后将预测的权重通过梯度反向传播加入到基本检测网络和样本加权网络之中。

对于RetinaNet，遵循类似的过程为每个样本生成分类和回归权重。由于Mask R-CNN具有额外的Mask分支，因此将另一个分支包括到SWN网络中，以生成适用于Maskloss的自适应权重，其中分类，边界框回归和Mask预测是联合估计的。为了匹配其他mask权重，还将mask损失作为样本加权网络的输入来添加。

实验与结果

数据集：COCO 和 VOC

评价指标：不同IoU阈值下的mAP，阈值范围从0.5到0.95，间隔为0.05。

实验配置：所有模型都使用4个Tesla P40 GPU（每个GPU拥有4张图像）进行端到端训练。

1、对比实验

表1显示了以mAP表示的COCOtest-devin结果。由于提出了SWN，所有检测器均获得了高达1.8％的一致性能提升。特别是，RetinaNet的提升非常令人印象深刻，因为它已经具有强大的样本加权策略。所有的改进表明，SWN是检测器内部样本加权策略的补充。另外，从APS，APM和APL（分别针对小型，中型和大型目标的AP结果）列中，注意到加权策略对“大型”目标对象的工作效果更好。此外，可以从结果推论出，在更高的IoU下，AP提升更大。