前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >目标检测中的旋转增强

目标检测中的旋转增强

作者头像
孔西皮
发布2023-10-18 08:47:08
3460
发布2023-10-18 08:47:08
举报
文章被收录于专栏:前行的CVer

论文:Towards Rotation Invariance in Object Detection——ICCV2021

代码:https://github.com/akasha-imaging/ICCV2021

1. 论文介绍

众所周知,一般的检测网络并不具备旋转不变性或者旋转等变性,在某些场景如遥感图像中,经常会对训练数据使用“旋转增强”来增强网络的性能。对于旋转之后的目标的ground truth,通常的做法是对原本的真值框旋转相同的角度,然后对旋转后的框取最大外接水平矩形,如下图红框所示。然而作者发现,这种最大外接框的取法会得到过于大的真值框,从而产生标签歧义问题,甚至会损害网络的检测性能,特别是AP75的性能。

motivation
motivation

这种通常的方法我们将它称为最大框法,它假设方框中的物体的形状为占满整个框的方形。而本文作者提出,用最大内接椭圆来表示bounding box中物体的形状为更优的表示,对图片旋转后,对这个椭圆进行旋转,取椭圆的最大外接矩作为旋转后物体的真值框,如上图墨蓝色框所示。最大内接椭圆的计算方法为:

S_{\text {ellipse }}=\left\{(x, y) \mid \frac{\left(x-x_{c}\right)^{2}}{\left(b_{W}^{0} / 2\right)^{2}}+\frac{\left(y-y_{c}\right)^{2}}{\left(b_{H}^{0} / 2\right)^{2}}=1\right\}

其中,x_cy_c 表示原始框的中心点坐标,b_W^0b_H^0 表示初始框的宽和高。

至于为什么最大外接椭圆表示更好,这是作者建模了个优化问题,然后使用梯度下降法求出来的,这个优化问题最终表示为:

\widehat{S}=\underset{S \in \mathcal{V}_{\mathbf{b} 0}}{\operatorname{argmax}} \sum_{\theta} \frac{1}{K} \sum_{k=1}^{K}\left[\operatorname{IoU}\left(\mathcal{B}\left(\mathcal{R}^{\theta}(S)\right), \mathbf{b}_{k}^{\theta}\right)\right]

上式中 \mathbf{b}_{k}^{\theta}=\mathcal{B}\left(\mathcal{R}^{\theta}\left(S_{k}\right)\right)\mathcal{R}^{\theta}(S)表示对形状S旋转 \theta 度后的形状,\mathcal{B}() 表示对形状求最大外接水平矩形框,

这个优化公式即求出一个初始外接框中的最优的形状\hat{S},使得这个形状旋转 \theta 度后的外接框和真实形状旋转 \theta 度后的外接框的IoU的期望最大,这里期望的计算是通过对一个数据集形状分布进行K次随机采样。(中文解释数学公式比较费劲,没有理解的可以去看论文4.1.1节)

作者分别用COCO数据集的分割标签和生成随机形状进行了上述优化公式的求解,两者结果非常一致,实验结果如下图,可以看到原先的方法只能达到0.608的IoU期望,而椭圆形为最优形状,可以达到0.729的IoU期望。

shape
shape

虽然椭圆形比原先的方形可以达到更高的IoU期望,然而0.729仍然低于0.75,所以仍然可能损害AP75的精度,因此作者还提出一个旋转不确定损失RUloss,用于计算回归损失。旋转 \theta 度后的标签确定性表示为: \begin{gathered} \alpha=2 \cos (4 \delta) \\ C(\theta)=1+\frac{1}{\alpha-2}(1-\cos (4 \theta)) \end{gathered} $\delta 为超参,代表 C(\theta)=0.5 的角度。如果预测框的IoU大于 max(0.5,C(\theta))

loss
loss

2. 实验结果

在以下四个数据集的结果:

result1
result1

在COCO数据集的结果(对验证集分别旋转0,10,20,30度,得到新的验证集):

result2
result2

可以看到广泛使用的最大框法有时甚至会带来AP的负提升,而作者的椭圆表示法+RU Loss可以带来稳定的性能提升。(论文中有实验表示单独用椭圆表示法也可以带来性能提升,但不如加RU Loss提升多)

3. 总结

本文针对目标检测中的旋转增强提出两个贡献:

  1. 旋转增强后新的标签怎么生成的问题,提出了比最大框法更优的椭圆表示法
  2. 提出用于回归损失计算的旋转不确定损失RU Loss,进一步提升了效果
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022-04-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. 论文介绍
  • 2. 实验结果
  • 3. 总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档