遥感旋转目标检测方法解读

狼啸风云

修改于 2022-09-02 21:00:02

1.4K0

修改于 2022-09-02 21:00:02

一、介绍

说过，想设计一种没有边界问题的角度预测方法。这次我就来讲一下初步的进展，也是我最近的一个工作Circular Smooth Label （CSL）。简单来说，CSL总结了目前流行的基于回归方式的角度预测方法都有或多或少的边界问题，一个主要的原因是理想的预测结果超出了我们所定义的范围，导致产生一个较大的损失值，因此CSL通过将角度的回归问题转换成了一个分类问题，限制预测结果的范围来消除这一问题。

文章地址：

Arbitrary-Oriented Object Detection with Circular Smooth Labelarxiv.org

代码地址：

CSL_RetinaNet_Tensorflowgithub.com

二、常见的角度回归方法

首先介绍了三种常见的任意旋转框的定义方法，包括两种角度范围的五参数定义法以及八参数的四边形定义法，如下图所示：

三、各种表示方法的边界问题

由于大长宽比的目标对于角度的变化是非常敏感的，因此研究边界问题是比较有意义的。我们希望在边界情况也能预测的比较准确，减少有预测框但是不准被当FP的情况。先给出上面三种定义方法边界问题的描述图：

四、环形平滑标签（Circular Smooth Label , CSL）

对于上面得出的结论，我就在考虑是否可以将角度回归的方式转换成分类的形式，因为分类的结果是有限的，不会出现超出定义范围外的情况。一种最简单的角度分类方式就是将整个定义的角度范围进行类别的划分，比如一度归为一类，如下图（a）所示：

由于窗口函数的设置，使得模型可以衡量预测标签和地面真相标签之间的角度距离，即在一定范围内越靠近真实值的预测值的损失值越小。而且通过引入周期性解决了角度周期性的问题，即使得89和-90两个度数变成是近邻的，这也是我们为什么取名为环形平滑损失的原因。需要注意的是，当窗口函数是脉冲函数或者窗口函数的窗口半径很小时，Circular Smooth Label 等价于One-hot label。

五、实验分析

1. 窗口函数的探究

对于那些角度信息明显的类别（具有一定长宽比），角度分类应该是比较容易，相反则不太容易，比如遥感场景中的油桶。因此在比较总的精度的同时，也单独挑出了5种角度信息明显的目标来比较CSL-Based和regression-based方法。

2. 窗口半径的探究

下表是对合适窗口半径的探究实验：

可以的出以下几个结论：

窗口半径的大小要适中，过小则会变成One-hot label形式，无法学到角度信息，过大则角度预测偏差会加大；
单阶段检测器比双阶段检测器对于窗口半径更加敏感，推测的原因是双阶段方法是基于instance-level的特征提取方法（RoI Pooling或RoI Align），这些方法提取到的特征会明显好于单阶段image-level的提取方式，使得双阶段检测方法可以区分更加小角度差的角度类别。

下图是不同窗口半径下的可视化比较，红色是代表没有预测对角度，绿色是正确预测角度：

3. CSL-Based与regression-based方法的比较

下表展示了在三种不同基础检测器上CSL-Based与regression-based方法的性能比较。很明显，CSL-based方法在角度特征明显的类别上具有较大的优势，但是由于DOTA数据集类别多且边界情况所占整个数据集的比例比较小，因此在整体性能比较上的优势并不是那么大。我们也是将CSL-based定位为一个更合适的baseline方法，毕竟CSL可以很轻松的和基于五参数的旋转检测方法相结合。

另外，我们还将这两种方法在其他数据集上进行了性能比较，如下表所示，同样可以得出CSL-based是一个更好baseline方法的结论。

4. 可视化分析

为了进一步证明CSL-based方法的特性，我们对CSL-FPN-based检测器中的每个RoI的角度特征向量进行了可视化的展示，采用的方法是主成分分析法（PCA），可视化结果如下图所示：

上图中第一行用的是脉冲窗口函数，可以看到每个RoI的角度特征分布是趋于随机的，也就说明它没有学习到角度这一信息。而第二行使用的是高斯窗口函数，可以看到整个可视化分布是呈现环状的，而且相邻度数的特征是挨在一起的，具有一定的耦合。这种现象正是我们设计CSL方法的目的，也很好证明了基于CSL方法的检测器可以很好学习到目标的方向信息。

5. 对比实验

虽然CSL的定位是一个更好的baseline，但我们也对比了目前在DOTA和HRSC2016数据集上的SOTA方法，如下面两个表所示：

对于上面的实验结果，我们只是加了常规的数据增强（包括随机水平垂直翻转、随机旋转、随机灰度化）、多尺度训练和测试、大骨干网络，就在两个数据集上取得了SOTA的结果。

六、结论

CSL这个工作是我从源头上解决边界问题的初步探索。其实基于分类预测角度的想法很早在人脸方面有一些工作（我最早调研到的论文是一篇CVPR1998的论文），但是很多是通过普通分类或者分治法来做。在ICCV2019中也有一篇通过分类方法得到东南西北这种大致方向的文章，我在之前的预测船的具体朝向的期刊中，也是通过对已经回归出的任意矩形的四边分类得到的，相应的介绍在CSL论文中可以看到。

上面的工作无法像CSL这样分的这么细（比如，他们是将人脸以10度一个类，变成36分类问题），况且CSL还要考虑相邻类别之间的角度距离，预测容忍度，以及角度的周期性问题。虽然这个工作的效果还是挺不错的，但是还是存在一些问题，比如角度类别太多，会导致RetinaNet的head部分过于厚，所以我认为，CSL+anchor free可能是一个不错的研究方向，可以明显减小image-level预测方式的负担。

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2020/07/21 ，如有侵权请联系 cloudcommunity@tencent.com 删除

linux

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

linux

登录后参与评论

0 条评论

热度