首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

最新SOTA!隐式学习场景几何信息进行全局定位

全局视觉定位是指利用单张图像,根据已有的地图,估计相机的绝对姿态(位置和方向)。这种技术可以应用于机器人和增强/虚拟现实等领域。这篇文章的主要贡献是提出了一种利用姿态标签来学习场景的三维几何信息,并利用几何信息来估计相机姿态的方法。具体来说,作者设计了一个学习模型,它可以从图像中预测两种三维几何表示(X, Y, Z坐标),一种是相机坐标系下的,另一种是全局坐标系下的。然后,通过将这两种表示进行刚性对齐,就可以得到与姿态标签匹配的姿态估计。这种方法还可以引入额外的学习约束,比如最小化两种三维表示之间的对齐误差,以及全局三维表示和图像像素之间的重投影误差,从而提高定位精度。在推理阶段,模型可以实时地从单张图像中估计出场景的三维几何信息,并通过对齐得到姿态。作者在三个常用的视觉定位数据集上进行了实验,进行了消融分析,并证明了他们的方法在所有数据集上都超过了现有的回归方法的姿态精度,并且可以实时地从单张图像中估计出场景的三维几何信息,并通过对齐得到姿态。

02

Spatial Attention Pyramid Network for Unsupervised Domain Adaptation

无监督域适配在各种计算机视觉任务重很关键,比如目标检测、实例分割和语义分割。目的是缓解由于域漂移导致的性能下降问题。大多数之前的方法采用对抗学习依赖源域和目标域之间的单模式分布,导致在多种场景中的结果并不理想。为此,在本文中,我们设计了一个新的空口岸注意力金字塔网络来进行无监督域适配。特别的,我们首先构建了空间金字塔表示来获得目标在不同尺度的内容信息。以任务指定的信息为引导,在每个尺度上,我们组合了密集的全局结构表示和局部纹理模式,有效的使用了空间注意力截止。采用这种方式,网络被强迫关注内容信息由区别力的地方来进行域适配。我们在各种由挑战性的数据集上进行了昂贵的实验,对目标检测、实例分割和语义分割进行了域适配,这证明了我们的方法比最佳的方法有了很大的提升。

03

Dynamic Anchor Learning for Arbitrary-Oriented Object Detection

任意方向的目标广泛出现在自然场景、航拍照片、遥感图像等,任意方向的目标检测受到了广泛的关注。目前许多旋转检测器使用大量不同方向的锚点来实现与ground truth框的空间对齐。然后应用交叉-联合(IoU)方法对正面和负面的候选样本进行训练。但是我们观察到,选择的正锚点回归后并不能总是保证准确的检测,而一些阴性样本可以实现准确的定位。这说明通过IoU对锚的质量进行评估是不恰当的,进而导致分类置信度与定位精度不一致。本文提出了一种动态锚学习(DAL)方法,利用新定义的匹配度综合评价锚的定位潜力,进行更有效的标签分配过程。这样,检测器可以动态选择高质量的锚点,实现对目标的准确检测,缓解分类与回归的分歧。在新引入的DAL中,我们只需要少量的水平锚点就可以实现对任意方向目标的优越检测性能。在三个遥感数据集HRSC2016、DOTA、UCAS-AOD以及一个场景文本数据集ICDAR 2015上的实验结果表明,与基线模型相比,我们的方法取得了实质性的改进。此外,我们的方法对于使用水平边界盒的目标检测也是通用的。

01
领券