首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

A full data augmentation pipeline for small object detection based on GAN

小物体(即32×32像素以下的物体)的物体检测精度落后于大物体。为了解决这个问题,我们设计了创新的体系结构,并发布了新的数据集。尽管如此,许多数据集中的小目标数量不足以进行训练。生成对抗性网络(GAN)的出现为训练体系结构开辟了一种新的数据增强可能性,而无需为小目标注释巨大数据集这一昂贵的任务。 在本文中,我们提出了一种用于小目标检测的数据增强的完整流程,该流程将基于GAN的目标生成器与目标分割、图像修复和图像混合技术相结合,以实现高质量的合成数据。我们的流水线的主要组件是DS-GAN,这是一种基于GAN的新型架构,可以从较大的对象生成逼真的小对象。实验结果表明,我们的整体数据增强方法将最先进模型的性能提高了11.9%AP@。在UAVDT上5 s和4.7%AP@。iSAID上的5s,无论是对于小目标子集还是对于训练实例数量有限的场景。

02

OpenCV3 和 Qt5 计算机视觉:1~5

在最基本的形式和形状中,“计算机视觉”是一个术语,用于标识用于使数字设备具有视觉感觉的所有方法和算法。 这意味着什么? 好吧,这就是听起来的确切含义。 理想情况下,计算机应该能够通过标准相机(或与此相关的任何其他类型的相机)的镜头看到世界,并且通过应用各种计算机视觉算法,它们应该能够检测甚至识别并计数人脸。 图像中的对象,检测视频馈送中的运动,然后执行更多操作,这些操作乍一看只能是人类的期望。 因此,要了解计算机视觉的真正含义,最好知道计算机视觉旨在开发方法以实现所提到的理想,使数字设备具有查看和理解周围环境的能力。 值得注意的是,大多数时间计算机视觉和图像处理可以互换使用(尽管对这个主题的历史研究可能证明应该相反)。 但是,尽管如此,在整本书中,我们仍将使用“计算机视觉”一词,因为它是当今计算机科学界中更为流行和广泛使用的术语,并且因为正如我们将在本章稍后看到的那样,“图像处理”是 OpenCV 库的模块,我们还将在本章的后续页面中介绍,并且还将在其完整的一章中介绍它。

02

2D-Driven 3D Object Detection in RGB-D Images

在本文中,我们提出了一种在RGB-D场景中,在目标周围放置三维包围框的技术。我们的方法充分利用二维信息,利用最先进的二维目标检测技术,快速减少三维搜索空间。然后,我们使用3D信息来定位、放置和对目标周围的包围框进行评分。我们使用之前利用常规信息的技术,独立地估计每个目标的方向。三维物体的位置和大小是用多层感知器(MLP)学习的。在最后一个步骤中,我们根据场景中的目标类关系改进我们的检测。最先进的检测方法相比,操作几乎完全在稀疏的3D域,在著名的SUN RGB-D实验数据集表明,我们建议的方法要快得多(4.1 s /图像)RGB-D图像中的3目标检测和执行更好的地图(3)高于慢是4.7倍的最先进的方法和相对慢两个数量级的方法。这一工作提示我们应该进一步研究3D中2D驱动的目标检测,特别是在3D输入稀疏的情况下。

03
领券