首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

Towards Precise Supervision of Feature Super-Resolution

虽然最近基于proposal的CNN模型在目标检测方面取得了成功,但是由于小兴趣区域(small region of interest, RoI)所包含的信息有限且失真,小目标的检测仍然比较困难。解决这一问题的一种方法是使用超分辨率(SR)技术来增强小型roi的特性。我们研究如何提高级的超分辨率特别是对小目标检测,并发现它的性能可以显著提高了(我)利用适当的高分辨率目标特性作为SR的训练监督信号模型和(2)匹配输入的相对接受训练领域对低分辨率的特性和目标高分辨率特性。我们提出了一种新颖的特征级超分辨率方法,它不仅能正确地解决这两个问题,而且可以与任何基于特征池的检测器集成。在我们的实验中,我们的方法显著提高了Faster R-CNN在清华-腾讯100K、PASCAL VOC和MS COCO三个基准上的性能。对于小目标的改进是非常大的,令人鼓舞的是,对于中、大目标的改进也不是微不足道的。因此,我们在清华-腾讯100K上取得了最新的技术水平,在PASCAL VOC和MS COCO上取得了极具竞争力的成绩。

00

SOOD: Towards Semi-Supervised Oriented Object Detection

半监督物体检测,旨在探索未标记的数据以提高物体检测器,近年来已成为一项活跃的任务。然而,现有的SSOD方法主要集中在水平方向的物体上,而对航空图像中常见的多方向物体则没有进行探索。本文提出了一个新颖的半监督定向物体检测模型,称为SOOD,建立在主流的伪标签框架之上。针对空中场景中的定向物体,我们设计了两个损失函数来提供更好的监督。针对物体的方向,第一个损失对每个伪标签-预测对(包括一个预测和其相应的伪标签)的一致性进行了规范化处理,并根据它们的方向差距进行了适应性加权。第二种损失侧重于图像的布局,对相似性进行规范化,并明确地在伪标签和预测的集合之间建立多对多的关系。这样的全局一致性约束可以进一步促进半监督学习。我们的实验表明,当用这两个提议的损失进行训练时,SOOD在DOTA v1.5基准的各种设置下超过了最先进的SSOD方法。

02

Towards Instance-level Image-to-Image Translation

非配对图像到图像的翻译是一个新兴的、具有挑战性的视觉问题,旨在学习不同领域中未对准图像对之间的映射。该领域的最新进展,如MUNIT和DRIT,主要集中在首先从给定图像中解开内容和风格/属性,然后直接采用全局风格来指导模型合成新的领域图像。然而,如果目标域图像内容丰富且包含多个不一致的对象,则这种方法会严重导致矛盾。在本文中,我们提出了一种简单而有效的实例感知图像到图像的翻译方法(INIT),该方法在空间上对目标图像采用细粒度的局部(实例)和全局风格。拟议的INIT具有三个重要优势: (1) 实例级的客观损失可以帮助学习更准确的重建,并结合对象的不同属性;(2) 局部/全局区域的目标域所使用的样式来自源域中相应的空间区域,直观上是一种更合理的映射;(3) 联合训练过程既有利于细化粒度,也有利于粗粒度,并结合实例信息来提高全局翻译的质量。我们还为新的实例级翻译任务收集了一个大规模的基准。我们观察到,我们的合成图像甚至可以帮助完成真实世界的视觉任务,如一般物体检测。

01

Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

最先进的目标检测网络依赖于区域建议算法来假设目标位置。SPPnet和Faster R-CNN等技术的进步,降低了检测网络的运行时间,但是暴露了区域提案计算的瓶颈。在这项工作中,我们引入了一个与检测网络共享全图像卷积特性的区域建议网络(RPN),从而实现了几乎免费的区域建议。RPN是一个完全卷积的网络,它同时预测每个位置的目标边界和目标得分。对RPN进行端到端训练,生成高质量的区域建议,Faster R-CNN对其进行检测。通过共享卷积特性,我们进一步将RPN和Faster R-CNN合并成一个单独的网络——使用最近流行的具有“Attention”机制的神经网络术语,RPN组件告诉统一的网络去哪里看。对于非常深的VGG-16型号,我们的检测系统在GPU上帧率为5帧(包括所有步骤),同时在PASCAL VOC 2007、2012和MS COCO数据集上实现了最先进的目标检测精度,每张图像只有300个proposal。在ILSVRC和COCO 2015年的比赛中,Faster R-CNN和RPN是在多个赛道上获得第一名的基础。

02

Good Feature Matching: Towards Accurate, Robust VO/VSLAM with Low Latency 良好的特征匹配:实现准确、鲁棒的低延迟VO/VSLA

—在VO或VSLAM系统中保持性能(精确度和鲁棒性)和效率(延迟)的取舍是一个重要的课题。基于特征的系统展现了良好的性能,但由于显式的数据关联有更高的时延;直接和半直接系统低时延,但在一些场景不适用,比基于特征的系统精度低。本论文旨在为基于特征的视觉SLAM提高性能效率,提出了一个主动的地图到图像帧的特征匹配算法:特征匹配和一个需要评分的子矩阵选择联系起来,经过仿真,用Max-logDet矩阵评分有最好的表现。对于实时的适用性,调研了线性时间选择(deterministic selection)和随机加速(randomized acceleration)的组合。本文提出的算法用于了基于特征点的单目和双目SLAM系统。在多个数据集的表现可量化地表明不降低鲁棒性前提下可减少时延。

01
领券