首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

Prior-based Domain Adaptive Object Detection for Hazy

恶劣的天气条件,如雾霾和雨水,会破坏捕获图像的质量,导致训练在干净图像上的检测网络在这些图像上表现不佳。为了解决这一问题,我们提出了一种无监督的基于先验的领域对抗目标检测框架,使检测器适应于雾蒙蒙和多雨的条件。基于这些因素,我们利用利用图像形成原理获得的特定天气的先验知识来定义一个新的先验-对抗性损失。用于训练适应过程的前对抗性损失旨在减少特征中与天气相关的信息,从而减轻天气对检测性能的影响。此外,我们在目标检测管道中引入了一组残差特征恢复块来消除特征空间的扭曲,从而得到进一步的改进。针对不同情况(如霾、雨),在不同数据集(雾城景观、雨城景观、RTTS和UFDD)上进行的评估显示了所提方法的有效性。

03

Source-Free Domain Adaptation for Semantic Segmentation

无监督域自适应(UDA)可以解决基于卷积神经网络(CNN)的语义分割方法严重依赖于像素级注释数据的挑战,这是劳动密集型的。然而,这方面现有的UDA方法不可避免地需要完全访问源数据集,以减少模型自适应过程中源域和目标域之间的差距,这在源数据集是私有的真实场景中是不切实际的,因此无法与训练有素的源模型一起发布。为了解决这个问题,我们提出了一种用于语义分割的无源领域自适应框架,即SFDA,其中只有经过训练的源模型和未标记的目标领域数据集可用于自适应。SFDA不仅能够在模型自适应过程中通过知识转移从源模型中恢复和保存源领域知识,而且能够从目标领域中提取有价值的信息用于自监督学习。为语义分割量身定制的像素级和补丁级优化目标在框架中无缝集成。在众多基准数据集上的广泛实验结果突出了我们的框架相对于依赖源数据的现有UDA方法的有效性。

03

Progressive Domain Adaptation for Object Detection

最近用于对象检测的深度学习方法依赖于大量的边界框注释。收集这些注释既费力又昂贵,但当对来自不同分布的图像进行测试时,监督模型并不能很好地推广。领域自适应通过使现有标签适应目标测试数据来提供解决方案。然而,领域之间的巨大差距可能会使适应成为一项具有挑战性的任务,从而导致不稳定的训练过程和次优结果。在本文中,我们建议用一个中间域来弥合领域差距,并逐步解决更容易的适应子任务。该中间域是通过平移源图像以模仿目标域中的图像来构建的。为了解决领域转移问题,我们采用对抗性学习来在特征级别对齐分布。此外,应用加权任务损失来处理中间域中的不平衡图像质量。 实验结果表明,我们的方法在目标域上的性能优于最先进的方法。

03

Sub-Category Optimization for Multi-View Multi-Pose Object Detection

外观变化大的目标类别检测是计算机视觉领域的一个基本问题。由于类内部的可变性、视角和照明,目标类别的外观可能会发生变化。对于外观变化较大的目标类别,需要使用基于子类别的方法。本文提出了一种基于外观变化自动将一个目标类别划分成适当数量的子类别的子类别优化方法。我们没有使用基于领域知识或验证数据集的预定义的类内子分类,而是使用基于鉴别图像特征的非监督聚类来划分样本空间。然后利用子类别判别分析验证了聚类性能。基于无监督方法的聚类性能和子类别判别分析结果,确定了每个目标类别的最优子类别数。大量的实验结果显示使用两个标准和作者自己的数据库。比较结果表明,我们的方法优于最先进的方法。

04

ICCV2023论文精选!从微分方程角度理解self-attention机制的底层逻辑!

自注意力机制(self-attention)广泛应用于人工智能的各个领域,成功地提升了不同模型的性能。然而,目前对这种机制的解释主要基于直觉和经验,而对于自注意力机制如何帮助性能的直接建模仍然缺乏。为了缓解这个问题,在本文中,基于残差神经网络的动力系统视角,我们首先展示了在常微分方程(ODEs)的高精度解中存在的本质刚度现象(SP)也广泛存在于高性能神经网络(NN)中。因此,NN在特征层面上测量SP的能力是获得高性能的必要条件,也是影响NN训练难度的重要因素。类似于在求解刚性ODEs时有效的自适应步长方法,我们展示了自注意力机制也是一种刚度感知的步长适配器,它可以通过细化刚度信息的估计和生成自适应的注意力值,增强模型测量内在SP的表征能力,从而提供了一个关于为什么和如何自注意力机制可以提高模型性能的新理解。这种新的视角也可以解释自注意力机制中的彩票假设,设计新的表征能力的定量指标,并启发了一种新的理论启发式方法,StepNet。在几个流行的基准数据集上的大量实验表明,StepNet可以提取细粒度的刚度信息并准确地测量SP,从而在各种视觉任务中取得显著的改进。

04

ICLR 2024 最新研究 DYST 技术让视频表征更精准、更智能

首先来看引言部分,概述了在视觉表示学习领域的主流研究集中于捕捉个别图像的语义和2D结构的现状,并指出本研究的重点是同时捕捉场景的3D结构和动态,这对于规划、空间和物理推理以及与现实世界的有效互动至关重要。文章强调了最近在3D视觉场景的生成模型方面取得的进展,特别是从使用体素网格、点云或纹理网格等显式表示转向通过直接优化新视图合成(NVS)来学习隐式表示的转变。如神经辐射场(Neural Radiance Fields)虽然最初限于单一场景并需要大量输入图像、控制的照明、精确的相机姿态和长时间的处理,但随后已被扩展以处理照明变化、跨场景泛化、少量图像工作、缺失相机和动态场景。

01

DSNet:Joint Semantic Learning for Object

近五十年来,基于卷积神经网络的目标检测方法得到了广泛的研究,并成功地应用于许多计算机视觉应用中。然而,由于能见度低,在恶劣天气条件下检测物体仍然是一项重大挑战。在本文中,我们通过引入一种新型的双子网(DSNet)来解决雾环境下的目标检测问题。该双子网可以端到端训练并共同学习三个任务:能见度增强、目标分类和目标定位。通过包含检测子网和恢复子网两个子网,DSNet的性能得到了完全的提高。我们采用RetinaNet作为骨干网络(也称为检测子网),负责学习分类和定位目标。恢复子网通过与检测子网共享特征提取层,采用特征恢复模块增强可见性来设计。实验结果表明我们的DSNet在合成的有雾数据集上达到了50.84%的mAP,在公开的有雾自然图像数据集上达到了41.91%的精度。性能优于许多最先进的目标检测器和除雾和检测方法之间的组合模型,同时保持高速。

02

IENet: Interacting Embranchment One Stage Anchor Free Detector

航空图像中的目标检测是一项具有挑战性的任务,因为它缺乏可见的特征和目标的不同方向。目前,大量基于R-CNN框架的检测器在通过水平边界盒(HBB)和定向边界盒(OBB)预测目标方面取得了显著进展。然而,单级无锚解仍然存在开放空间。提出了一种基于逐像素预测检测器的航空图像定向目标单级无锚检测器。我们通过开发一个具有自我注意机制的分支交互模块来融合来自分类和框回归分支的特征,从而使它成为可能。在角度预测中采用几何变换,使预测网络更易于管理。我们还引入了一种比正多边形借条更有效的借条损耗来检测OBB。在DOTA和HRSC2016数据集上对所提出的方法进行了评估,结果表明,与最先进的检测器相比,我们所提出的IENet具有更高的OBB检测性能。

01

建立脑影像机器学习模型的step-by-step教程

机器学习的日益普及导致了一些工具的开发,旨在使这种方法的应用易于机器学习新手。这些努力已经产生了PRoNTo和NeuroMiner这样的工具,这并不需要任何编程技能。然而,尽管这些工具可能非常有用,但它们的简单性是以透明度和灵活性为代价的。学习如何编程一个机器学习管道(即使是一个简单的)是一个很好的方式来洞察这种分析方法的优势,以及沿着机器学习管道可能发生的扭曲。此外,它还允许更大的灵活性,如使用任何机器学习算法或感兴趣的数据模式。尽管学习如何为机器学习管道编程有明显的好处,但许多研究人员发现这样做很有挑战性,而且不知道如何着手。

05

CVPR 2023--CiteTracker:关联图像和文本以进行视觉跟踪

现有的视觉跟踪方法通常以图像块作为目标的参考来进行跟踪。然而,单个图像块无法提供目标对象的完整和精确的概念,因为图像的抽象能力有限并且可能是模糊的,这使得跟踪变化剧烈的目标变得困难。在本文中,我们提出了 CiteTracker,通过连接图像和文本来增强视觉跟踪中的目标建模和推理。具体来说,我们开发了一个文本生成模块,将目标图像块转换为包含其类别和属性信息的描述性文本,为目标提供全面的参考点。此外,还设计了动态描述模块来适应目标变化,以实现更有效的目标表示。然后,我们使用基于注意力的相关模块将目标描述和搜索图像关联起来,以生成目标状态参考的相关特征。在五个不同的数据集上进行了广泛的实验来评估所提出的算法,并且相对于最先进的方法的良好性能证明了所提出的跟踪方法的有效性。源代码和训练模型将在 https://github.com/NorahGreen/CiteTracker 发布。

01

遮挡重叠场景下|基于卷积神经网络与RoI方式的机器人抓取检测

抓取物体堆叠和重叠场景中的特定目标是实现机器人抓取的必要和具有挑战性的任务。在本文中,我们提出了一种基于感兴趣区域(RoI)的机器人抓取检测算法,以同时检测目标及其在物体重叠场景中的抓取。我们提出的算法使用感兴趣区域(RoIs)来检测目标的分类和位置回归。为了训练网络,我们提供了比Cornell Grasp Dataset更大的多对象抓取数据集,该数据集基于Visual Manipulation Relationship Dataset。实验结果表明,我们的算法在1FPPI时达到24.9%的失误率,在抓取我们的数据集时达到68.2%的mAP。机器人实验表明,我们提出的算法可以帮助机器人以84%的成功率掌握多物体场景中的特定目标。

01
领券