首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

Generative Modeling for Small-Data Object Detection

本文探讨了小数据模式下的目标检测,由于数据稀有和注释费用的原因,只有有限数量的注释边界框可用。这是当今的一个常见挑战,因为机器学习被应用于许多新任务,在这些任务中,获得训练数据更具挑战性,例如在医生一生中有时只看到一次罕见疾病的医学图像中。在这项工作中,我们从生成建模的角度探讨了这个问题,方法是学习生成具有相关边界框的新图像,并将其用于训练目标检测器。我们表明,简单地训练先前提出的生成模型并不能产生令人满意的性能,因为它们是为了图像真实性而不是目标检测精度而优化的。为此,我们开发了一种具有新型展开机制的新模型,该机制联合优化生成模型和检测器,以使生成的图像提高检测器的性能。 我们表明,该方法在疾病检测和小数据行人检测这两个具有挑战性的数据集上优于现有技术,将NIH胸部X射线的平均精度提高了20%,定位精度提高了50%。

02

Learning to Adapt Structured Output Space for Semantic Segmentation

对语义分割来讲基于卷积神经网络的方法,依赖像素级ground-truth标记,但是对未知领域可能泛化效果并不好。因为标记过程是沉闷和耗时的,开发将源ground truth标记到目标域引起了很大的关注。本文我们提出一种对抗训练方法在语义分割的内容中进行域适配。考虑语义分割作为结构输出包含源域和目标域的空间相似性,在输出空间中,我们采用对抗训练。为了进一步增强适配模型,我们构建一个多层对抗网络,在不同特征级别上有效的执行输出空间域适配。一系列的实验和消融研究在不同域适配下进行,包括合成到真实和跨城市场景。我们表明提出的方法在精度是视觉质量方面,超过了现有的最先进的方法。

02

CANDY

单幅图像去雾是一个具有挑战性的不适定问题。文献中现有的去雾方法,包括最近引入的深度学习方法,将去雾问题建模为估计中间参数的问题,场景透射图和大气光。这些用于根据模糊输入图像计算无模糊图像。这种方法只关注中间参数的精确估计,而优化框架中没有考虑无霾图像的美学质量。因此,中间参数估计中的误差经常导致产生低质量的无霾图像。在本文中,我们提出了CANDY(基于条件敌对网络的模糊图像去雾),这是一个完全端到端的模型,它直接从模糊的输入图像生成一个干净的无模糊图像。CANDY还将无雾霾图像的视觉质量纳入优化函数;从而产生高质量的无雾度图像。这是文献中第一个提出用于单一图像去雾的完全端到端模型的作品之一。此外,这是第一个工作,以探索概念的生成敌对网络的问题,单一图像霾清除。CANDY在合成创建的雾霾图像数据集上进行训练,而评估是在具有挑战性的合成和真实雾霾图像数据集上进行的。CANDY的广泛评估和比较结果表明,它在定量和定性方面都明显优于文献中现有的最先进的去雾方法。

01

Robust Data Augmentation Generative Adversarial Networkfor Object Detection

基于生成对抗性网络(GAN)的数据扩充用于提高目标检测模型的性能。它包括两个阶段:训练GAN生成器以学习小目标数据集的分布,以及从训练的生成器中采样数据以提高模型性能。在本文中,我们提出了一种流程化的模型,称为鲁棒数据增强GAN(RDAGAN),旨在增强用于目标检测的小型数据集。首先,将干净的图像和包含来自不同域的图像的小数据集输入RDAGAN,然后RDAGAN生成与输入数据集中的图像相似的图像。然后,将图像生成任务划分为两个网络:目标生成网络和图像翻译网络。目标生成网络生成位于输入数据集的边界框内的目标的图像,并且图像转换网络将这些图像与干净的图像合并。 定量实验证实,生成的图像提高了YOLOv5模型的火灾检测性能。对比评价表明,RDAGAN能够保持输入图像的背景信息,定位目标生成位置。此外,消融研究表明,RDAGAN中包括的所有组件和物体都发挥着关键作用。

02

One-Shot Image-to-Image Translation viaPart-Global Learning With aMulti-Adversarial Framework

众所周知,人类可以从几个有限的图像样本中有效地学习和识别物体。然而,对于现有的主流深度神经网络来说,仅从少数图像中学习仍然是一个巨大的挑战。受人类思维中类比推理的启发,一种可行的策略是“翻译”丰富的源域的丰富图像,以用不足的图像数据丰富相关但不同的目标域。为了实现这一目标,我们提出了一种新的、有效的基于部分全局学习的多对抗性框架(MA),该框架实现了一次跨域图像到图像的翻译。具体而言,我们首先设计了一个部分全局对抗性训练方案,为特征提取提供了一种有效的方法,并防止鉴别器被过度拟合。然后,采用多对抗机制来增强图像到图像的翻译能力,以挖掘高级语义表示。此外,还提出了一种平衡对抗性损失函数,旨在平衡训练数据,稳定训练过程。大量实验表明,所提出的方法可以在两个极不平衡的图像域之间的各种数据集上获得令人印象深刻的结果,并且在一次图像到图像的转换上优于最先进的方法。

02

Multi-source Domain Adaptation for Semantic Segmentation

用于语义分割的实域自适应仿真已被积极研究用于自动驾驶等各种应用。现有的方法主要集中在单个源设置上,无法轻松处理具有不同分布的多个源的更实际的场景。在本文中,我们建议研究用于语义分割的多源域自适应。具体来说,我们设计了一个新的框架,称为多源对抗域聚合网络(MADAN),它可以以端到端的方式进行训练。首先,我们为每个源生成一个具有动态语义一致性的自适应域,同时在像素级循环上一致地对准目标。其次,我们提出了子域聚合鉴别器和跨域循环鉴别器,以使不同的适应域更紧密地聚合。最后,在训练分割网络的同时,在聚合域和目标域之间进行特征级对齐。从合成的GTA和SYNTHIA到真实的城市景观和BDDS数据集的大量实验表明,所提出的MADAN模型优于最先进的方法。

01

StyleSwin: Transformer-based GAN for High-resolution Image Generation

尽管Transformer在广泛的视觉任务中取得了诱人的成功,但在高分辨率图像生成建模方面,Transformer还没有表现出与ConvNets同等的能力。在本文中,我们试图探索使用Transformer来构建用于高分辨率图像合成的生成对抗性网络。为此,我们认为局部注意力对于在计算效率和建模能力之间取得平衡至关重要。因此,所提出的生成器在基于风格的架构中采用了Swin Transformer。为了实现更大的感受野,我们提出了双重关注,它同时利用了局部窗口和偏移窗口的上下文,从而提高了生成质量。此外,我们表明,提供基于窗口的Transformer中丢失的绝对位置的知识极大地有利于生成质量。所提出的StyleSwan可扩展到高分辨率,粗糙的几何结构和精细的结构都得益于Transformer的强大表现力。然而,在高分辨率合成期间会出现块伪影,因为以块方式执行局部关注可能会破坏空间相干性。为了解决这个问题,我们实证研究了各种解决方案,其中我们发现使用小波鉴别器来检查频谱差异可以有效地抑制伪影。大量实验表明,它优于现有的基于Transformer的GANs,尤其是在高分辨率(例如1024×1024)方面。StyleWin在没有复杂训练策略的情况下,在CelebA HQ 1024上优于StyleGAN,在FFHQ-1024上实现了同等性能,证明了使用Transformer生成高分辨率图像的前景。

02

Progressive Domain Adaptation for Object Detection

最近用于对象检测的深度学习方法依赖于大量的边界框注释。收集这些注释既费力又昂贵,但当对来自不同分布的图像进行测试时,监督模型并不能很好地推广。领域自适应通过使现有标签适应目标测试数据来提供解决方案。然而,领域之间的巨大差距可能会使适应成为一项具有挑战性的任务,从而导致不稳定的训练过程和次优结果。在本文中,我们建议用一个中间域来弥合领域差距,并逐步解决更容易的适应子任务。该中间域是通过平移源图像以模仿目标域中的图像来构建的。为了解决领域转移问题,我们采用对抗性学习来在特征级别对齐分布。此外,应用加权任务损失来处理中间域中的不平衡图像质量。 实验结果表明,我们的方法在目标域上的性能优于最先进的方法。

03
领券