前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Texture Underfitting for Domain Adaptation

Texture Underfitting for Domain Adaptation

作者头像
狼啸风云
发布2023-10-07 15:31:53
1540
发布2023-10-07 15:31:53
举报
文章被收录于专栏:计算机视觉理论及其实现

摘要

 全面的语义分割是鲁棒场景理解的关键组成部分之一,也是实现自动驾驶的要求。在大规模数据集的驱动下,卷积神经网络在这项任务上表现出了令人印象深刻的结果。然而,推广到各种场景和条件的分割算法需要极其多样化的数据集,这使得劳动密集型的数据采集和标记过程过于昂贵。在分割图之间结构相似的假设下,领域自适应有望通过将知识从现有的、潜在的模拟数据集转移到不存在监督的新环境来解决这一挑战。虽然这种方法的性能取决于神经网络学习对场景结构的高级理解这一概念,但最近的工作表明,神经网络倾向于过度适应纹理,而不是学习结构和形状信息。 考虑到语义分割的基本思想,我们使用随机图像风格化来增强训练数据集,并提出了一种有助于纹理适配的训练程序,以提高领域自适应的性能。在使用有监督和无监督方法进行合成到实域自适应任务的实验中,我们表明我们的方法优于传统的训练方法。

 实现安全的自动驾驶依赖于在各种不同环境中对场景的强大理解。遇到的变化范围从有利到不利的天气条件[25],从白天到夜间场景[6],仅举几个例子。语义分割是场景理解最重要的方法之一,在过去的十年里,人们投入了大量的工作来提高其鲁棒性。一方面,现代数据集涵盖了更多样化的地区,包括欧洲各地的城市[4]和Mapillary数据集[19]中的多个大陆。虽然扩展数据集所涵盖的变化是提高机器学习算法稳健性的最直观和最容易理解的方法,但这种方法受到对图像的昂贵像素级注释的要求的限制。 另一方面,模拟环境允许生成驾驶场景的高质量渲染图及其像素级注释,而实际上不需要任何成本。尽管最近在使图像看起来尽可能逼真方面取得了重大进展,但模拟和现实之间仍然存在领域差距,导致仅在合成数据上训练的算法在现实世界中的性能次优。

 在过去几年中,领域适应取得了巨大进展。一方面,无监督域自适应旨在通过利用源域和目标域中图像之间的相似性(如特征分布或场景结构)来克服这一差距。值得注意的例子包括通过距离最小化匹配数据分布,以及通过课程领域自适应弥合领域差距。另一方面,当目标域中可用的注释数据数量有限时,监督微调的配方在域自适应方面取得了巨大成功。这项工作的目标是开发一种数据工程方法,使无监督和有监督的领域自适应方法都能从使用中受益。

 对于无监督领域自适应和有监督领域自适应,我们有两个阶段的训练程序:预训练和最终调整。这种简单的纹理随机化的优点在于它具有域泛化的能力。换言之,具有随机纹理的域更一般,因此为其训练的模型更可推广到新域,并且两个广义域比原始域有更多的重叠。这简化了早期训练阶段的领域适应训练。由于这个原因,增强数据集比原始源数据集和目标数据集更好地用于关联。一旦通过预训练正确初始化了网络,我们就用传统数据对其进行调整,用于两种领域自适应场景,旨在更好地适应目标领域的纹理。 请注意,无监督领域自适应的微调是以无监督的方式进行的,而有监督领域自适应是以有监督的方式执行的。

 我们提出的方法简单而有效。我们通过大量实验验证了其在两种领域适应场景中的有效性。该方法与现有的领域自适应方法正交,可以很容易地插入到它们的训练过程中进行进一步改进。

2、相关工作

A、语义分割

 目前的语义分割方法大多基于全卷积神经网络。在早期工作引入分类网络用于分割任务后,通过在多个尺度上捕获上下文信息,扩展了感受野和更强大的骨干网络,性能得到了稳步提高。尽管大多数最先进的网络都是在ImageNet上预先训练的,但它们仍然需要专门用于手头分割任务的大型数据集。

B、合成数据

 与生成用于语义分割的注释相关的高成本导致了用于驾驶场景的一大类合成数据集的发布。受传统数据集的启发,Richter等人利用消费市场电子游戏《侠盗猎车手V》以半自动的方式渲染驾驶场景的图像及其分割遮罩。Ros等人创建了一个专门用于生成SYNTHIA交通场景分割数据集的环境。通过采用电影行业中用于Synscapes数据集的渲染方法,Wrenninge等人最近在生成逼真图像方面取得了飞跃。还有一些工作通过在真实图像中施加风化效应,为恶劣的驾驶条件创建半合成数据。与这些方向正交,CARLA城市驾驶模拟器提供了算法与环境之间的交互以及实时图像渲染的可能性。 在将天气影响合成为正常图像以创建天气退化图像以用于在不利天气条件下理解语义场景方面,出现了一系列新的方法。尽管在提供逼真的图像外观方面投入了大量工作,但模拟数据和真实数据之间的领域差距仍然存在,这引发了对领域自适应方法的需求。

 领域自适应旨在克服测试时的数据分布与训练期间的分布不匹配时的性能下降。关于经典机器学习和深度学习中的领域自适应的早期出版物主要解决了分类任务中的领域不匹配问题。在这种情况下,特征空间中源分布和目标分布的对齐已被证明工作良好。除此之外,用于道路场景语义分割的域自适应可以从域之间相似的场景结构中受益——虽然从源域到目标域的外观或纹理可能会发生显著变化,但总体空间布局是相似的。Tsai等人利用这一特性采用了对抗性学习方案,并实现了比以前方法显著的性能改进。最近,这项工作被扩展到通过补丁匹配利用更强大的局部相似性。

D、纹理偏向

 卷积神经网络特征的解释是一个开放而活跃的研究领域。虽然网络学习训练过程中存在的对象的精细到粗略的结构表示这一普遍观点得到了网络可视化技术的支持,并在该领域得到了广泛接受,但最近的工作表明,网络在很大程度上依赖于文本信息。通过限制神经网络的接受域,Brendel等人能够证明ImageNet分类性能不会显著下降,即使仅依赖于文本信息。此外,Geirhos等人的大量用户研究表明,与人类相比,神经网络倾向于基于纹理而不是图像结构进行推理。通过对ImageNet训练数据集进行风格化,他们能够减少纹理偏差,并使网络在分类任务中表现得更像人类测试对象。 与此相反,我们研究了纹理偏差对分割任务领域自适应的影响,与分类相比,需要更多的局部信息以及不同尺度的信息。此外,我们专注于评估不同的网络训练方法,而不是显示人类直觉和网络预测之间的一般差异。

3、方法

A、概览

 我们用于语义分割的领域自适应方法通过在训练过程中引入场景结构数据集来解决克服源和目标领域之间的纹理差异的问题。场景结构数据集是通过使用中提出的随机绘画的风格对原始图像进行风格化而生成的,在下文中称为风格化数据集。来自Cityscapes数据集以及Playing for Data的图像与相应的风格化图像的比较如图1所示。

 使用随机绘画进行风格转换可以确保同一目标类的纹理在图像之间发生变化,因此不会对其信息进行编码。因此,类标签的分配更多地依赖于对象形状,而对象形状比对象纹理更不依赖于域。只有形状信息的物体识别似乎是一项天生的艰巨任务。然而,人类观察者仍然可以完全基于形状信息来容易地识别和注释场景中的几乎所有对象。这种识别需要来自更全局上下文的信息,并强制执行算法来学习这种更全局的形状信息,这种信息更容易跨域传递。

B、风格

 为了进行培训和评估,考虑从“数据游戏”(GTA)改编为“城市景观”(CS)。Playing for Data是一个由24966张使用侠盗猎车手V引擎渲染的合成场景图像组成的数据集。Cityscapes是一个驾驶数据集,由3475张公开可用的图像组成,这些图像具有像素级分割,用于在50个欧洲城市进行训练和验证。为了生成每个数据集的风格化版本,我们使用自适应实例规范化执行前馈样式传递。来自驾驶数据集的图像被用作内容图像,每个图像都通过采用Kaggle上托管的Painter by Numbers数据集中绘画的风格进行转换。由于拥有79434幅绘画作品的Painter by Number数据集大于Playing for Data以及分别拥有24966幅和3475幅带注释的训练和验证图像的Cityscapes,因此每幅图像都可以进行不同的风格化。

 有了额外的程式化数据集,在训练过程中可以进行多种组合。在下文中,我们将数据集组合表示为:

C、无监督域适配

我们的无监督领域自适应网络基于Tsai等人提出的AdaptSegNet结构。有关更多细节,我们请读者参阅我们的管道的改编来源。对于分割,使用了具有ResNet-50主干的DeepLabv2架构,这减少了训练时间,并允许在不同的训练方法之间进行统计比较。我们通过随机数据集选择方法扩展数据加载器以使用组合数据集,如等式1所示,其中输入图像以相等的概率从传统数据集或风格化数据集绘制。完整的体系结构如图2所示。

 虽然在网络训练过程中诱导强烈的结构偏见对于分类等全局任务来说是直观的,但语义分割需要额外的局部信息来推断密集掩码。因此,来自组合数据集的直接域自适应比经典域自适应要困难得多,这会导致性能下降,尽管它更好地捕捉到了基本思想。为了克服这些挑战,并在域转移中统一本地和全局信息,我们将培训分为两个阶段。在预训练阶段,在组合数据集上执行训练,并在预定义的迭代次数后终止训练。在随后的最终调整阶段,继续使用传统数据集进行训练。 通过这种方法,预训练可以防止网络过度适应纹理,同时减少与两个数据集的风格化图像之间的域差距。然而,由于风格化图像的分割任务更具挑战性,因此用于训练鉴别器网络的源域中的分割掩码无法达到足够的质量。因此,仅使用传统数据集的微调允许网络重新定义预测并提取提供最终高质量分割掩模所需的纹理线索。

 D、有限数据的全监督适配

 用有限数量的标记数据进行监督的领域自适应是实现成功的领域自适应的第二种重要方法。虽然在许多情况下,标记由数千张图像组成的数据集成本太高,但通常可以对目标域中的少数图像进行注释。有了这些图像,可以对在相关的较大数据集上预先训练的网络进行微调,从而在目标域中获得更好的性能,而不会过度适应较小的数据集。

 在我们的实验中,我们在GTA、程式化GTA或组合GTA上使用源域中的所有24966幅合成图像进行了60000次迭代的交叉熵损失预训练。对于每次迭代中的组合GTA,从传统或风格化的Playing For Data数据集中随机选择图像,概率p=0.5。随后,使用从原始城市景观训练集(目标域)中选择的5、10和20幅图像的小范围调整数据集恢复训练,进行10000次额外迭代。通过对组合数据集进行预训练,网络被迫学习除文本线索外的结构信息,从而实现更有效的域转移。

 4、实验和结果

 为了评估无监督领域自适应的任务,我们将所提出的领域自适应方法与Tsai等人的最先进方法进行了比较。关于从Playing For Data[22]到Cityscapes[4]的领域转移。由于域自适应性能在运行之间高度波动,这是由于这些方法基于不稳定的对抗性网络,我们使用我们的方法和基线网络进行了十次运行。

 生成器网络以0.00025的初始学习率和多项式衰减进行训练。常规训练在160000次迭代后提前停止训练。组合数据集的预训练在85000次迭代后终止,并继续对传统数据集进行微调,再进行75.000次迭代。

 图3显示了两种方法的平均性能的比较,以验证集上的并集平均交集(mIoU)来衡量。蓝图对应于传统的训练过程,并在115000次迭代后达到其最大性能,mIoU为33.18%,这与文献中报道的ResNet-50主干的数字一致。在组合数据集上预训练网络生成的结果显示为红色。在迭代85000切换到最终调整后,网络在大多数步骤上都优于传统方法。在迭代150000时产生最优结果,mIoU为34.20%。此外,关于组合数据集,在15个评估步骤中的11个步骤中,其表现优于由水平虚线指示的传统训练的最大值。

 虽然社区中以前的大多数工作都报告了单一的最佳运行,但我们认为这并没有很好地结合无监督领域自适应的用例。由于即使从目标域中很少的注释图像也可以获得很大的性能增益,因此完全无监督的域自适应不能依赖于验证数据集来选择性能最好的检查点。然而,通过不是在一次迭代中进行评估,而是说明一个窗口内的平均性能进一步接近实际设置,从而减少了波动的影响,在实际设置中,无法准确确定最佳终止点。我们将窗口长度设置为七个时间步长,并分别为每种方法优化其位置。 对于传统实现,最佳窗口位置包含迭代110000到135000,对于在组合数据集上预训练的网络,最佳窗口从迭代125000开始,到迭代150000结束。使用这种方法,表I中报告了两种方法的总体和每类IoU。

B、有限数据的监督适配

使用来自城市景观的5、10和20个图像的子集来评估对目标域的一小组标记图像的微调,其中这些图像集被定义为不包含来自单个城市的多个图像。对从原始训练集中随机选择的100张不相交的图像集进行验证,并将500张城市景观验证图像用作测试集。微调的初始学习率设置为0.00001,多项式学习率衰减,图像从小数据集中随机绘制。

我们比较了在播放数据上预先训练的传统基线,一个网络在程式化版本上预先训练,另一个网络则在两者的组合上训练。表二报告了验证集上性能最好的检查点生成的测试集结果。在所有训练方法中,组合数据播放的预训练在所有实验中表现最好。

5、讨论和结论

 我们的实验证明,纹理欠拟合可以提高域自适应的性能。在无监督的环境中,我们能够证明,使用程式化和传统数据进行联合训练可以有效地增强现有的领域自适应技术。我们在有限数据下进行微调的实验结果支持了这样一种直觉,即如果只有极少数数据点可用于训练,那么预训练尤其重要。根据相关情况,用五张图像进行实验得出的mIoU范围为6.81%(从32.84%到39.65%),20张图像的mIoU缩小到3.32%(38.60%到41.92%)。在第一种情况下,虽然广泛的训练会导致过度适应,但短期训练仍然会给预先训练的网络带来很大的压力。 与此相反,如果有更多的数据可用于微调,则可以进行更长的训练,从而减少预训练的影响,从而减少差异。在所提出的监督域自适应从合成到真实(从播放数据到城市景观)的用例中,我们在20张图像上确定了阈值,其中传统设置和我们的最佳设置的性能相互接近。

 虽然纹理拟合显示出有希望的结果,但需要慎重使用。尽管设想不同,但图像风格化不可避免地会扰乱局部结构。虽然这不是图像分类的问题,因此不会影响Geirhos等人[11]的结果,但它阻碍了图像分割过程,因为这些结构经常定义对象边界。当网络仅在程式化数据集上进行预训练时,这种影响变得尤为明显,这会导致其性能下降。在程式化数据集和传统数据集上进行联合训练可以避免这种特性的影响。

 如图4所示,对分割结果的定性评估表明,使用组合数据集进行训练主要提高了在人行道或建筑物等定义良好的形状上的性能。此外,对于这两种自适应设置,我们的方法减少了只有少数像素被分割为不正确类的伪影,从而减少了掩模中可见孔的数量。为了进一步形式化用于领域自适应的纹理适配的概念,通过设计一种新的网络架构来找到解决方案是很有趣的。这是留给未来的工作。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 摘要
  • 2、相关工作
    • A、语义分割
      • B、合成数据
        • D、纹理偏向
        • 3、方法
          • A、概览
            • B、风格
              • C、无监督域适配
                •  D、有限数据的全监督适配
                •  4、实验和结果
                  • B、有限数据的监督适配
                  • 5、讨论和结论
                  相关产品与服务
                  数据集成
                  数据集成(DataInLong)源于腾讯开源并孵化成功的 ASF 顶级项目 Apache InLong(应龙),依托 InLong 百万亿级别的数据接入和处理能力支持数据采集、汇聚、存储、分拣数据处理全流程,在跨云跨网环境下提供可靠、安全、敏捷的全场景异构数据源集成能力。
                  领券
                  问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档