标题:Stronger, Fewer, & Superior: Harnessing Vision Foundation Models for Domain Generalized Semantic Segmentation 论文:https://arxiv.org/abs/2312.04265 主页: https://zxwei.site/rein/ 源码:https://github.com/w1oves/Rein
域泛化语义分割致力于提升模型在与训练场景相异的未知场景下的测试性能。
Rein在经典的合成域到真实域、真实域到异常天气域等多个Benchmark上取得了SOTA性能,相关代码已开源并获数百Star,其贡献如下:
域泛化语义分割(Domain Generalized Semantic Segmentation, DGSS)致力于在不使用目标域图像和标签的前提下,提升模型在未知测试场景下的性能,即模型OOD(Out of Distribution)泛化性。常见的Benchmark主要包括:
传统的DGSS方法聚焦于ResNet、MobileNet等经典Backbone。近年来,视觉基础模型(Vision Foundation Models, VFMs)被大量提出,其从大规模预训练集中获取的优越泛化性也得到了社区的广泛认同。在综合研究和对比多种VFMs在语义分割任务上的泛化性后(如表1所示),中国科学技术大学和上海AI Lab的研究者们共同提出了‘Rein’,一种预训练参数冻结的参数高效微调方法,高质、高效地提升了VFMs在多种未知域上的语义分割性能。
尽管VFMs展现出了高度泛化能力。然而存在两个问题:
这两方面原因使得在源域上训练VFMs时易破坏大规模预训练时嵌入的知识,造成对源域的过拟合。
为了解决这两个问题,在数据集规模和算力资源双受限的情境下训练参数量巨大的VFMs,Rein被设计为一种可训练参数量极小的参数高效微调方法。在Rein的训练过程中,VFMs的所有参数均被冻结,实现了对预训练知识的无损保留;
同时,为了学习语义分割任务和街道场景的特定知识,Rein引入了一组和图像中实例目标高度关联的可学习token序列。在Backbone的每一层中,Rein均会计算一组feature和token的注意力,用以估计模型特征中不同位置所需要的修正幅度:
随后,Rein会将注意力图和Token再次进行矩阵乘,估计出特征图中应该修正的偏差量,并合并入特征图中送入Backbone的下一层:
这一机制使得Rein能够在实现实例级的动态特征修正。与一般的Decode Head或者Neck结构不同,Rein嵌入在VFMs的层与层之间,其修正后的特征图会被送入VFMs的下一层。冻结预训练参数的前提下,这种方式能够更加灵活地挖掘VFMs的潜力。
Rein的一大特点是其中可学习token与图像中目标的连接关系。然而,在没有显示引导的情况下让模型学习这一连接关系并不简单。为了强化这一连接,Rein巧妙应用了近年流行的解码的——Mask2Former的特点。
在MaskFormer、Mask2Former等一系列受到DETR启发的工作中,均存在着一组名为Query的向量。在分割过程中,每一个Query严格对应着图像中的一组Instance或Stuff。
由于其出色的性能和广泛的认可,Rein的实验过程中主要采用Mask2Former作为Decode Head。在此前提下,Rein提出了一种动态link机制,将可学习token和Query紧密关联:
多个不同的Token之间存在大量的共享信息,例如,汽车灯和自行车灯之间必然存在极大的相似性。为了最大程度减少冗余信息、获取更加精简的表示,Rein应用了双低秩矩阵相乘的策略来生成token序列:
其中,的值由实验确定,在文章中一般取16。
实验结果如表2所示。在经典的这一Benchmark上, Rein一致地提升了VFMs的泛化性能,不仅强于冻结微调,甚至要高于全参数微调的性能。
实验结果如表3所示。在当使用相同的Backbone时,Rein的性能不仅远优于当下先进的领域泛化方法,也优于在其他领域常用的参数高效微调方法。
实验结果如表5所示。通过引入大量仿真数据集,Rein仅使用仿真数据在Cityscapes上达成了78.4%的mIoU。进一步引入少量真实数据后,Rein仅使用1/16的训练集,即在Cityscapes验证集上获取了82.5%的mIoU。
实验结果如表6所示。相较于传统的全参数微调,Rein能够节省近2小时的训练时间和近1/3的显存占用。
建立在对VFMs的语义分割泛化性能的充分调研基础上,Rein提出了一种在DGSS领域中驾驭VFMs的方法。通过一组可训练令牌序列,Rein有意义地提升了VFMs的泛化性,性能远超当下的SOTA DGSS方法。广泛的实验证明了Rein在仿真到真实、真实到真实等多个域上取得了优异的性能,并且能够降低VFMs在语义分割数据集上的训练难度。