Splicing ViT Features for Semantic Appearance Transfer
https://arxiv.org/pdf/2201.00424.pdf
https://github.com/omerbt/Splice
提出了一种在语义上将一张图像的视觉外观迁移到另一张图像的方法。具体目标是,生成一张图像,其中源结构图像中的对象被“绘制”为目标外观图像中其语义相关对象的视觉外观。方法通过仅给定单张结构/外观的一对图像作为输入来训练生成器。
为了更好地学习语义信息——这也是解决此任务的关键组件——利用预训练和固定的视觉transformer (ViT) 模型,该模型用作外部语义先验。从深度 ViT 特征中提取结构和外观的新表示,将它们从学习的自注意力模块中解耦开来。然后建立一个目标函数,拼接所需的结构和外观表示,在 ViT 特征空间中将它们融合在一起。
本文所提出的方法称之为“Splice”,不涉及对抗训练,也不需要任何额外的输入信息(比如语义分割标签),并且可以生成高分辨率结果。在物体数量、姿势和外观发生明显变化的情况下,方法依旧在各种自然场景图像上展示出了高质量的结果。