基于 ViT 的图像纹理风格迁移

公众号机器学习与AI生成创作

发布于 2022-10-31 18:57:03

8020

发布于 2022-10-31 18:57:03

文章被收录于专栏：机器学习与生成对抗网络

Splicing ViT Features for Semantic Appearance Transfer

https://arxiv.org/pdf/2201.00424.pdf

https://github.com/omerbt/Splice

提出了一种在语义上将一张图像的视觉外观迁移到另一张图像的方法。具体目标是，生成一张图像，其中源结构图像中的对象被“绘制”为目标外观图像中其语义相关对象的视觉外观。方法通过仅给定单张结构/外观的一对图像作为输入来训练生成器。

为了更好地学习语义信息——这也是解决此任务的关键组件——利用预训练和固定的视觉transformer (ViT) 模型，该模型用作外部语义先验。从深度 ViT 特征中提取结构和外观的新表示，将它们从学习的自注意力模块中解耦开来。然后建立一个目标函数，拼接所需的结构和外观表示，在 ViT 特征空间中将它们融合在一起。

本文所提出的方法称之为“Splice”，不涉及对抗训练，也不需要任何额外的输入信息（比如语义分割标签），并且可以生成高分辨率结果。在物体数量、姿势和外观发生明显变化的情况下，方法依旧在各种自然场景图像上展示出了高质量的结果。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2022-08-31，如有侵权请联系 cloudcommunity@tencent.com 删除

https