样式映射器将预设样式应用于它接收到的照片。在最近的一项研究中,来自伊利诺伊大学厄巴纳-香槟分校的研究人员将JoJoGAN介绍为一种从单个样式样本中学习样式映射器的简单方法。例如,该技术允许没有经验的用户提供样式样本,然后将该样式应用于他们选择的图像。该团队在人脸照片的背景下讨论了它的方法,因为风格化的人脸对没有经验的用户非常有吸引力;然而,这个概念可以应用于任何图像。
学习风格映射器的过程应该简单易用,产生引人注目的高质量结果,只需要一个风格参考,但接受并受益于更多,允许用户控制转移多少风格,并允许更复杂的用户控制风格的哪些方面被转移以便有用。研究人员表明,该技术使用定性和定量证据实现了这些目标。
因为自然的方式——使用成对或不成对的图像翻译——并不真正实用,所以学习风格映射器很困难。为每种风格收集一个新数据集很不方便,因为许多风格可能没有很多样本。通过修改鉴别器,可以使用小样本学习方法微调 StyleGAN。这些方法无法生成漂亮的照片,因为它们缺乏对像素级损失的全面监控,而且它们经常无法捕捉到特定风格的细微差别和变化。
另一方面,JoJoGAN 使用 GAN 反转和 StyleGAN 的样式混合属性从参考图片(或图像——一张图像就足够了)创建配对数据集。StyleGAN 使用这个配对数据集和独特的直接像素级损失进行了微调。基础很简单:可以在不到一分钟的时间内从一张参考照片中创建映射器(以及因此大量风格化的肖像)。
JoJoGAN 可以成功地结合激进的风格参考(例如动物面孔)。自然程序决定了风格的哪些元素被使用以及风格的使用量。定性样本显示,由此产生的照片远远优于竞争方法产生的照片。该方法得到定量证据的支持。
生成器和预训练的 StyleGAN 鉴别器都以精确的分辨率进行训练。鉴别器计算在整个训练阶段不会忽略信息的特征(否则,生成器可能会产生低细节图像)。当对批次进行平均时,已知鉴别器特征可以稳定 GAN 训练。对于激活,研究人员选择在每个图像的特定层使用鉴别器激活的差异。
样式映射器应该能够产生好看的输出,正确地从样式参考中传输特征,并保持输入的身份。根据定性检查,JoJoGAN 具有这些品质,并且显着优于当前方法。
JoJoGAN 擅长捕捉形成风格的小元素,同时保持输入面部的身份。当有大量一致的风格参考时,JoJoGAN 结果通常会更好。比较了使用一组样本中的每一个的全部和多个单镜头样式的多镜头样式。当有多个样式示例时,JoJoGAN 能够混合细节以更接近输入,而一次性样式化强烈地复制样式参考中的效果(这是必须的)。
在一项研究中,该团队将 JoJoGAN 与非 DST 方法进行了比较,在另一项研究中,将其与 DST 进行了比较。向用户呈现样式参考、输入面和来自每个方法的风格化,并要求用户选择最能反映风格参考的风格化,同时保持原始身份。最初的研究得到了 31 人的 186 份回复,其中 80.6% 的人更喜欢 JoJoGAN,而不是其他方法;效果非常好,没有太大的困难。第二次调查获得了 16 人的 96 份回复,其中 74% 的人更喜欢 JoJoGAN 而不是 DST。
结论
能够使用参考照片对面部进行风格化是非常诱人的。该团队在这项工作中引入了 JoJoGAN,它可以让任何人以一种轻松的方式拍摄一张照片,从而产生令人难以置信的高质量照片,从而确定风格方面。该团队演示了如何在逼近大型配对数据集之前将 StyleGAN 用作强大的面部。它允许他们使用像素级损失对其进行微调,并捕捉其他方法缺乏的关键风格细微差别。
论文:
https://arxiv.org/pdf/2112.11641.pdf
Github:
https://github.com/mchong6/JoJoGAN