图1 本方法单独地或联立地支持来自图像和文本域的条件输入以完成头发编辑
本文介绍我们在CVPR 2022关于基于文本和参考图像完成头发编辑的工作。该工作将文本和参考图像条件统一在了一个框架内,在单个模型内支持广泛的图像和文本作为输入条件从而完成相应的头发编辑任务。代码正在逐步开源,欢迎大家试用。
论文标题: HairCLIP: Design Your Hair by Text and Reference Image
作者单位: 中国科学技术大学,微软云AI,香港城市大学
录用信息: CVPR 2022
代码: https://github.com/wty-ustc/HairCLIP
论文: https://arxiv.org/abs/2112.05142
一、针对问题
1. 当前头发编辑交互方式不够友好
头发作为人脸至关重要的组成部分,一直以来得到了学术界与工业界的广泛关注。近年来,随着深度学习的发展,许多基于条件生成对抗网络(GAN)的头发编辑方法可以产生不错的编辑效果。但是,这些方法大多使用精心绘制的草图或遮罩作为图像到图像翻译网络的输入从而得到编辑后的结果。然而这种交互方式并不直接也不够友好。因此,这样的交互方式极大地限制了这些方法的大规模自动化使用。
2. StyleCLIP为文本驱动的图像编辑提供了前车之鉴,但其存在诸多不适于高强度“做头发”的缺点
得益于跨模态视觉和语言表征的发展,基于文本指导的图像篡改方法已经开始不断出现。最近,StyleCLIP通过结合StyleGAN强大的图像合成能力和CLIP惊人的图像文本表征能力展现了很好的图像篡改效果。尽管StyleCLIP内在地支持基于文本描述的头发编辑,但是它存在如下缺点:
二、方法框架
本文利用在大规模人脸数据集上预训练的StyleGAN作为我们的生成器,整个头发编辑框架如图2所示。给定待编辑的真实图像,我们首先使用StyleGAN inversion方法得到其隐编码,然后我们的头发映射器根据隐编码和条件输入(发型条件、发色条件)预测隐编码相应的变化,最后修改后的隐编码将被送入StyleGAN产生对应的头发编辑后的图像。因此,最核心的问题就是学习一个映射器网络来将输入的条件解耦地映射到隐编码的相应变化。我们从网络结构、损失函数两个方面来解决这个问题。
图2 本文提出的跨模态头发编辑框架的概述图
1. 网络结构
2. 损失函数
三、实验结果
与相关工作的定性对比见图3、图4。我们的方法高质量地完成了相应的头发编辑任务。
图3 与StyleCLIP、TediGAN就基于文本描述的头发篡改的定性对比
图4 与LOHO、MichiGAN就基于参考图像的头发篡改的定性对比
四、应用展示
1. 头发内插
在获得两个完成头发编辑的隐编码后,我们可以通过将两个隐编码进行线性加权的方式完成细粒度的头发编辑。
图5 头发内插结果展示
2. 泛化能力
得益于我们提出的共享条件嵌入策略,我们的网络在有限的文本训练后拥有了一定的外推能力,它可以对训练过程中未出现过的一些文本产生合理的编辑结果。
图6 对未见过的文本描述的泛化性
3. 支持跨模态的条件输入
我们的模型支持来自图像域和参考图像域的条件以单独地或联合地形式作为网络的输入,这是目前其他头发编辑方法无法做到的。
图7 跨模态条件输入结果展示
五、总结
本工作第一次证明了CLIP在头发编辑领域的巨大潜力:不是单一地利用CLIP衡量图像文本相似度,本工作利用CLIP的强大的共享隐空间完成了对图像域和文本域的统一与协作促进,探索了CLIP的图像编码器对难以表征的事物提供一种相似性度量的手段。虽然本工作聚焦于头发编辑,但希望它可以对其他相关领域给予一些启发与思考。