人脸表情操纵(facial expression manipulation)任务指的是利用可输入的条件(condition)与人脸图像训练出一个图像到图像翻译的模型,生成的图像具有符合给定表情条件的特征,该模型可以实现对输入的人脸图像的表情进行细粒度的操纵。这篇论文已被ECCV 2020会议接收。
人脸表情编辑指的是对图像中人脸的表情进行变换和修改。通常,我们希望这种编辑方法是足够方便、可控的。方便,在于我们尽量设置少量的条件,操作简单;可控,在于我们可以精确地控制需要编辑的部分与编辑的结果。已有的基于学习的方法中,使用生成式模型的方法为近年来较常用的方法,然而要么他们的方法是基于人脸的关键点合成特定的表情,要么是基于代表了情绪类别的离散向量,这两种条件通常具有用户参与编辑的方式不够简单(人脸关键点),要么生成结果单一、不可细粒度控制(离散向量)。
事实上,刻画人脸表情的方式还有更细粒度的一种——Action Units(简称AUs)。我们的工作就是基于AU的表情细粒度编辑,下面介绍我们的工作。
AUs最初来自于[1],采用对人脸进行区域拆解,用一个数值来表示人脸各区域的肌肉状态,最终所有的AU组合成一个表情。从这种表情的分析与构建方式上来看,AUs组合的方式能刻画出的表情丰富度远远超过8类别情绪分类。作为一个图像到图像翻译的任务,方法[2]采用了条件生成对抗网路与AU结合的方式来编辑表情。但是[2]的模型采用了绝对值AU引导的思路。这存在两个不足。其一,使用绝对值AU作为引导,模型则需要针对任意条件都完成图像的映射。导致了我们在编辑人脸区域的时候,对不需要编辑的部分仍然给定“正确”的AU状态值,这意味着增加了用户编辑表情的负担。其二,在使用绝对AU时,模型的训练不如使用相对AU稳定。理由在于,使用绝对AU作为条件输入,生成器需要估计当前人脸的AU状态,以便于应用相应的转换。如不然,使用当前图片的AU作为输入,则模型需要做做相应的编辑,然而我们并不希望这种情况下图像有任何的变化。相反,使用相对AU的情况下,重建时只需要输入全零向量即可。
确定了相对AU向量作为模型的条件之后,我们进一步改进了生成器的结构。如下图,针对图像到图像翻译任务,我们使用了基于U-Net的网络结构,同时我们提出使用多尺度特征融合模块融合不同分辨率编码特征与相对条件向量,多尺度融合模块在特征级联之后进行卷积与上采样下采样操作,最终输出同一分辨率下的融合特征。
上图中,左为生成器结构,右为多尺度特征融合模块。
实验在AffectNet数据集上进行了训练,基于相对的AU与高质量表情编辑网络,我们可以实现表情的连续编辑、人脸局部的细粒度修饰以及对类人脸图像的编辑。
细粒度的表情编辑,使用相对AU训练的网络,我们可以让模型针对更局部的表达进行表情修改,如单个AU的编辑,同时我们还可以实现多个AU的同时编辑。
该研究与已有的方法,也就是我们的baseline方法做了定性的比较,结果显示我们的方法对表情的操纵结果更稳定,修饰痕迹更少。
更多的结果
在定量评价的结果上,我们也取得了更好的结果。
下表展示了我们使用客观评价指标的结果。IS为感知分数,其值越大,表示生成图像的质量越高;ACD为人脸识别网络计算的编辑前与编辑后的人脸的编码距离,反映了身份信息的差异,其值越小越好;ED为表情距离,度量了人脸表情分析网络提取的AU向量的L2距离,其值越小越好。
结果显示,我们使用多个特征融合模块使图像的表情距离越小,这说明生成图像的表情越符合目标表情。当GANimation使用相对向量时,获得的感知分数稍有提高。ACD的指标下,我们的结果在不使用多尺度特征融合模块时最好,但是生成的表情与目标表情差异较大,这可能是因为表情变化较小,从而人脸的身份信息变化更少。
我们同样对网络重建输入图像的能力进行了度量,计算方法为当目标表情向量与输入图像的表情向量一致时,生成图像与输入图像的L1、PSNR与SSIM(结构相似度)指标,理论上来说,L1与PSNR误差值越小越好,SSIM越高越好,我们最终训练的模型获得了更好的评价。
参考文献
[1]. Friesen, E., Ekman, P.: Facial action coding system: a technique for the measurement of facial movement. Palo Alto 3 (1978)
[2]. Pumarola, A., Agudo, A., Martinez, A., Sanfeliu, A., Moreno-Noguer, F.: Ganimation: One-shot anatomically consistent facial animation (2019)
代码开源链接:
https://github.com/junleen/Expression-Manipulator
本论文的arxiv链接:
https://arxiv.org/abs/2004.03132