前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >CVPR 2021 | 一起来看 Pinscreen 的 Avatar Synthesis 最新技术

CVPR 2021 | 一起来看 Pinscreen 的 Avatar Synthesis 最新技术

作者头像
好好学SLAM
发布2021-08-26 14:26:18
1.3K0
发布2021-08-26 14:26:18
举报
文章被收录于专栏:计算机视觉SLAM情报站

Teaser

本文作者均来自 Pinscreen,即杀马特🧑🏻‍🎤教授黎颢创办的专注于真实感虚拟角色生成的人工智能公司。文章提出了一种从任意人脸图片,生成 normalized avatar (即中性表情、标准光照下的3D人脸虚拟化身)。

论文:arxiv.org/abs/2106.11423

Method

文章的流程如下图所示,主要包含两个阶段:

Inference Stage:输入一张人脸图片,首先使用预训练的人脸识别网络 FaceNet 提取人脸面部特征,然后该面部特征通过 Identity Regressor 映射到 Synthesis Network 的隐空间向量

\mathbf{w}

,Synthesis Network 从隐向量

\mathbf{w}

解码出带中性表情的人脸几何和标准化(去除光照的) albedo texture。

Refinement Stage:通过优化隐向量

\mathbf{w}

极小化输入图片和可微分渲染器渲染的图片之间的感知差异,以使得通过优化后的

\mathbf{w}

能够生成更加逼真的 avatar。

Overview

Robust GAN-Based Facial Inference

Synthesis Network

G

合成 UV 空间的几何和纹理,UV map 上的每个像素表示对应顶点的 3D 位置和 RGB 颜色

(r, g, b, x, y, z)

,Synthesis Network 首先使用 GAN 训练来确保可以从一个正态分布隐向量

\mathcal{Z} \in \mathcal{N}(\mu, \sigma)

鲁棒地生成高质量的 UV map,然后固定

G

训练 Identity Regression Network

R

来确保从输入图片的身份特征到隐空间的准确映射。

Geometry & Texture Synthesis

Synthesis Network

G

训练好之后,再通过 GAN-inversion 算法寻找最佳的隐变量。作者采用 StyleGAN2 的解耦的和推广的隐空间

\mathcal{W}+ := \mathbb{R}^{14 \times 512}

作为投影空间以得到更好的重建结果。如下图所示,作者采用优化的方法,通过极小化如下目标函数来寻找 position map 和 albedo map 的最佳嵌入:

L_{i n v}=L_{p i x}+\lambda_{1} L_{\mathrm{LPIPS}}+\lambda_{2} L_{a d v}

其中

L_{p i x}

是 position map 和 albedo map 的像素

L_1

误差,

L_{\mathrm{LPIPS}}

是作为感知损失的 LPIPS 距离,

L_{a d v}

是对抗损失。对于感知损失,直接在纹理图片上计算 LPIPS 距离误差会导致不稳定的结果,因此作者通过可微分渲染器,从三个固定的相机视角渲染图片,并在这些渲染的图片上计算感知损失。

Geometry & Texture Refinement

最后,Identity Regressor Network

R

使用求解的隐向量和其对应的输入图片的身份特征向量进行训练。

Unsupervised Dataset Expansion

虽然已有开源的包含正脸、中性表情的人脸图片数据集,但现有数据集不算大,且不同数据集的光照条件差异较大,为了避免从互联网收集此类图片来扩充训练集,作者借助预训练的 StyleGAN2 来自动生成带中性表情的正脸图片。参考最近的 semantic face editing[2] 工作,作者训练了一个神经网络来从输入图片预测身份属性

\alpha

。作者从互联网上收集人脸图片预测其

\alpha

,然后作用到

\mathbf{w}_{mean}

上,

\mathbf{w}_{mean}

是隐空间的固定值,可以生成平均的正脸图片,再使用隐编辑向量

\beta

来中性化表情,最终隐向量

\mathbf{w}' = \mathbf{w}_{mean} + \alpha + \beta

送入 StyleGAN2 便可以生成一个正面带中性表情的人脸图片。下图展示了一些合成的人脸图片。

Synthetic Faces

对于每一张合成的人脸图片,作者使用 light normalization[3] 得到去光照后的图片,借助 Face2Face[4] 人脸拟合算法得到人脸的几何,并投影到去光照后的图片上得到纹理图,由于人脸照片都是正脸,直接投影便可以得到高分辨率纹理。

作者使用的训练数据分为两个集合:

  • Scan Dataset:包含 431 个高质量的人脸扫描数据,其中 63 个来自 3D Scan Store,另外 368 个来自 Triplegangers;
  • Normalized Face Dataset:包含5601 个个体,其中 368 来自 Triplegangers,597 个来自 Chicago Face Dataset (CFD),230 来自 Compound Facial Expressions (CFE) dataset,153 个来自 The CMU Multi-PIE Face Dataset,67 来自 Radboud Faces Database (RaFD),剩下的 4186 个来自上述方法生成的数据。

作者首先在高质量的 Scan Dataset 训练 Synthesis Network

G_0

,然后固定

G_0

训练 Identity Regressor

R_0

,借助训练的

(G_0, R_0)

预测 Normalized Face Dataset 中所有人脸图片的几何和纹理,然后使用 Face2Face 进一步优化,得到的几何和纹理再加入到

(G_0, R_0)

的训练集得到更高准确性和鲁棒性的网络

(G_1, R_1)

下面图 9 和图 10 分别展示了 Synthesis Network 和 Identity Regression Network 在不同数据集上训练的结果比较,可以看见加入 Normalized Face Dataset 训练能够让最终结果有更多的细节,与原图更加相似。

Synthesis Network

Regression Network

Perceptual Refinement

虽然上面的 Inference Stage 已经能够从输入的人脸图片预测规范化的纹理和几何,Perceptual Refinement 阶段能够在隐空间找到一个与输入图片更加匹配的隐向量。Shi 等人的工作表明,人脸识别的嵌入空间通常噪声较大且存在歧义,虽然 FaceNet 会预测一个最可能的隐向量,但方差可能会很大。对于隐向量的一个微小扰动可能对身份特征没有影响,但经过

R

G

之后可能导致巨大的不一致性。

对此作者提出了一种端到端的完善阶段,如上图3所示,作者使用可微分渲染器从估计的 3D 人脸渲染得到人脸图片,为了 3D 人脸能够投影到输入图片

I

,作者使用 ResNet-50 作为骨干网训练了一个回归网络从图片

I

估计相机参数

c=[t_x, t_y, t_z, r_x, r_y, r_z, f]^T

,其中

[t_x, t_y, t_z]^T

[r_x, r_y, r_z]^T

分别是相机的平移和旋转,

f

是相机的焦距。网络使用 Scan Dataset 的精确相机参数和 Normalized Face Dataset 计算的相机参数训练。为了将投影的人脸图片和输入背景融合,作者在 CelebAMask-HQ 数据集上训练了 PSPNet 网络来分割出人脸区域,然后将渲染的人脸图片

\hat{I}

和去除了人脸的图片

I

融合得到图片

I_0

,最终的损失函数是

L_{r e f i n e}=L_{w}+\lambda_{1} L_{\mathrm{LPIPS}}+\lambda_{2} L_{i d}

其中

L_w

\mathbf{w}

的正则项,即变量

\mathbf{w}

和网络

R

预测的其初始值之间的欧氏距离,使得调整的隐向量和初始值尽可能接近,

L_{\mathrm{LPIPS}}

是图片

I_0

I

之间的感知损失,

L_{i d}

是图片

\hat{I}

I

对应的身份特征之间的余弦距离。

Results

下图展示了文章方法和现有方法的结果对比,文章方法能够从各种表情各种光照下的人脸图片重建出中性表情下带高质量纹理的人脸模型。

Qualitative Comparison

下图展示了从一个人的不同图片重建的结果,可以发现,虽然输入图片的颜色、光照等可能存在巨大差异,但文章方法仍能得到较为一致的重建结果。

Qualitative Comparison‍‍

参考

  1. Normalized Avatar Synthesis Using StyleGAN and Perceptual Refinement. Huiwen Luo, Koki Nagano, Han-Wei Kung, Mclean Goldwhite, Qingguo Xu, Zejian Wang, Lingyu Wei, Liwen Hu, Hao Li. CVPR, 2021.
  2. Interpreting the Latent Space of GANs for Semantic Face Editing. Yujun Shen, Jinjin Gu, Xiaoou Tang, Bolei Zhou. CVPR, 2020.
  3. Deep Face Normalization. Koki Nagano, Huiwen Luo, Zejian Wang, Jaewoo Seo, Jun Xing, Liwen Hu, Lingyu Wei, Hao Li. SIGGRAPH Asia, 2019.
  4. Face2Face: Real-time Face Capture and Reenactment of RGB Videos. Justus Thies, Michael Zollhöfer, Marc Stamminger, Christian Theobalt, Matthias Nießner. CVPR, 2016.
  5. Probabilistic Face Embeddings. Yichun Shi, Anil K. Jain. ICCV, 2019.

—— The End ——

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-08-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 计算机视觉SLAM 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Method
    • Robust GAN-Based Facial Inference
      • Unsupervised Dataset Expansion
        • Perceptual Refinement
        • Results
        • 参考
        相关产品与服务
        人脸识别
        腾讯云神图·人脸识别(Face Recognition)基于腾讯优图强大的面部分析技术,提供包括人脸检测与分析、比对、搜索、验证、五官定位、活体检测等多种功能,为开发者和企业提供高性能高可用的人脸识别服务。 可应用于在线娱乐、在线身份认证等多种应用场景,充分满足各行业客户的人脸属性识别及用户身份确认等需求。
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档