Loading [MathJax]/jax/output/CommonHTML/jax.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >CVPR 2021 | 一起来看 Pinscreen 的 Avatar Synthesis 最新技术

CVPR 2021 | 一起来看 Pinscreen 的 Avatar Synthesis 最新技术

作者头像
好好学SLAM
发布于 2021-08-26 06:26:18
发布于 2021-08-26 06:26:18
1.4K0
举报

Teaser

本文作者均来自 Pinscreen,即杀马特🧑🏻‍🎤教授黎颢创办的专注于真实感虚拟角色生成的人工智能公司。文章提出了一种从任意人脸图片,生成 normalized avatar (即中性表情、标准光照下的3D人脸虚拟化身)。

论文:arxiv.org/abs/2106.11423

Method

文章的流程如下图所示,主要包含两个阶段:

Inference Stage:输入一张人脸图片,首先使用预训练的人脸识别网络 FaceNet 提取人脸面部特征,然后该面部特征通过 Identity Regressor 映射到 Synthesis Network 的隐空间向量

,Synthesis Network 从隐向量

解码出带中性表情的人脸几何和标准化(去除光照的) albedo texture。

Refinement Stage:通过优化隐向量

极小化输入图片和可微分渲染器渲染的图片之间的感知差异,以使得通过优化后的

能够生成更加逼真的 avatar。

Overview

Robust GAN-Based Facial Inference

Synthesis Network

合成 UV 空间的几何和纹理,UV map 上的每个像素表示对应顶点的 3D 位置和 RGB 颜色

,Synthesis Network 首先使用 GAN 训练来确保可以从一个正态分布隐向量

鲁棒地生成高质量的 UV map,然后固定

训练 Identity Regression Network

来确保从输入图片的身份特征到隐空间的准确映射。

Geometry & Texture Synthesis

Synthesis Network

训练好之后,再通过 GAN-inversion 算法寻找最佳的隐变量。作者采用 StyleGAN2 的解耦的和推广的隐空间

作为投影空间以得到更好的重建结果。如下图所示,作者采用优化的方法,通过极小化如下目标函数来寻找 position map 和 albedo map 的最佳嵌入:

其中

是 position map 和 albedo map 的像素

误差,

是作为感知损失的 LPIPS 距离,

是对抗损失。对于感知损失,直接在纹理图片上计算 LPIPS 距离误差会导致不稳定的结果,因此作者通过可微分渲染器,从三个固定的相机视角渲染图片,并在这些渲染的图片上计算感知损失。

Geometry & Texture Refinement

最后,Identity Regressor Network

使用求解的隐向量和其对应的输入图片的身份特征向量进行训练。

Unsupervised Dataset Expansion

虽然已有开源的包含正脸、中性表情的人脸图片数据集,但现有数据集不算大,且不同数据集的光照条件差异较大,为了避免从互联网收集此类图片来扩充训练集,作者借助预训练的 StyleGAN2 来自动生成带中性表情的正脸图片。参考最近的 semantic face editing[2] 工作,作者训练了一个神经网络来从输入图片预测身份属性

。作者从互联网上收集人脸图片预测其

,然后作用到

上,

是隐空间的固定值,可以生成平均的正脸图片,再使用隐编辑向量

来中性化表情,最终隐向量

送入 StyleGAN2 便可以生成一个正面带中性表情的人脸图片。下图展示了一些合成的人脸图片。

Synthetic Faces

对于每一张合成的人脸图片,作者使用 light normalization[3] 得到去光照后的图片,借助 Face2Face[4] 人脸拟合算法得到人脸的几何,并投影到去光照后的图片上得到纹理图,由于人脸照片都是正脸,直接投影便可以得到高分辨率纹理。

作者使用的训练数据分为两个集合:

  • Scan Dataset:包含 431 个高质量的人脸扫描数据,其中 63 个来自 3D Scan Store,另外 368 个来自 Triplegangers;
  • Normalized Face Dataset:包含5601 个个体,其中 368 来自 Triplegangers,597 个来自 Chicago Face Dataset (CFD),230 来自 Compound Facial Expressions (CFE) dataset,153 个来自 The CMU Multi-PIE Face Dataset,67 来自 Radboud Faces Database (RaFD),剩下的 4186 个来自上述方法生成的数据。

作者首先在高质量的 Scan Dataset 训练 Synthesis Network

,然后固定

训练 Identity Regressor

,借助训练的

预测 Normalized Face Dataset 中所有人脸图片的几何和纹理,然后使用 Face2Face 进一步优化,得到的几何和纹理再加入到

的训练集得到更高准确性和鲁棒性的网络

下面图 9 和图 10 分别展示了 Synthesis Network 和 Identity Regression Network 在不同数据集上训练的结果比较,可以看见加入 Normalized Face Dataset 训练能够让最终结果有更多的细节,与原图更加相似。

Synthesis Network

Regression Network

Perceptual Refinement

虽然上面的 Inference Stage 已经能够从输入的人脸图片预测规范化的纹理和几何,Perceptual Refinement 阶段能够在隐空间找到一个与输入图片更加匹配的隐向量。Shi 等人的工作表明,人脸识别的嵌入空间通常噪声较大且存在歧义,虽然 FaceNet 会预测一个最可能的隐向量,但方差可能会很大。对于隐向量的一个微小扰动可能对身份特征没有影响,但经过

之后可能导致巨大的不一致性。

对此作者提出了一种端到端的完善阶段,如上图3所示,作者使用可微分渲染器从估计的 3D 人脸渲染得到人脸图片,为了 3D 人脸能够投影到输入图片

,作者使用 ResNet-50 作为骨干网训练了一个回归网络从图片

估计相机参数

,其中

分别是相机的平移和旋转,

是相机的焦距。网络使用 Scan Dataset 的精确相机参数和 Normalized Face Dataset 计算的相机参数训练。为了将投影的人脸图片和输入背景融合,作者在 CelebAMask-HQ 数据集上训练了 PSPNet 网络来分割出人脸区域,然后将渲染的人脸图片

和去除了人脸的图片

融合得到图片

,最终的损失函数是

其中

的正则项,即变量

和网络

预测的其初始值之间的欧氏距离,使得调整的隐向量和初始值尽可能接近,

是图片

之间的感知损失,

是图片

对应的身份特征之间的余弦距离。

Results

下图展示了文章方法和现有方法的结果对比,文章方法能够从各种表情各种光照下的人脸图片重建出中性表情下带高质量纹理的人脸模型。

Qualitative Comparison

下图展示了从一个人的不同图片重建的结果,可以发现,虽然输入图片的颜色、光照等可能存在巨大差异,但文章方法仍能得到较为一致的重建结果。

Qualitative Comparison‍‍

参考

  1. Normalized Avatar Synthesis Using StyleGAN and Perceptual Refinement. Huiwen Luo, Koki Nagano, Han-Wei Kung, Mclean Goldwhite, Qingguo Xu, Zejian Wang, Lingyu Wei, Liwen Hu, Hao Li. CVPR, 2021.
  2. Interpreting the Latent Space of GANs for Semantic Face Editing. Yujun Shen, Jinjin Gu, Xiaoou Tang, Bolei Zhou. CVPR, 2020.
  3. Deep Face Normalization. Koki Nagano, Huiwen Luo, Zejian Wang, Jaewoo Seo, Jun Xing, Liwen Hu, Lingyu Wei, Hao Li. SIGGRAPH Asia, 2019.
  4. Face2Face: Real-time Face Capture and Reenactment of RGB Videos. Justus Thies, Michael Zollhöfer, Marc Stamminger, Christian Theobalt, Matthias Nießner. CVPR, 2016.
  5. Probabilistic Face Embeddings. Yichun Shi, Anil K. Jain. ICCV, 2019.

—— The End ——

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-08-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 计算机视觉SLAM 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
CVPR 2021 | GAN的说话人驱动、3D人脸论文汇总
一、说话人驱动(talking head) 1、Audio-Driven Emotional Video Portraits 尽管此前一些方法在基于音频驱动的说话人脸生成方面已取得不错的进展,但大多数
公众号机器学习与AI生成创作
2021/07/05
3.8K0
CVPR 2021 Oral | 商汤、港中文提出生成式渲染器+反向渲染,3D人脸重建效果逼真
在传统计算机图像学里,渲染一张真实的人脸需要对人脸进行几何建模的同时,还需获得复杂的环境光照条件和人脸皮肤表面的反射材质,因而通过以图像渲染结果与真实图片之间的误差来优化可变形的人脸模型的过程中会进行繁琐的求导和不稳定的优化过程,而简单的利用卷积神经网络的回归特性来学习人脸模型和图片直接的转换过程会丧失比较多的生成细节,从而难以通过该方式比较高效地从拍摄图片获得人脸 3D 模型。
机器之心
2021/06/08
1K0
【技术综述】基于3DMM的三维人脸重建技术总结
基于图像的人脸三维重建在人脸分析与娱乐领域里有巨大的应用场景,同时它也可以用于提升人脸关键点检测,人脸识别,人脸编辑等很多任务。本文重点介绍其中基于3DMM模型的核心技术及其研究进展。
用户1508658
2020/07/22
1.9K0
CVPR2021(Oral) 商汤、港中文实现单目人脸重建新突破: 基于生成网络的渲染器!几何形状更精准!渲染效果更真实!
近日,商汤-港中文联合实验室提出基于风格化对抗生成器的人脸渲染器,用于取代传统图形学基于栅格化的渲染器来进行3D模型的重建。该方法构建了一种从输入3D模型到生成图像的平滑梯度,同时可以以低精度建模获得渲染更高质量的图像。与此同时,通过对生成网络式的渲染器反向传播算法,能够获得更具有图像细节特征的重建人脸3D模型。
CV君
2021/05/10
8110
CVPR2021(Oral) 商汤、港中文实现单目人脸重建新突破:  基于生成网络的渲染器!几何形状更精准!渲染效果更真实!
最新 ICCV | 35个GAN应用主题梳理,最全GAN生成对抗论文汇总
这项工作提出一种新的逆映射方案,通过引入迭代细化机制,扩展当前基于编码器的逆映射方法。与当前最先进的方法相比,基于残差的编码器 ReStyle 提高了准确性,推理时间的增加可以忽略不计。https://yuval-alaluf.github.io/restyle-encoder/
公众号机器学习与AI生成创作
2022/05/27
4.5K0
最新 ICCV | 35个GAN应用主题梳理,最全GAN生成对抗论文汇总
超110篇!CVPR 2021最全GAN论文汇总梳理!
一、年龄迁移 1,Continuous Face Aging via Self-estimated Residual Age Embedding 人脸合成,尤其是年龄迁移,一直是生成对抗网络 (GAN) 的重要应用之一。大多数现有的人脸年龄迁移方法会将数据集分为几个年龄组并利用基于组的训练策略,这在本质上缺乏提供精细控制的连续年龄合成的能力。 这项工作提出统一的网络结构,将线性年龄估计器嵌入到基于 GAN 的模型中,年龄估计器与编码器和解码器联合训练以估计人脸图像的年龄并提供个性化的目标年龄特征嵌入。
公众号机器学习与AI生成创作
2021/12/09
3K0
超110篇!CVPR 2021最全GAN论文汇总梳理!
CVPR2021 | 五官复原效果惊艳,腾讯ARC利用GAN人脸先验来解决
真实世界的人脸复原是一个盲问题,即我们不清楚降质过程, 在实际应用中,同时也面临着各种各样降质过程的挑战。对于人脸这个特定的任务, 之前的工作往往会探索人脸特定的先验, 并且取得了较好的效果。常见的人脸先验有两类:
公众号机器学习与AI生成创作
2021/04/19
1.4K0
CVPR2021 | 五官复原效果惊艳,腾讯ARC利用GAN人脸先验来解决
CVPR2021 | 五官复原效果惊艳, 腾讯ARC利用GAN人脸先验来解决
机器之心发布 机器之心编辑部 人脸复原 (Face Restoration) 是指从低质量的人脸中复原得到高清的人脸。真实世界中的人脸复原是一个很有挑战的任务,因为降质 (degradation) 过程复杂且不尽相同。来自腾讯 PCG 应用研究中心 (ARC) 的研究者们提出了利用预先训练好的人脸生成模型提供的先验,来指导人脸复原的任务。 真实世界的人脸复原是一个盲问题,即我们不清楚降质过程, 在实际应用中,同时也面临着各种各样降质过程的挑战。对于人脸这个特定的任务, 之前的工作往往会探索人脸特定的先验,
机器之心
2023/03/29
4080
CVPR2021 | 五官复原效果惊艳, 腾讯ARC利用GAN人脸先验来解决
Exploiting Visual Artifacts to Expose Deepfakes and Face Manipulations论文详记
原文链接: https://ieeexplore.ieee.org/abstract/document/8638330.
全栈程序员站长
2022/08/30
5370
Exploiting Visual Artifacts to Expose Deepfakes and Face Manipulations论文详记
CVPR 2023 | Next3D: 用于 3D 感知头部头像的生成神经纹理栅格化
动画肖像合成对于电影后期制作、视觉效果、增强现实 (AR) 和虚拟现实 (VR) 远程呈现应用程序至关重要。高效的可动画肖像生成器需要能在细粒度级别上全面控制刚性头部姿势、面部表情和凝视方向来合成不同的高保真肖像。该任务的主要挑战在于如何在生成设置中通过动画建模准确的变形并保留身份,即仅使用 2D 图像的非结构化语料库进行训练。
用户1324186
2023/09/09
9250
CVPR 2023 | Next3D: 用于 3D 感知头部头像的生成神经纹理栅格化
CVPR 2022 | 实时渲染、可直接编辑,中科大提出高保真人头参数化模型HeadNeRF
机器之心发布 作者:中科大张举勇课题组 《黑客帝国: 觉醒》演示中的灵魂发问:当我们打造出的世界和我们自己的世界同等真实时,那现实到底意味着什么? 还记得去年 12 月,美国电子游戏与软件开发公司 Epic 发布的基于自家虚幻 5 打造的《黑客帝国: 觉醒》的演示吗?Demo 中所展示的主演人物的毛孔毛发级高真实感建模,着实让人惊叹 Epic 的强大技术能力。 据悉,以上演示 Demo 中的人物形象是由 Epic 名下的 MetaHuman Creator 创建生成,该应用可以让用户自由编辑调整目标数字形
机器之心
2022/05/16
9430
CVPR 2022 | 实时渲染、可直接编辑,中科大提出高保真人头参数化模型HeadNeRF
基于图像的三维物体重建:在深度学习时代的最新技术和趋势之人脸重建和场景分析
基于精细密集图像的人脸三维重建是计算机视觉和计算机图形学中一个长期存在的问题,其目标是恢复人脸的形状、姿态、表情、皮肤反射率和更精细的表面细节。最近,这个问题被描述为一个回归问题,并用卷积神经网络来解决。
3D视觉工坊
2020/12/11
1.2K0
CVPR 2022 | 最全25+主题方向、最新50篇GAN论文汇总
这项工作提出一种新的“基于编辑”的方法,即属性组编辑(Attribute Group Editing,AGE),用于少样本图像生成。思路是任何图像都是属性的集合,并且特定属性的编辑方向在所有类别中共享。AGE 检查在 GAN 中学习的内部表示并识别语义上有意义的方向。
公众号机器学习与AI生成创作
2022/05/27
8950
CVPR 2022 | 最全25+主题方向、最新50篇GAN论文汇总
简单盘点 CVPR2020 的图像合成论文
本文将简单盘点在 CVPR2020 上的图像合成方面的论文,然后给出下载地址以及开源代码 github(如果有开源)。
kbsc13
2020/08/06
9130
【CVPR 2023的AIGC应用汇总(7)】face相关(换脸/编辑/恢复) diffusion扩散/GAN生成对抗网络方法
【CVPR 2023的AIGC应用汇总(5)】语义布局可控生成,基于diffusion扩散/GAN生成对抗
公众号机器学习与AI生成创作
2023/08/22
8280
【CVPR 2023的AIGC应用汇总(7)】face相关(换脸/编辑/恢复) diffusion扩散/GAN生成对抗网络方法
ICCV 2019 Oral | 三维"ZAO"脸,单张图片估计人脸几何,效果堪比真实皮肤
CV君:本文为52CV群友上海科技大学陈安沛同学投稿,介绍了他们ICCV 2019最新人脸3D重建的工作。效果非常赞,代码也已开源,欢迎大家参考~
CV君
2019/12/27
1.1K0
一键「三维化」你的二维GAN,港中文提出无监督三维重建新方法GAN2Shape
如今,StyleGAN 等对抗生成网络已经能够对多种物体生成逼真的二维图片。然而或许你不知道,这些 GAN 其实知道所生成物体的三维形状。对二维 GAN 生成的图像,我们已经可以准确重建其三维结构,并实现旋转和重光照等图像编辑效果,如下图所示:
机器之心
2021/03/30
6930
一键「三维化」你的二维GAN,港中文提出无监督三维重建新方法GAN2Shape
优Tech分享 | 人脸3D重建与渲染技术研究与应用
6月5日—6日,2021全球人工智能技术大会(GAITC 2021)在杭州成功举办。本次大会,旨在汇聚中国科创智慧与活力的同时,与世界建立互通共享的沟通桥梁,在交流中探索共建美好智能时代的合作方案和发展共识,同时以最前沿的国际视野推动人工智能高速、有序、安全发展,造福人类生活。
优图实验室
2021/06/10
2K0
优Tech分享 | 人脸3D重建与渲染技术研究与应用
超100篇!CVPR 2020最全GAN论文梳理汇总!
下述论文已分类打包好!共116篇,事实上仍有一些GAN论文未被包含入内,比如笔者发推文时,又看到一篇《Rotate-and-Render: Unsupervised Photorealistic Face Rotationfrom Single-View Images》……可见GAN在CVPR 2020的火爆程度。
公众号机器学习与AI生成创作
2020/06/28
3.4K0
超100篇!CVPR 2020最全GAN论文梳理汇总!
卧剿,6万字!30个方向130篇!CVPR 2023 最全 AIGC 论文!一口气读完。
最近,扩散模型在图像生成方面取得了巨大的成功。然而,当涉及到布局生成时,由于图像通常包含多个物体的复杂场景,如何对全局布局图和每个详细对象进行强大的控制仍然是一个具有挑战性的任务。
公众号机器学习与AI生成创作
2023/08/22
4.4K1
卧剿,6万字!30个方向130篇!CVPR 2023 最全 AIGC 论文!一口气读完。
推荐阅读
CVPR 2021 | GAN的说话人驱动、3D人脸论文汇总
3.8K0
CVPR 2021 Oral | 商汤、港中文提出生成式渲染器+反向渲染,3D人脸重建效果逼真
1K0
【技术综述】基于3DMM的三维人脸重建技术总结
1.9K0
CVPR2021(Oral) 商汤、港中文实现单目人脸重建新突破: 基于生成网络的渲染器!几何形状更精准!渲染效果更真实!
8110
最新 ICCV | 35个GAN应用主题梳理,最全GAN生成对抗论文汇总
4.5K0
超110篇!CVPR 2021最全GAN论文汇总梳理!
3K0
CVPR2021 | 五官复原效果惊艳,腾讯ARC利用GAN人脸先验来解决
1.4K0
CVPR2021 | 五官复原效果惊艳, 腾讯ARC利用GAN人脸先验来解决
4080
Exploiting Visual Artifacts to Expose Deepfakes and Face Manipulations论文详记
5370
CVPR 2023 | Next3D: 用于 3D 感知头部头像的生成神经纹理栅格化
9250
CVPR 2022 | 实时渲染、可直接编辑,中科大提出高保真人头参数化模型HeadNeRF
9430
基于图像的三维物体重建:在深度学习时代的最新技术和趋势之人脸重建和场景分析
1.2K0
CVPR 2022 | 最全25+主题方向、最新50篇GAN论文汇总
8950
简单盘点 CVPR2020 的图像合成论文
9130
【CVPR 2023的AIGC应用汇总(7)】face相关(换脸/编辑/恢复) diffusion扩散/GAN生成对抗网络方法
8280
ICCV 2019 Oral | 三维"ZAO"脸,单张图片估计人脸几何,效果堪比真实皮肤
1.1K0
一键「三维化」你的二维GAN,港中文提出无监督三维重建新方法GAN2Shape
6930
优Tech分享 | 人脸3D重建与渲染技术研究与应用
2K0
超100篇!CVPR 2020最全GAN论文梳理汇总!
3.4K0
卧剿,6万字!30个方向130篇!CVPR 2023 最全 AIGC 论文!一口气读完。
4.4K1
相关推荐
CVPR 2021 | GAN的说话人驱动、3D人脸论文汇总
更多 >
领券
社区富文本编辑器全新改版!诚邀体验~
全新交互,全新视觉,新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能,全面提升创作效率和体验
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文