前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >3DV2022 | 可控的人脸人体视频生成,UIUC & ZMO.AI 等提出可控神经辐射场 CoRF

3DV2022 | 可控的人脸人体视频生成,UIUC & ZMO.AI 等提出可控神经辐射场 CoRF

作者头像
AI科技评论
发布2023-04-12 17:47:14
5280
发布2023-04-12 17:47:14
举报
文章被收录于专栏:AI科技评论AI科技评论

作者丨庄佩烨、马里千、Sanmi Koyejo、Alexander Schwing

如何让 GAN 生成可控制表情和视角的3D人脸视频?来自UIUC、ZMO.AI、Stanford和Google的研究者提出可控神经辐射场(Controllable Radiance Fields,CoRF),在保证生成动态的人脸同时,可以实现多角度同时渲染视频。ZMO.AI 是国内内容生成初创公司,专注于 AI 文字生成内容创作平台“ Yuan 初”的搭建。该论文已被 3DV 2022 接收。

项目主页:https://payeah.net/corf_html/index.html

论文链接:https://arxiv.org/abs/2210.05825

代码链接:https://github.com/KelestZ/CoRF

Yuan初 创作平台:https://yuan.zmoai.cn/

研究者提出新的任务:从多角度生成面部动作可控的人脸视频。完成这个任务有两个技术难点,包括如何控制面部动作,以及如何保证生成的人脸在时间和空间维度保持面部特征(如肤色等)不变。针对这两个难点,该研究提出两个技术贡献:

1)提出可控神经辐射场(Controllable Radiance Fields)可以实现上述任务。

2)提出对人脸特征(如肤色和光线)在时间和空间上不变性的约束,以保证生成稳定、可靠的人脸视频。

最后,研究者尝试将方法应用在单目人体视频上,成功生成360度视角下的人体视频。

1

方法简介

该研究提出基于StyleNeRF的conditional GAN模型,命名为CoRF。首先,一个预训练好的运动回归器(Motion regressor, or R)用来从训练数据中提取动作特征(m),并作为GAN生成器(Generator, or G)的其中一项输入。生成器利用噪声(z)、动作特征(m)和相机参数作为输入,生成一张带有该动作特征的人脸图片。判别器(discriminator, or D)和运动回归器(R)用来提供监督信息以保证图片的真实性和准确的动作控制。

然而,只利用判别器(D)提供监督信息并不能保证生成人脸视频过程中面部特征(比如肤色和光线)和背景的不变性。为此,作者提出一致性学习。

具体地,作者在训练时生成同一个人做不同面部动作的两张图片。并利用传统3D人脸重建任务中预训练的特征提取器(regressor R,与运动回归器为同一个网络)提取两张人脸图片里的光线(lighting, or l)、面部肌理(texture, or t)、脸型 (shape, or s), 反射率 (albedo, or a)。

研究者利用预训练过的身份编码器(identity encoder)提取身份信息(identity, or id)。并且,研究者假设在一条生成人脸视频时,这些与动作无关的面部特征和身份信息都应该保持不变,由此,两个损失函数L_consist和L_id被用来监督上述人脸特征和身份信息的一致性。

2

实验

该研究在三个数据集(FFHQ、FaceForensics++ 和 VoxCeleb2)上生成多视角的人脸视频,值得一提的是,CoRF只需要在单张图片或者单视角(single-view)的视频数据集上进行训练,而无需多视角视频(multi-view videos)。

为了比较生成效果,该研究对比了近期面部表情驱动(face reenactment)模型。这些模型的工作原理是,将驱动图(driving)中的表情迁移到给定的原图(source)上。相较而言,CoRF可以更好地保证人脸身份的不变性和更好的表情驱动。

并且,与以往的面部表情驱动方法不同,CoRF可以实现从多角度渲染人脸。

除此之外,该研究也同时比较了一些从噪声直接生成人脸视频的方法,通过比较生成的连续帧效果和FVD(一个常用于衡量视频生成质量的指标),研究者发现CoRF在人脸质量和动作连续性上表现更优秀。

研究者在论文中展示了,当给定一些比较夸张的表情驱动照片(driving),CoRF模型仍然可以生成和驱动表情一致的人脸图片。

CoRF也可以通过改变相机位置生成不同尺度下的人脸图片。

该研究进行了一系列消融实验分析方法中关键设计的效果,结果如图和表中所示。

3

未来研究方向

值得一提的是,CoRF模型可以被成功应用在单目人体RGB视频上。从单目视频数据中学习生成人体视频是非常有挑战性的任务。人体的动作相较于面部表情要更为复杂。并且单目人体RGB视频由于缺失多视角信息,加大了学习生成3D人体模型的难度。对此,研究者提取出人体的3D动作特征作为CoRF模型的条件输入来控制人体的动作。训练好的CoRF模型可以从360度渲染出的人体模型。

感兴趣的读者可以阅读论文原文,了解更多研究细节。

更多内容,点击下方关注:

扫码添加 AI 科技评论 微信号,投稿&进群:

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-11-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技评论 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档