人看人,首先看的是脸,计算机视觉领域研究人脸的人也非常多,甚至在学术领域出一本专门收录人脸图像处理、识别、生成方向论文的期刊,恐怕都是很有市场的。
人脸识别就是一个大类,检测、跟踪、对齐、识别、反欺诈,每一步都能写本书。
但随着人脸识别技术的成熟,识别相关著述已经没以前那么多了,不过人脸领域从来也不缺少关注。
本专栏关注最新的人脸领域相关技术,本文推荐的是近两天(1.9-1.10)新出的相关论文,来看看大家都在做什么吧。
▌CodeTalker: Speech-Driven 3D Facial Animation with Discrete Motion Prior
语音驱动的人脸动画。
语音驱动的三维人脸动画已被广泛研究,但由于其高度不确定性和视听数据的稀缺性,在实现真实性和生动性方面仍有差距。现有的工作通常将跨模态映射制定为一个回归任务,这存在着回归到平均值的问题,导致人脸运动过度平滑。
本次工作,作者提出将语音驱动的人脸动画作为学习编码本的有限代理空间中的编码查询任务,通过减少跨模态映射的不确定性,有效地促进生成的运动的生动性。编码库是通过对真实人脸运动的自我重建来学习的,因此嵌入了真实的人脸运动先验。在离散的运动空间中,采用一个时间自回归模型,从输入的语音信号中依次合成人脸运动,这保证了唇部同步以及合理的面部表情。
实验证明所提出方法在质量和数量上都优于目前最先进的方法。此外,一项用户研究进一步证明了它在感知质量方面的优势。
▌Diffused Heads: Diffusion Models Beat GANs on Talking-Face Generation
基于扩散模型,语音驱动的talking head。
在没有额外参考视频的指导下,talking head生成在产生头部运动和自然面部表情方面历来都很困难。基于扩散生成模型的最新发展允许更真实和稳定的数据合成,其在图像和视频生成上的表现已经超过了其他生成模型。在这项工作中,我们提出了一个自回归扩散模型,它只需要一个身份图像和音频序列就能生成一个真实的会说话的人头视频。我们的解决方案能够幻化出头部运动、面部表情,如眨眼,并保留一个给定的背景。我们在两个不同的数据集上评估了我们的模型,在这两个数据集上取得了最先进的结果。
▌SFI-Swin: Symmetric Face Inpainting with Swin Transformer by Distinctly Learning Face Components Distributions
利用人脸的左右对称性的先验,改进人脸图像修补,评估修补结果。
图像修补包括填补图像的漏洞或缺失部分。对具有对称特征的人脸图像进行修补比对自然场景进行绘画更具挑战性。现有的强大模型中没有一个能在考虑图片的对称性和同质性的同时填补图片的缺失部分。此外,评估修复后的人脸图像质量的指标不能衡量重建后的人脸和现有部分之间的对称性的保留。在本文中,我们打算通过使用单独检查每个脸部器官真实性的多个判别器和一个基于变换器的网络来解决脸部图像修补任务中的对称性问题。我们还提出了 "对称性集中得分 "作为衡量修复后的人脸图像的对称性的新指标。定量和定性的结果表明,与最近提出的一些算法相比,我们提出的方法在真实性、对称性和修补部分的同质性方面具有优势。
▌Fair Multi-Exit Framework for Facial Attribute Classification
技术面前,人人平等!人脸识别不仅要准确,还要面对不同群体都公平。
公平性在人脸识别中已经变得越来越举足轻重。如果没有偏见的缓解,部署不公平的人工智能将损害弱势群体的利益。在本文中,我们观察到,尽管来自神经网络深层的特征通常能提供更高的准确性,但随着我们从更深层提取特征,公平性条件会恶化。这种现象促使我们扩展multi-exit 框架的概念。与现有的主要关注准确性的工作不同,我们的multi-exit 框架是以公平性为导向的,内部分类器被训练得更准确和更公平。在推理过程中,任何具有高置信度的内部分类器的实例都被允许提前退出。此外,我们的框架可以应用于大多数现有的公平意识的框架。实验结果表明,在CelebA和UTK脸部数据集中,所提出的框架可以在很大程度上改善公平性条件,超过最先进的水平。
▌Multi-scale multi-modal micro-expression recognition algorithm
transformer 网络 + 多模态、多尺度学习,微表情识别。
微表情是一种自发的无意识的面部肌肉运动,可以揭示人们试图隐藏的真实情绪。尽管人工方法已经取得了良好的进展,而深度学习的地位也越来越突出。由于微表情发生的时间很短,而且在面部区域表达的尺度不同,现有的算法无法提取多模式多尺度的面部区域特征,同时考虑到上下文信息来学习基础特征。因此,为了解决上述问题,本文提出了一种基于transformer网络的多模态多尺度算法,旨在通过微表情的两种模态特征--运动特征和纹理特征来充分学习微表情的局部多粒度特征。为了获得不同尺度的人脸局部区域特征,我们学习了两种模态的不同尺度的补丁特征,然后融合多层多头注意力权重,通过对补丁特征的加权获得有效特征,并结合跨模态的对比学习进行模型优化。我们在三个自发的数据集上进行了综合实验,结果显示所提出的算法在单次测量的SMIC数据库中的准确率高达78.73%,在组合数据库的CASMEII上的F1值高达0.9071,处于领先水平。