专栏首页计算机视觉战队CVPR2020 | 人脸识别基于通用表示学习

CVPR2020 | 人脸识别基于通用表示学习

简述

认识wild faces是非常困难的,因为他们出现了各种各样的变化。传统的方法要么训练来自目标域的特定注释的变异数据,要么引入未标记的目标变异数据来适应训练数据。

相反,今天有作者提出了一个通用的表示学习框架,它可以在不利用目标领域知识的情况下处理给定训练数据中未见的更大变化。首先综合训练数据与一些语义上有意义的变化,如低分辨率,遮挡和头部姿态。然而,直接输入增强数据进行训练不会很好地收敛,新引入的样本大多是难样本。作者建议将特征嵌入分割成多个子嵌入,并将每个子嵌入的不同置信度值关联起来,以平滑训练过程。子嵌入通过正则化它们的不同分区上的变异分类损失和变异对抗性损失来进一步修饰。

实验表明,该方法在LFW和Mega Face等通用人脸识别数据集上取得了最好的性能,而在Tiny Face和IJB-S等极端基准上则表现得更好。

背景知识

现在已经有很多方法去进行人脸识别。然后,所有这些方法要么只处理特定的变化,要么需要访问测试数据分布,要么增加额外的运行时复杂性来处理更广泛的变化。相比之下,作者建议学习一个单一的“通用”深层特征表示,它可以处理人脸识别中的变化,而不需要访问测试数据分布,并保持运行时效率,同时在各种情况下实现强大的性能,特别是在低质量的图像上。

传统的识别模型需要目标域数据从高质量的训练数据中进行无约束/低质量的人脸识别。为了实现普遍表示的目的,进一步需要模型集成,这大大增加了模型的复杂性。相比之下,作者提出的方法只对原始训练数据有效,没有任何目标域数据信息,可以处理无约束的测试场景。

新方法框架

上图 随着不同的变化而增加的样品

Confidence-aware Identification Loss

为了简单起见,定义一个置信值si,在L2-标准化单位球上约束fi和wj:

上面公式中的效果如下图所示。

当在不同质量的样本之间进行训练时,如果假设所有样本的置信度相同,那么所学习的原型将位于所有样本的中心。这并不理想,因为低质量的样本传达的身份信息更加模糊。相比之下,如果我们建立sample-specific confidence(si),高质量样本显示更高的信心,它推动原型wj更接近高质量样本,以最大化后验。同时,在嵌入fi的更新过程中,更有力的推动了低质量fi更接近原型。

在指数logit上增加loss margin已被证明是有效的缩小类内分布。也把它纳入框架的损失中:

Confidence-aware Sub-Embeddings

虽然通过一个特定的门控si学习的嵌入fi可以处理样本级别的变化,但是作者认为fi本身的条目之间的相关性仍然很高。为了最大限度地提高表示能力并实现紧凑的特征尺寸,需要对嵌入项进行去相关处理。

这鼓励作者进一步将整个嵌入fi分解为分区的子嵌入,每个子嵌入都进一步分配一个标量置信值。如上图所示,将整个feature embedded fi分割成K个等长次嵌入,如下公式所示。据此,将原型向量wj和置信标量si划分为大小相同的K组。

则最后的识别损失如下公式:

最后增加了一个额外的l2正则化来限制置信度的增长:

Sub-Embeddings Decorrelation

单独设置多个子嵌入并不能保证不同组中的特征是学习互补信息的。根据下图的经验,作者发现子嵌入仍然是高度相关的,即fi分为16组,所有子嵌入的平均相关系数为0.57。

如果我们用不同的正则化方法对次嵌入进行惩罚,可以降低它们之间的相关性。通过将不同的子嵌入与不同的变量联系起来,对所有子嵌入的一个子集进行变量分类损失,同时对其他变量类型进行变量对抗性损失。给定多个变量,这两个正则化项被强制放在不同的子集上,从而得到更好的子嵌入解相关。

挖掘更多的变量

由于可扩展变量的数量有限(在本文为3个),导致了去相关效应的有限,因为Vt的数量太小。为了进一步增强去相关,并引入更多的变量以获得更好的泛化能力,我们的目标是探索更多的语义变量。请注意,并不是所有的变量都容易进行数据扩充,例如微笑或不微笑是很难扩充的。对于这种变量,我们尝试从原始训练数据中挖掘出变量标签。特别是,利用一个现成的属性数据集CelebA训练属性分类模型身份对抗的损失:

Uncertainty-Guided概率聚合

考虑到推理的度量,简单地取学习到的子嵌入的平均值是次优的。这是因为不同的次嵌入对不同的变量有不同的识别能力。它们的重要性应该根据给定的图像对而有所不同。受[Yichun Shi and Anil K Jain. Probabilistic face embeddings.In ICCV, 2019.]的启发,作者考虑应用与每个嵌入相关的不确定性,为成对的相似度评分:

实验及可视化

三种类型的数据集,LFW, IJB-A和IJB-S

Testing results on synthetic data of different variations from IJB-Abenchmark (TAR@FAR=0.01%)

上图是通过t-SNE可视化特征分布。

将16个subembeddings的不确定度评分重新划分为4×4个网格。高质量和低质量的次预埋件分别以深色、浅色显示。对于不同的变化,不确定度图显示不同的模式。如下图:

上图是训练样本子嵌入置信度的可视化。

本文分享自微信公众号 - 计算机视觉战队(ComputerVisionGzq),作者:Edison_G

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-03-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 干货 | 快速端到端嵌入学习用于视频中的目标分割

    我们开始进入今天的主题,接下来主要和大家分享目标在视频中的实时分割技术,来,一起学习吧!

    计算机视觉研究院
  • 深度网络自我学习,最终实现更少样本的学习

    接下来我们就开始今日的主题:自我学习,最少的样本去学习。听到这个,大家会想到剪枝、压缩神经网络。今天这个更加有趣,现在我们开始欣赏学术的盛宴!

    计算机视觉研究院
  • 卷积神经网络的前向传播

    ---- CNN的这三个特点是其对输入数据在空间(主要针对图像数据)上和时间(主要针对时间序列数据,参考TDNN)上的扭曲有很强的鲁棒性。CNN一般采用卷积层...

    计算机视觉研究院
  • Jeff Dean强推:可视化Bert网络,发掘其中的语言、语法树与几何学

    本文是论文(Visualizing and Measuring the Geometry of BERT)的系列笔记的第一部分。这篇论文由Andy Coenen...

    大数据文摘
  • Jeff Dean强推:可视化Bert网络,发掘其中的语言、语法树与几何学

    这篇文章是为了补充解释论文,大致呈现了主要的结论。请参阅论文以获得完整的参考文献和更多信息

    代码医生工作室
  • 如何可视化BERT?你需要先理解神经网络的语言、树和几何性质

    语言的结构是离散的,而神经网络则基于连续数据运作:高维空间中的向量。成功的语言处理网络必须要能将语言的符号信息转译为某种几何表征——但是这种表征该是怎样的形式呢...

    机器之心
  • 【干货】Entity Embeddings : 利用深度学习训练结构化数据的实体嵌入

    【导读】本文是数据科学家Rutger Ruizendaal撰写的一篇技术博客,文章提出深度学习在非结构数据中有不错的表现,当前通过实体嵌入也可以使之在结构化数据...

    WZEARW
  • 文本的词嵌入是什么?

    词嵌入(Word embeddings)是一种单词的表示形式,它允许意义相似的单词具有类似的表示形式。

    StoneDemo
  • 从0到1详解推荐系统中的嵌入方法,原理、算法到应用都讲明白了

    作者曾在《矩阵分解推荐算法》这篇文章中提到,矩阵分解算法是一类嵌入方法,通过将用户行为矩阵分解为用户特征矩阵和标的物特征矩阵的乘积,最终将用户和标的物嵌入到低维...

    AI科技大本营
  • CoNLL 2018 | 最佳论文揭晓:词嵌入获得的信息远比我们想象中的要多得多

    昨日,CoNLL 公布了最佳论文,由来自西班牙巴斯克大学 IXA NLP 组的 Mikel Artetxe 等人获得。该论文展示了词嵌入模型能够捕获不同层面的信...

    机器之心

扫码关注云+社区

领取腾讯云代金券