干货 | 分段的人脸检测在移动段的应用

人脸领域的技术一直是热门研究话题,随着优秀算法和先进芯片的进一步成熟,各厂家集成能力的提升,人脸识别技术必将是未来人工智能社会的先驱。

结合人脸技术的研究进展,以及出入口系统的应用特点,将会呈现出以下发展趋势。

  • 随着芯片价格的下探,人脸识别类产品的价格将会下探,人脸门禁设备在整个出入口系统终端设备中的占比将会越来越高;
  • 当前人脸门禁中,还是需要人员有一定的配合度才能完成人脸识别,完全非配合的人脸识别,必然会导致识别准确率的下降。未来随着关键算法和技术方案的进一步成熟,非配合、无感知的人脸识别门禁产品将会出现,这将会极大提升人脸门禁的使用体验;
  • 当前的人脸识别主要还是二维空间下的人脸识别,红外+可见光的双目人脸识别设备也仅仅是简单的融合识别方案,还远没有达到三维立体识别的程度。未来随着结构光、TOF等深度传感技术的进一步成熟,三维人脸识别算法和技术将会出现,这将会极大地提升人脸识别的准确性。

今天主要和大家说的是关于人脸检测技术。说到手机,相比大家都有属于自己的手机,那么今天我们就是说说手机移动端上的人脸检测技术是怎么回事?

简单概要

由于大量遮挡和部分可见人脸的存在,一般的人脸检测算法在移动手机端领域表现不佳。一种很有前途的技术去解决局具有挑战性的人脸部件,尤其是基于人脸分割方法去设计人脸检测器。

今天,讨论了两种不同的基于分割的人脸检测方法,即基于候选的检测基于端到端回归的检测

第一种方法依赖于生成包含人脸分割信息的人脸候选。今天主要讨论了基于人脸分割的人脸检测器(FSFD)、分割的人脸检测器(SegFace)和深度分割的人脸检测器(DeepSegFace)。

但是,候选生成过程需要单独处理,这可能非常耗时,而且鉴于主动身份验证问题的性质,这并不是真正必要的。因此,提出了一种新的基于深度回归的用户图像检测器(Druid)算法,该算法从分类到回归范式的转换,避免了候选生成的需要。Druid具有独特的网络结构,具有自定义的损失特征,利用一种新的数据增强方案使用相对较少的数据进行训练,并且由于它一次输出人脸及其分段的边框而具有较快的速度。基于面部部件的人脸检测方法,特别是Druid方法,在两组移动人脸数据的精确召回率和ROC曲线方面均优于其他最先进的人脸检测方法,对遮挡具有良好的鲁棒性

框架&优势

下图,显示一个完整的面部样本分解成面部分割的部件,检测到其中一个或多个可能会提供关于整个面部下落的强有力的线索。

如果该算法能够有效地将不同人脸段的检测结合到一个完整的人脸中,那么可以处理移动设备前摄像头捕捉到的图像中的部分人脸。针对这一需求,下面我们也给出了基于人脸分割的人脸检测(FSFD)、分割的人脸检测器(SegFace)和深度分割的人脸检测器(DeepSegFace)三种算法。这些算法利用一种快速的候选生成方案,为人脸和人脸分段提供边界框,从而从人脸段的候选中检测人脸。FSFD和SegFace方法采用传统的特征提取技术和支持向量机(SVM)分类器,而DeepSegFace是一种基于DCNN的分类器,用于区分有无人脸的方案。

虽然提出的三种算法(FSFD、SegFace、DeepSegFace)速度快、效率高,但仍有很大的改进空间。这些算法的一个主要瓶颈是方案生成阶段,它在质量和速度的权衡中存在以下问题:

1)慢速度:候选生成器可以生成多个方案,以保证高召回率,但由于检测器必须对每一个候选进行评估,这会使流水线速度变慢。例如,(R. Ranjan, V. M. Patel, and R. Chellappa, “Hyperface: A deep multi-task learning framework for face detection, landmark localization, pose estimation, and gender recognition,” CoRR, vol. abs/1603.01249, 2016. [Online]. Available: http://arxiv.org/abs/1603.01249)使用选择性搜索,每幅图像生成大约2000份建议书,但这一过程并不是实时的。

2)召回上限:如果以较高的召回率换取速度,则可以使用较弱的候选生成器,从而产生较少的候选。但是,在这种情况下,检测器受候选生成器性能的约束,无法在候选生成器不返回任何结果的图像中检测人脸。FSFD,SegFace和DeepSegFace使用快速的候选生成器(每个图像大约有16个候选),但是无法从候选的失败中恢复。

3)特别训练:一种产生少量候选但具有较高召回率的方法是训练特定的候选生成器,以识别人脸和面部片段。然而,大多数现成的候选生成器都会检测出通用对象,因此必须对它们进行再训练,以检测人脸。

鉴于基于候选的检测方法的局限性,新方法就提出了一种基于回归的端到端可训练人脸检测器,用于检测单个用户的人脸,完全不需要任何候选生成。这种方法被称为基于深度回归的用户图像检测器(Druid),是一种基于CNN的深度人脸检测器,它不仅返回人脸边界框,而且还返回所有存在的人脸分段的边框,以及每段在一次前向传递中的置信度。

Druid使用一种原则性的数据增强技术来对相对较少的图像进行训练,并且由于它的体系结构和独立于候选生成阶段,它的执行速度非常快。此外,Druid的训练并不是在类似于基于候选的方法的移动人脸数据集上进行的,但由于其独特的体系结构和数据增强方案,它的性能明显优于其他方法。通过训练中的回归,增强了人脸的抗缩放能力,并有助于寻找不同尺寸人脸的边界框。

基于候选检测

基于候选的方法的一般流程

FSFD

首先进行分段聚类。然后,在svm学习阶段,将每个聚类中所有人脸片段集合的第一个子集看作是候选的人脸。考虑一下在图像中检测到的第k段。

人脸候选的边框是最小的边框,其中包含来自候选中所有面部分段的所有估计人脸。从直觉上看,在候选中,人脸片段较多且检测精度较高,该候选成为人脸的概率就越高。此外,在实验上,我们发现某些特定的面部片段比其他的更有可能返回人脸,而一些片段提供了比其他集合更精确的边界框,具有更大的一致性。

线性支持向量机分类器使用表示某些片段和某些组合的似然性的训练建议集中的下列先验概率值对所提出的人脸进行训练。

SegFace

分段的人脸是一种基于分段候选构建的快速浅层人脸检测器。对于Sk中的每一段,对分类器C进行训练,以便从该段接受特征f(Sk),并生成表示人脸存在的分数。C的输出分数存储在m维特征向量fc中,其中fc中对应于候选中不存在的部分的元素设置为0。

DeepSegFace

DeepSegFace是一种集成深度CNN和基于分段的人脸检测的体系结构。首先,为每个图像生成由前面讨论的M=9部分的子集组成的候选。然后对DeepSegFace进行训练,以计算候选作为人脸的概率值。最后,重新排序调整来自网络的概率值,具有最高重排序得分的候选被认为是该图像的检测。DeepSegFace的结构按照模式识别的经典范式排列:特征提取、维数约简和分类器。该架构的简单框图如下图所示。

今天先到这里,下期我们继续详细说说End-to-End的回归及实验分析。

如果想加入我们“计算机视觉战队”,请扫二维码加入学习群。计算机视觉战队主要涉及机器学习、深度学习等领域,由来自于各校的硕博研究生组成的团队,主要致力于人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等研究方向。

我们开创一段时间的“计算机视觉协会”知识星球,也得到很多同学的认可,我们定时会推送实践型内容与大家分享,在星球里的同学可以随时提问,随时提需求,我们都会及时给予回复及给出对应的答复。

原文发布于微信公众号 - 计算机视觉战队(ComputerVisionGzq)

原文发表时间:2019-04-22

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

扫码关注云+社区

领取腾讯云代金券