首页
学习
活动
专区
工具
TVP
发布

文献快读:“深度学习”理解人脸——机器可能比人厉害

“深度学习”理解人脸

——机器可能比人厉害

Deep Learning for Understanding Faces

Machines maybe just as good, or better, than humans

Rajeev Ranjan, Swami Sankaranarayanan, Ankan Bansal,Navaneeth Bodla, Jun-Cheng Chen, Vishal M. Patel,Carlos D. Castillo, and Rama Chellappa

该文为综述文献。讨论自动人脸识别系统所涉及的不同模块以及深度学习对每个模块的作用,最后给出至今依然存在的挑战性问题。

本文对于在人脸识别、安全、视觉监控和生物识别领域的工程技术人员和最终用户都有参考价值。

参考文献112篇。

我们能从人脸知道什么?

尽可能多地提取信息,例如:位置、姿势、性别、身份、年龄、情绪,等等。

三个基本模块

人脸检测(face detector):在图像或视频中确定人脸的位置。

基准点检测(fiducial point detector):定位重要的面部标志,如:眼睛中心、鼻尖、嘴角等。

特征描述(feature descriptor):对人脸中提取的特性信息进行编码。

在给定面部的表示后,通过度量获得它们之间的相似性得分,然后与阈值比较,从而判断两个人脸是否来自相同目标。

深度学习的引入

从上世纪90年代初以来,提出了许多人脸识别/验证算法,但这些算法对条件和环境的依赖性很大,例如,当姿势、照明、分辨率、表情、年龄、背景等变化较大时,算法的性能会严重下降。而且,如果要从大量的视频中识别出对象,算法必须快速而且稳健。

为应对上述挑战,人们将深度学习应用于人脸识别,提出了若干新的方法。其中,深度卷积神经网络DCNN(deep convolutional neural network)被认为是有效的方法。

无约束图像人脸检测

DCNN具有强大的深度特征提取能力。基于DCNN的人脸检测方法可分为两类:基于区域(region-based)的方法和滑动窗口(sliding-window)方法。

基于区域的方法

Faster R-CNN

目标检测的不断进步: 从R-CNN、Fast R-CNN到Faster R-CNN。

基于FasterR-CNN的检测器,使用共同DCNN产生提议区域(proposals)和分类人脸,还可以同时回归每个面部提议的边界框坐标

基于滑动窗的方法

与基于区域的方法相比,该方法的速度快,并且可以仅使用以滑动窗口方式工作的卷积操作来实现。

单次检测器(Single-shot detector,SSD)

SSD是基于滑动窗口的检测器,但它不是以不同的比例创建图像金字塔,而是利用DCNN中存在的内置金字塔结构。

区域建议和滑动窗检测

找到重要的面部关键点和头部朝向

基于模型

例如AAM, ASM, and CLM等。

基于级联回归

关键点检测

人脸识别与验证

基于深度学习的人脸鲁棒特征学习

人脸判别度量学习

实现

训练数据集

性能

LFW 数据集

IJB-A基准数据集

DCNN人脸验证测试

面部属性

识别面部属性,如 性别、表情、年龄、肤色等。这些属性对于类似图像检索、情感检测和移动安全等应用非常有用。

最近DCNN被用于属性分类,展示了令人印象深刻的结果。面向深度属性的姿态对齐网络PANDA(Pose Aligned Networks for DeepAttributes ),基于部件模型与深度学习相结合,用以训练姿态归一化的DCNN,达到了先进的技术性能。

针对年龄和性别,使用多种数据集进行了研究。

Samangouei 等人2016年设计了适用于移动设备的高效DCNN体系结构。

移动认证人脸属性检测

人脸分析的多任务学习

在多任务框架中较早使用DCNN的是HyperFace(2016年)和TCDCN(2014年)。

HyperFace本质上是同时实现人脸检测、标志定位、头部姿态估计和性别分类的算法。

TCDCN算法使用基于MTL的CNN进行面部标志检测、连同离散头部偏航估计、性别识别、微笑预测和眼镜检测等。

最近提出的All-in-One Face(2017年),是单一的DCNN模型,同时完成人脸检测、脸部标志定位、人脸识别、三维头部姿态估计、微笑检测、面部年龄估计和性别分类等。

(a)All-in-One Face架构

(b)用于人脸识别和面部分析的All-in-One Face系统

(a)-(f)IJB-A数据集的 All-in-One Face结果,检测到脸部边界框、基准点和身份以及3-D头部姿势、连同性别、微笑和面部年龄估计。 尽管该算法预测了所有面部的身份、年龄、性别和微笑属性,但仅针对IJB-A数据集中存在的主体显示,以获得更好的图像清晰度。

开放性问题

人脸检测

依然是光照、面部表情、视点和遮挡等带来的面部外观的变化,以及模糊和低分辨率等其他因素的挑战。

基准检测

面对极端姿态、低光照、小和模糊的人脸图像带来的挑战,大规模标注和无约束的数据集,将使得人脸对齐系统更加稳健。

人脸识别/验证

由于图形卡的存储量限制带来的问题,例如用大规模数据集那样的在线训练方法在端到端的使用。另一个具有挑战性的问题,是在深度网络中加入全动态视频处理,以实现基于视频的人脸分析。

文献:Deep Learning for Understanding FacesMachines may be just as good, or better, than humans.IEEE Signal Processing Magazine | January 2018 |

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180705G029MT00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券