CNCC 2016 | 山世光:深度化的人脸检测与识别技术—进展与展望

编者注:本文根据山世光在 CNCC 2016 可视媒体计算论坛上所做的报告《深度化的人脸检测与识别技术:进展与问题》编辑整理而来,在未改变原意的基础上略有删减。

山世光,中科院计算所研究员,中科院智能信息处理重点实验室常务副主任。主要从事计算机视觉、模式识别、机器学习等相关研究工作。迄今已发表CCF A类论文50余篇,全部论文被Google Scholar引用9000余次。曾应邀担任过ICCV,ACCV,ICPR,FG等多个国际会议的领域主席(Area Chair)。现任IEEE Trans. on Image Processing,Neurocomputing和Pattern Recogintion Letters等国际学术刊物的编委(AE)。研究成果曾获2005年国家科技进步二等奖和2015年度国家自然科学二等奖。2008年度中国科学院卢嘉锡青年人才奖获得者,2009年度北京市科技新星获得者,2009年获首届Scopus寻找未来科学之星银奖(信息领域共2名),2012年获得基金委“优青”支持。

今天我所做的报告的题目是《深度化的人脸检测与识别技术》,过去三四年里,人脸识别领域非常快速地从非深度学习方法切换到了深度学习这样一个新的范式里面去了。

本次报告主要介绍最近几年在人脸识别领域几个关键流程上面,深度学习的应用情况。

本次报告主要给大家介绍这几部分内容:

  • 人脸识别总体情况
  • 人脸检测
  • 面部特征点定位
  • SeetaFace开源引擎

| 人脸识别总体情况

全自动人脸识别系统流程

人脸识别本质上是要对比两个照片是否是同一个人。举例来说对于上图中两张照片,人脸识别需要去做的是计算其相似度是不是足够高。这个过程可以分为以下几个步骤:

  • 第一步是要找到脸在哪里
  • 第二步是找到五官的位置
  • 第三步是把关键人脸区域提取出来
  • 第四步是用特征提取器F把图像变成特征向量(y=F(x))
  • 第五步对比向量y1、y2的相似度是否足够高,据此来进行判断

在这里面最核心的其实有三个步骤,第一个是找到脸在哪里,第二个是找到五官在哪里,第三个是f(x)函数的设置,这也是人脸识别系统中最本质的三个内容。

人脸识别近期发展的最大特点

人脸识别能在过去的三四年的时间里能有一个快速的发展是得益于深度学习

在这期间有一个非常重要的变化是人脸识别变得和狗脸识别、猫脸识别没什么太大区别了。也就是说在技术上,不用再把人脸识别特别来看待了。

卷积神经网络(CNN)

在深度学习之后,我们发现深度学习对于人脸识别这项帮助非常大。为什么?其实是实现了深度化。

在计算机视觉领域,深度学习中应用得最好、最成功的就是卷积神经网络(CNN)。

卷积神经网络(CNN)变迁

事实上卷积神经网络不是2016年发明的,也不是2012年发明的,它大约是在20世纪80年代出现的,到1998年这期间出现了一些卷积神经网络的雏形。可以从上图中看到,1998年出现的卷积神经网络和当下的在本质上其实已经没什么区别了。

卷积神经网络实质上是对输入进行加权求和之后,去做一个非线性变化的过程。输入图像通过滤波器组进行非线性卷积,卷积后在每一层产生特征映射图,然然后特征映射图中的值再进行加权求和并进行非线性变换。在此过程中这些像素在池化层被池化,最终得到输出值。

| 人脸检测技术

具体到人脸检测的问题,在深度学习技术出现之前,几乎所有人脸检测都是采用滑动窗口式的方法。

也就是说,我们会首先设计一个分类器。拿上图中图片举例来说,我们会设计一个40x40的窗口,然后去检测那个部分是不是人脸。此外我们还需要对图片进行缩放再进行检测,这个方式其实是2000-2012年以来主流的方法。

物体检测:内涵与总体思路

不管是人脸检测还是物体检测,都需要进行考虑的是这两个问题:

  • 有没有?
  • 在哪里?

2014年以来的变迁

  • “有没有”部分
  • 从人脸特征——分类器学习“两步法”转变为特征和分类器End—to—End学习
  • 从二类分类转变为多类分类
  • “在哪里&有多大?”部分

从Check所有可能位置和大小转变为只Check可能位置和大小或者回归位置和大小(更准确)

基于深度学习的物体检测

在过去的几年时间里出现了一系列的方法,包括

  • Region CNN系列

R-CNN——SPP R-CNN——Fast R-CNN——Faster R-CNN

  • 回归位置

YOLO

  • 传统方法与深度方法结合

FacenessNET Cascade CNN(coarse-to-fine)

R-CNN

关键点:

  1. Selective Search产生约2000个候选窗口
  2. 每个候选窗缩放到227*227(用CNN提取特征)
  3. SVM分类

需要2000多次CNN过程,速度很慢。

SPP-Net

Fast R-CNN

Faster R-CNN

YOLO(You Only Look Once)

这个方法更加的简单粗暴一些

  • 将输入图像划分为SxS grid
  • 对grid cell预测
  • 网络全连接层——张量
  • 用NMS去除冗余

FacenessNET

Cascade CNN(coarse-to-fine)

物体(人脸)检测:总结与问题

小结:

  • 深度学习方法带了性能上的大提升
  • Bounding Box Regression(BBR)兴起
  • 样本组织方式的变革

问题:

  • 高精度、全姿态时的速度问题
  • 小尺度、大遮挡、复杂光照情况下可能漏检

| 面部特征点定位技术

深度级联回归

基于多级DCNN实现f函数(CVPR2013)

基于多级Auto-encoder实现f函数(ECCV2014)

对遮挡鲁棒性地特征点定位方法(CVPR2016)

| 判别特征学习与匹配方法

在深度学习出现之前,和传统方法一致。(两步法)

  1. 人工(卷积)特征
  2. 特征变换

人脸识别测试集和性能的变迁

特别要提到的是学术界的里程碑(数据库):

ORL——FERET——FRGC v2.0——LFW

LFW人脸识别评测

LFW数据库来源于因特网上的数据,对于名人明星的图像进行识别。过去三年错误率从5%下降到0.4%。

在深度学习出现之后,直接从图像开始学习特征。

过去2年的新进展

最开始将深度学习应用到人脸特征提取的是Facebook的DeepFace,使用一个8层的神经网络,对4000人的440万图像进行训练学习。

Google的FaceNet则是使用800万人的2亿张图像进行训练学习,这个数据量是及其庞大的。

我们有理由相信这样一个网络在如此庞大数据量训练之后,它的人脸识别能力是比普通人要好的。

待解决问题

人脸识别应用现状

  • 1:N

配合照片检索应用,目前基本成熟

  • 1:1验证

配合用户,可以应用

  • 1:N+1

万级以上非配合用户,任重道远

| SeetaFace引擎

SeetaFace Detector

SeetaFace Alignment

SeetaFace Identification

| 总结

  • 人脸检测与识别不再具有特殊性
  • 深度模型(&大数据&高性能计算)极大推进了人脸识别能力,在一些(用户配合的)任务上能超过人眼
  • 万人规模的黑名单视频监控场景尚不成熟
  • SeetaFace为大家提供了一个不错的baseline

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2016-10-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CDA数据分析师

基于R语言的梯度推进算法介绍

简介 通常来说,我们可以从两个方面来提高一个预测模型的准确性:完善特征工程(feature engineering)或是直接使用Boosting算法。通过大量数...

2347
来自专栏数据派THU

收藏 | 知识图谱论文大合集,干货满满的笔记解读(附资源)

远程监督关系抽取方法虽然可以使用知识库对齐文本的方法得到大量标注数据,但是其中噪声太多,影响模型的训练效果。基于 bag 建模比基于句子建模能够减少噪声的影响,...

2193
来自专栏机器之心

学界 | 牛津大学ICCV 2017 Workshop论文:利用GAN的单视角图片3D建模技术

选自arXiv 机器之心编译 参与:李泽南 对于现实世界物体的 3D 建模是很多工作中都会出现的任务。目前流行的方法通常需要对于目标物体进行多角度测量,这种方法...

3308
来自专栏AI研习社

自拍抠图抠到手软?详解如何用深度学习消除背景

在机器学习方兴未艾的过去几年里,我一直想要亲自开发具有实用价值且基于机器学习的产品。然后几个月前,在我学习了由 Fast.AI 所提供的深度学习课程之后,我意识...

3704
来自专栏大数据挖掘DT机器学习

机器学习你必须知道的几点知识

读了两篇文章,第一篇是以前老师推荐的《A Few Useful Things to Know About Machine Learning》,里面介强调了几个机...

35011
来自专栏计算机视觉战队

基于区域的目标检测——细粒度

今天是二月的第一天,是一个月的新的开始,估计现在有很多学生都已经进入了漫长的寒假,希望你们在寒假空闲之余可以慢慢来阅读我们的精彩推送。今天我们将的就是目标检测,...

34510
来自专栏机器之心

学界 | CVPR 2017最新论文:使用VTransE网络进行视觉关系检测

选自arxiv.org 机器之心编译 参与:李亚洲、吴攀 知识表示学习的思想(TransE)已经被成功应用于视觉关系提取(Visual Relation Ex...

3547
来自专栏大数据挖掘DT机器学习

分类算法之朴素贝叶斯分类(Naive Bayesian classification)

我个人一直很喜欢算法一类的东西,在我看来算法是人类智慧的精华,其中蕴含着无与伦比的美感。而每次将学过的算法应用到实际中,并解决了实际问题后,那种快感更是...

2296
来自专栏量子位

遇到有这六大缺陷的数据集该怎么办?这有一份数据处理急救包

在这篇文章中,身兼AI工程师/音乐家/围棋爱好者多职的“斜杠青年”Julien Despois给出了数据科学中需要避免的6大错误。

902
来自专栏达观数据

技术干货 | 如何做好文本关键词提取?从三种算法说起

在自然语言处理领域,处理海量的文本文件最关键的是要把用户最关心的问题提取出来。而无论是对于长文本还是短文本,往往可以通过几个关键词窥探整个文本的主题思想。与此同...

1.2K14

扫码关注云+社区