人脸检测--Supervised Transformer Network for Efficient Face Detection

Supervised Transformer Network for Efficient Face Detection ECCV2016

人脸检测: the cascaded network;end-to-end learning; jointly conduct face detection and face alignment Our detector runs at 30 FPS on a single CPU core for a VGA-resolution image

2 Network Architecture 2.1 Overview

整个网络主要包括两个模块: 1):第一个模块是多任务 Region Proposal Network (RPN),它负责提取人脸候选区域及相应的人脸特征点 facial landmarks,在局部邻域,我们只选前 K 个候选区域,其他的候选区域直接扔掉。 2):第二个模块是一个 Supervised Transformer layer 和 一个 RCNN,Transformer layer 的输入是人脸区域及对应的特征点,然后将人脸映射到标准姿态,即人脸转正。主要是通过特征点对齐完成的:facial landmarks and the canonical positions 两者是一一对应的。最后将人脸区域输入 RCNN network 进行人脸二分类。

2.2 Multi-task RPN 这里的多任务RPN 是受 文献【16】启发的,RPN同时完成人脸检测及对应的人脸特征点。我们的方法和文献【20】很相似,只不过我们回归的目标是人脸特征点位置,而不是矩形框坐标参数

2.3 The supervised transformer layer 这个模块主要负责解决人脸多尺度和多姿态问题 scale and rotation variation

常用的方法是训练一个预测模型用于检测人脸特征点,然后通过特征点对应关系来将人脸转正 map to a canonical pose 这个过程至少有两个问题: 1)需要人工设定 canonical locations,not only time-consuming, but also suboptimal 2)训练样本中的 facial landmark points 这个标记不太容易, highly subjective process

We propose to learn both the canonical positions and the prediction of the facial landmarks end-to-end from the network with additional supervision information from the classification objective of the RCNN using end-to-end back propagation

这里我们通过学习得到 canonical positions 和 prediction of the facial landmarks

接着就是公式推导

2.4 Non-top K suppression keep K candidate regions with highest confidence for each potential face

2.5 Multi-granularity feature combination 综合利用多尺度特征有助于提高系统性能,这里我们将 RPN 的特征 和 RCNN特征综合起来

3 The ROI convolution 3.1 Motivation 如何在 CPU 中 提高 CNN 网络的运算速度是一个很重要的问题,卷积层的计算量大约占整个网络的 90%。 我们这里主要的加速思路是:使用一个标准的级联人脸检测器用于快速去除非人脸区域,得到一个 二值 ROI mask。 这个 ROI mask 的尺寸和输入图像尺寸一样,背景区域为0,人脸区域为1. DNN 卷积只对 mask 为 1的区域进行计算。

3.2 Implementation details Cascade pre-filter: 这里就是一个加强版的 Volia-Jones’s detector,更多的弱分类和更多的训练数据

ROI convolution

主要利用 二值 mask 来加速卷积计算 The original DNN detector can run at 50 FPS on GPU and 10 FPS on CPU for a VGA image. With ROI convolution, it can speed up to 30 FPS on CPU with little accuracy loss

4 Experiments

各种方法性能对比

检测效果图

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏企鹅号快讯

Python数据建模-回归分析

主题 数据建模 我还是一次性将一些理论的知识整理完呗,大家可以选择性地看看就好,后续会找一些实例来练练。 一、分类与预测 分类与预测是预测问题的2种主要实...

3519
来自专栏本立2道生

特征,特征不变性,尺度空间与图像金字塔

在计算机视觉领域,特征是为了完成某一特定任务需要的相关信息。比如,人脸检测中,我们需要在图像中提取特征来判断哪些区域是人脸、哪些区域不是人脸,人脸验证中,我们需...

1252
来自专栏机器人网

机器学习十大算法:新手看了变老手

在机器学习中,有一种叫做「没有免费的午餐」的定理。简而言之,它指出没有任何一种算法对所有问题都有效,在监督学习(即预测建模)中尤其如此。

1374
来自专栏SIGAI学习与实践平台

机器学习与深度学习常见面试题(上)

一年一度的校园招聘已经开始了,为了帮助参加校园招聘、社招的同学更好的准备面试,SIGAI整理出了一些常见的机器学习、深度学习面试题。理解它们,对你通过技术面试非...

1961
来自专栏大数据文摘

论文Express | 谷歌大脑:基于元学习的无监督学习更新规则

1763
来自专栏深度学习自然语言处理

【深度学习】你不了解的细节问题(四)

方法:我们生成两个 12 维高斯混合。高斯具有相同的协方差矩阵,但在每个维度都有一个由 1 隔开的均值。该数据集由 500 个高斯组成,其中 400 个用于训练...

1105
来自专栏用户2442861的专栏

数字图像处理入门(一)-基本概念

定义为二维函数f(x,y),其中,x,y是空间坐标,f(x,y)是点(x,y)的幅值。

1501
来自专栏人工智能头条

李理:详解卷积神经网络

2077
来自专栏计算机视觉life

SLIC 超像素分割详解(三):应用

看过上面的介绍后,我们应该思考一下:分割好的超像素有什么用?怎么用?用到哪里? 首先,超像素可以用来做跟踪,可以参考卢湖川课题组发表在IEEE TIP上的《Ro...

33410
来自专栏人工智能

机器学习之——梯度下降算法

机器学习算法大都遵从同样的套路:设定需要学习的参数,通过最优化算法来最小(大)化学习目标,从而得到一组最好的待学习参数。例如,线性回归z=ax+by中,参数就是...

22010

扫码关注云+社区