人脸检测--Supervised Transformer Network for Efficient Face Detection

Supervised Transformer Network for Efficient Face Detection ECCV2016

人脸检测: the cascaded network;end-to-end learning; jointly conduct face detection and face alignment Our detector runs at 30 FPS on a single CPU core for a VGA-resolution image

2 Network Architecture 2.1 Overview

整个网络主要包括两个模块: 1):第一个模块是多任务 Region Proposal Network (RPN),它负责提取人脸候选区域及相应的人脸特征点 facial landmarks,在局部邻域,我们只选前 K 个候选区域,其他的候选区域直接扔掉。 2):第二个模块是一个 Supervised Transformer layer 和 一个 RCNN,Transformer layer 的输入是人脸区域及对应的特征点,然后将人脸映射到标准姿态,即人脸转正。主要是通过特征点对齐完成的:facial landmarks and the canonical positions 两者是一一对应的。最后将人脸区域输入 RCNN network 进行人脸二分类。

2.2 Multi-task RPN 这里的多任务RPN 是受 文献【16】启发的,RPN同时完成人脸检测及对应的人脸特征点。我们的方法和文献【20】很相似,只不过我们回归的目标是人脸特征点位置,而不是矩形框坐标参数

2.3 The supervised transformer layer 这个模块主要负责解决人脸多尺度和多姿态问题 scale and rotation variation

常用的方法是训练一个预测模型用于检测人脸特征点,然后通过特征点对应关系来将人脸转正 map to a canonical pose 这个过程至少有两个问题: 1)需要人工设定 canonical locations,not only time-consuming, but also suboptimal 2)训练样本中的 facial landmark points 这个标记不太容易, highly subjective process

We propose to learn both the canonical positions and the prediction of the facial landmarks end-to-end from the network with additional supervision information from the classification objective of the RCNN using end-to-end back propagation

这里我们通过学习得到 canonical positions 和 prediction of the facial landmarks

接着就是公式推导

2.4 Non-top K suppression keep K candidate regions with highest confidence for each potential face

2.5 Multi-granularity feature combination 综合利用多尺度特征有助于提高系统性能,这里我们将 RPN 的特征 和 RCNN特征综合起来

3 The ROI convolution 3.1 Motivation 如何在 CPU 中 提高 CNN 网络的运算速度是一个很重要的问题,卷积层的计算量大约占整个网络的 90%。 我们这里主要的加速思路是:使用一个标准的级联人脸检测器用于快速去除非人脸区域,得到一个 二值 ROI mask。 这个 ROI mask 的尺寸和输入图像尺寸一样,背景区域为0,人脸区域为1. DNN 卷积只对 mask 为 1的区域进行计算。

3.2 Implementation details Cascade pre-filter: 这里就是一个加强版的 Volia-Jones’s detector,更多的弱分类和更多的训练数据

ROI convolution

主要利用 二值 mask 来加速卷积计算 The original DNN detector can run at 50 FPS on GPU and 10 FPS on CPU for a VGA image. With ROI convolution, it can speed up to 30 FPS on CPU with little accuracy loss

4 Experiments

各种方法性能对比

检测效果图

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

业界 | 谷歌全新神经网络架构Transformer:基于自注意力机制,擅长自然语言理解

选自Google Research Blog 机器之心编译 参与:路雪、黄小天、蒋思源 近日,继论文《Attention Is All You Need》之后,...

3957
来自专栏IT派

机器学习中的数学基础

导语:现在出现了很多易于使用的机器学习和深度学习的软件包,例如 scikit-learn, Weka, Tensorflow 等等。机器学习理论是统计学、概率学...

3446
来自专栏专知

春节充电系列:李宏毅2017机器学习课程学习笔记09之Tip for training DNN

【导读】我们在上一节的内容中已经为大家介绍了台大李宏毅老师的机器学习课程的简单实践,这一节将主要针对讨论训练DNN的小技巧。本文内容涉及机器学习中训练DNN的若...

3748
来自专栏机器学习、深度学习

人脸检测-- Face R-FCN + Face R-CNN

Detecting Faces Using Region-based Fully Convolutional Networks 本文使用 R-FCN 来进行人脸...

3096
来自专栏机器之心

专栏 | 后RCNN时代的物体检测及实例分割进展

4838
来自专栏人工智能

小白入门最简单的机器学习算法

阅读本文大概需要3分钟 菜鸟独白 上一篇(菜鸟学机器学习启航篇)对机器学习做了初步的介绍,机器学习的算法有很多,小白开始学习的时候,往往会被弄晕。有没有比较简单...

2089
来自专栏北京马哥教育

决策树DTC数据分析及鸢尾数据集分析

豌豆贴心提醒,本文阅读时间7分钟 今天主要讲述的内容是关于决策树的知识,主要包括以下内容: 1.分类及决策树算法介绍 2.鸢尾花卉数据集介绍 3.决策树实现鸢...

3658
来自专栏机器之心

学界 | 现实版柯南「蝴蝶结变声器」:谷歌发布从声纹识别到多重声线语音合成的迁移学习

音频按顺序分别为参考音频 1、以参考音频 1 的声线为输入的生成句子 1(Take a look at these pages for crooked cree...

1042
来自专栏用户2442861的专栏

利用 word2vec 训练的字向量进行中文分词

http://blog.csdn.net/itplus/article/details/17122431

622
来自专栏机器学习、深度学习

人脸检测识别文献阅读总结

1 在人脸检测的时候需要结合人脸特征点对齐来综合考虑人脸检测问题,因为人脸特征点对齐有助于提高人脸检测性能 下面的文献都论证了这个思想: Joint ...

2956

扫码关注云+社区