人脸检测--Supervised Transformer Network for Efficient Face Detection

Supervised Transformer Network for Efficient Face Detection ECCV2016

人脸检测: the cascaded network;end-to-end learning; jointly conduct face detection and face alignment Our detector runs at 30 FPS on a single CPU core for a VGA-resolution image

2 Network Architecture 2.1 Overview

整个网络主要包括两个模块: 1):第一个模块是多任务 Region Proposal Network (RPN),它负责提取人脸候选区域及相应的人脸特征点 facial landmarks,在局部邻域,我们只选前 K 个候选区域,其他的候选区域直接扔掉。 2):第二个模块是一个 Supervised Transformer layer 和 一个 RCNN,Transformer layer 的输入是人脸区域及对应的特征点,然后将人脸映射到标准姿态,即人脸转正。主要是通过特征点对齐完成的:facial landmarks and the canonical positions 两者是一一对应的。最后将人脸区域输入 RCNN network 进行人脸二分类。

2.2 Multi-task RPN 这里的多任务RPN 是受 文献【16】启发的,RPN同时完成人脸检测及对应的人脸特征点。我们的方法和文献【20】很相似,只不过我们回归的目标是人脸特征点位置,而不是矩形框坐标参数

2.3 The supervised transformer layer 这个模块主要负责解决人脸多尺度和多姿态问题 scale and rotation variation

常用的方法是训练一个预测模型用于检测人脸特征点,然后通过特征点对应关系来将人脸转正 map to a canonical pose 这个过程至少有两个问题: 1)需要人工设定 canonical locations,not only time-consuming, but also suboptimal 2)训练样本中的 facial landmark points 这个标记不太容易, highly subjective process

We propose to learn both the canonical positions and the prediction of the facial landmarks end-to-end from the network with additional supervision information from the classification objective of the RCNN using end-to-end back propagation

这里我们通过学习得到 canonical positions 和 prediction of the facial landmarks

接着就是公式推导

2.4 Non-top K suppression keep K candidate regions with highest confidence for each potential face

2.5 Multi-granularity feature combination 综合利用多尺度特征有助于提高系统性能,这里我们将 RPN 的特征 和 RCNN特征综合起来

3 The ROI convolution 3.1 Motivation 如何在 CPU 中 提高 CNN 网络的运算速度是一个很重要的问题,卷积层的计算量大约占整个网络的 90%。 我们这里主要的加速思路是:使用一个标准的级联人脸检测器用于快速去除非人脸区域,得到一个 二值 ROI mask。 这个 ROI mask 的尺寸和输入图像尺寸一样,背景区域为0,人脸区域为1. DNN 卷积只对 mask 为 1的区域进行计算。

3.2 Implementation details Cascade pre-filter: 这里就是一个加强版的 Volia-Jones’s detector,更多的弱分类和更多的训练数据

ROI convolution

主要利用 二值 mask 来加速卷积计算 The original DNN detector can run at 50 FPS on GPU and 10 FPS on CPU for a VGA image. With ROI convolution, it can speed up to 30 FPS on CPU with little accuracy loss

4 Experiments

各种方法性能对比

检测效果图

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器学习人工学weekly

机器学习人工学weekly-2018/8/26

Safety-first AI for autonomous data centre cooling and industrial control

603
来自专栏智能算法

GBDT算法(简明版)

一、算法介绍 GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regr...

2718
来自专栏腾讯大数据的专栏

CTR预估中GBDT与LR融合方案

1背景 CTR预估,广告点击率(Click-Through Rate Prediction)是互联网计算广告中的关键环节,预估准确性直接影响公司广告收入。CTR...

7916
来自专栏计算机视觉战队

人脸检测与识别总结

上半年跨度到下半年之后,深度学习又进一步推送到了AI的顶端,很多领域都开始涉及到Deep Learning,而在人脸领域,已经被广泛应用,今天本平台再一次详细说...

4394
来自专栏大数据挖掘DT机器学习

机器学习&数据挖掘知识点大总结

Basis(基础): MSE(Mean Square Error 均方误差), LMS(LeastMean Square 最小均方), LSM(L...

37014
来自专栏量子位

频率学派还是贝叶斯学派?聊一聊机器学习中的MLE和MAP

作者:夏飞 Google | 软件工程师 量子位 已获授权编辑发布 转载请联系原作者 本文作者夏飞,清华大学计算机软件学士,卡内基梅隆大学人工智能硕士,现为谷歌...

2994
来自专栏鹅厂优文

游戏人工智能 读书笔记 (六) AI算法简介——演化算法

Chapter 2.8 Hybrid Algorithm: Neuroevolution

2309
来自专栏新智元

毫秒级图像去噪!英伟达、MIT新AI系统完美去水印

【新智元导读】没有什么能阻挡我们对高清无码大图的向往。在ICML2018上,英伟达和MIT等机构的研究人员展示了一项图像降燥技术Noise2Noise,能够自动...

800
来自专栏量子位

一篇文章搞懂人脸识别的十个概念

作者:汪铖杰 首发于 腾讯云技术社区 量子位 已获授权编辑发布 优图实验室研究人脸技术多年,不仅在技术方面有很好的积累,而且在公司内外的业务中有众多应用。笔者作...

32710
来自专栏计算机视觉战队

人脸检测与识别的趋势和分析(增强版)

---- 因为最近人脸检测与识别火热的进行着,本平台想进一步详细介绍关于人脸领域的相关知识与分析,让更多人的有进一步深入的熟知! ---- 最近因为种种原因,这...

3368

扫码关注云+社区