基于多层结构混合森林的级联人脸检测和头部姿态估计

计算机视觉和模式识别(CVPR)是我们遥感和地理信息科学发展的重要的技术基础。

——鲁迅(小编说的)

我实在没有说过这样一句话。

——鲁迅(真的是鲁迅说的)

参考论文:

Yuanyuan Liu, Zhong Xie, Xiaohui Yuan, etc. 2017. “Multi-level Structured Hybrid Forest for Joint Head Detection and Pose Estimation”.Neurocomputing, 266(11), 206-215.

http://dx.doi.org/10.1016/j.neucom.2017.05.033

摘要

准确的人脸检测和头部姿态估计是自然环境中人物识别和理解空间环境的关键。在自然环境中,诸如光照变化、人脸遮挡、低分辨率和姿态运动等因素会使得准确的人脸检测和姿态估计更具挑战性。

为了解决这个挑战,我们提出了一种多层结构混合森林方法(Multi-level structure hybrid forest, MSHF),用于自然环境中的级联头部检测和姿态精确估计。首先,MSHF对随机提取的图像子块提取复合结构特征,包括图像纹理特征和几何结构特征;然后,MSHF通过在传统随机森林的结点分裂过程中引入多层分裂函数,在不同层上构建不同功能的回归树;最后,在叶子结点存储多概率模型,并采用加权领域投票算法回归脸部轮廓位置和姿态角度。

实验在多个公共挑战的人脸数据集和自然采集的视频数据中进行评估,与最先进的方法相比,MSHF提高了估计的性能和鲁棒性,自然环境下的头部轮廓检测的平均精度达到90%以上,两个自由度旋转下的姿态估计平均误差为6.6°。

正文

引 言

头部检测和姿态估计是很多计算机视觉应用领域中的关键步骤,如,人机交互(HCI),智能机器人,人脸识别和视觉注意力识别等。前者主要定位人脸的位置,后者则根据人脸朝向估计头部在三个自由度下的旋转角度。现有技术在约束和实验设计的环境中已经取得令人满意的结果,且通常作为两个独立的任务来处理。

比如,基于滑动窗口扫描的adaboost分类器主要用于人脸检测,其中Viola&Jones检测器是应用最广的人脸检测器之一。头部姿态估计一般则采用多分类器设计(如SVM、RF、CNN等)对检测到的人脸图像进行分类。可见,姿态估计的结果依赖于人脸检测的精度,人脸检测的精度往往受到姿态变化的影响。在实际应用场景中,诸如光照变化,遮挡,图像质量差等因素使得检测和姿态估计更具挑战性,并且互相约束影响。

因此设计一种级联的端对端的方法,可以有效的减少人脸检测和姿态变化的相互影响。我们提出了一种多层结构混合森林MSHF,级联的估计头部轮廓和姿态角度,同时提高了两者的估计精度和鲁棒性。

成果介绍

本文提出了一种多层结构混合森林(Multi-level structured hybrid forest , MSHF)的方法级联进行头部检测和姿态估计,如图1所示。不同于传统两个独立任务,该方法可以端对端级联训练两个任务,减少了两个任务之间的互相影响。

MSHF对传统随机森林的分裂节点中引入多层分裂函数,用以对复合结构特征进行学习和生长。多层分裂函数用来在MSHF的不同层上构建回归树;而复合结构特征从随机选择的图像子块(头部区域或背景)中提取复合的图像纹理和几何结构特征。

图1 基于MSHF的级联头部检测和姿态估计

MSHF方法进行头部检测和姿态估计的步骤如下:

(1)提取Multi-structured features

对输入的图像,随机稠密选择多个图像子块,提取每个图像子块的复合结构特征,包括:图像纹理特征和几何结构特征,如图2。

其中复合结构特征分别为灰度图、Sobel边缘特征(水平和垂直方向)、HOG特征;几何结构特征图即图像子块中心到头部轮廓的最近边界的距离(距离为负表示该块在头部区域外边,距离为正表示该块在头部区域内部)。

图2 复合结构特征

(2)回归头部轮廓

通过引入多层分裂函数训练头部轮廓检测森林,首先对图像特征子块进行头部子块分类,获得属于人脸区域的头部子块。然后通过mean-shift聚类头部子块中心点得到头部轮廓点,最终得到头部轮廓 。

其中,混合森林的叶子节点为多概率模型,包括图像子块的分类概率,头部轮廓的偏移距离和头部姿态分类概率,如图3。

图3 MSHF

(3)两个自由度下的头部姿态估计

根据分类获得头部子快的复合结构特征,训练头部姿态回归森林。采用由粗到细的分层策略(L1-L4层),分别训练四层姿态子森林,包括水平子森林(两层)和竖直子森林(两层)。

如图4,MSHF先估计水平姿态,在水平姿态的条件下,再估计竖直头部姿态,获得25个(yaw5类*pitch5类)头部姿态类。最后,对分类的25个姿态类进行加权邻域回归投票(L5层)计算头部旋转角度。

图4 分层的头部姿态估计

实验结果

(1)参数选择

图5给出了模型的四个关键参数对姿态估计和头部检测的平均误差和准确率。图5(a)描述了树的分裂迭代次数对准确度和平均误差的影响。图5(b)描述了树深度对准确度和平均误差的影响。图5(c)描述了图像子块大小选择对准确性和平均误差的影响。图5(d)描述了树的数量姿态估计的准确度和头部检测平均误差的影响。

图5 MSHF中不同参数设置对姿态估计精度和头部检测平均误差的影响

(2)头部轮廓检测

图6为MSHF的头部轮廓检测结果。可见在非约束的自然环境中,我们的方法可以克服人脸遮挡,光照变化,分辨率和姿态运动等噪声的影响,取得鲁棒的检测结果。

图6 非约束环境下基于MSHF的头部检测结果

(3)头部轮廓检测对比

图7描述了在非常挑战的AFW人脸数据集上,MSHF与其他方法的对比结果。我们提出的方法表现出了最好的检测结果。

图7 AFW人脸数据集上头部轮廓检测性能对比

(4)头部姿态估计对比

表中给出了我们提出的MSHF方法与最新方法在头部姿态数据集Pointing04上的评估结果。与最先进方法相比,MSHF改善了性能和鲁棒性,头部轮廓平均精度90%,姿态估计在两个自由度下的平均角误差6.6°,在cpu环境下进行头部检测和姿态估计的平均时间约为0.44秒。

图8 级联的端对端头部检测和姿态估计结果

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180422G0IEGU00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券