基于云计算的 CV 移动交互应用研究:头部姿态估计综述(2)

导语

随便说说,其一,项目的原名是“CV移动交互应用的前后台框架”,为了高大上,起了个“云计算”;其二,这是动手写的第一篇,不过在规划里面第二篇,第一篇项目概述没想好;这篇文章主要来之IEEE的一篇文章,是CV算法实现方案的指导性综述。

1 概述

1.1 定义

头部姿态估计(Head Pose Estimate,HPE):利用计算机视觉和模式识别的方法在数字图像中判断人头部的朝向问题;头部姿态估计是一个空间坐标系内识别头部的姿态方向参数,也就是,头部位置参数(x,y,z) 和方向角度参数(Yaw,Pitch,Roll)。

按照估计结果的不同,分为离散的粗糙头部姿态估计(单张图像)、连续的精细头部姿态估计(视频)。

1.2 应用

近年来,主要应用有:

智能人机交互(User Interface)

  • 取代鼠标:头部姿态和注视跟踪
  • 识别人的注意力角点
  • 疲劳驾驶检测
  • 人的行为的理解和分析

人脸身份识别

  • 姿态正则化
  • 基于模型的面部识别

游戏和娱乐

  • 头部运动驱动的游戏
  • 虚拟社交(换脸)
  • 用户测试分析(注意力)

 2 头部姿态估计的方法

基于视觉的头部姿态跟踪和识别技术不仅是一个重要的理论问题,还有着显著的应用前景,因此吸引了国内外众多研究机构的重视。国际上开展头部姿态跟踪研究的有麻省理工学院人工智能实验室、卡内基梅隆大学机器人研究所、瑞士洛桑联邦理工学院((EPFL) 计算机视觉实验室、微软 Redmond 研究院等著名的研究单位。国内也有许多高校和科研机构开展了头部跟踪的相关研究,比如北京大学视觉与听觉信息处理国家重点实验室、清华大学人机交互与媒体集成研究所、中科院自动化所模式识别实验室、上海交通大学系统控制与信息处理教育部重点实验室、南京大学计算机科学与技术系、东南大学学习科学研究中心情感信息处理实验、西安交通大学人工智能与机器人研究所等单位、浙江大学计算机学院等。

经过近 20 年的研究,已经出现了多种基于视觉的头部姿态估计方法。按照判断头部姿态技术的不同可以分为八种类型(E. Murphy-Chutorian and M.M. Trivedi. Head pose estimation in computer vision:A survey. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 2009.)。

2.1 模板匹配方法(Appearance Template Methods)

模板匹配的头部姿态估计,具体来说就是选择一些标注了头部姿态的图像作为样本集,如图所示。识别时,把当前图像与样本集中的图像进行对比,找到与当前图像最接近的样本,

并把该样本的姿态作为当前图像的头部姿态。

基于模板匹配的技术与其它方法相比具有实现简单的优点,可以随着使用环境和人员的不同随时对样本库进行扩展。只要采集一些包含头部信息的图像并标注每个图像的头部姿态就可以生成样本库,不需要采集反样本图像,也不需要识别人脸特征点。基于模板匹配的技术同时适合高分辨率和低分辨率图像的识别。

基于模板匹配的技术也有很多不足。首先,头部姿态参数的精度受到模板个数的影响,如果模板个数较少,姿态参数的精度会比较低,如果模板的个数较多,又会带来较大的计算量。当样本集里有很多人的样本时,模板匹配会受到不同头部姿态和不同人脸的双重影响,导致姿态参数的误差较大。

2.2 多分类器方法(Detector Arrays)

针对不同姿态的人脸训练相应的识别器,然后把多个识别器同时使用,选择匹配程度最高的识别器对应的姿态作为当前图像的头部姿态。和基于模板匹配的方法一样,基于多个分类器的方法也是直接对图像进行处理。

与基于模板匹配方法相比,基于多个分类器的方法具有多个优点。通过采用多个训练样本,可以克服人脸外观的局部变化对头部姿态识别的影响,并且同时适合高精度和低精度的人脸图像。另外不需要单独的头部检测和定位即可完成对头部姿态的估计。其不足之处是需要训练大量的分类器才能识别较多的头部姿态,此外还要提供大量不包含人脸的图像作为反样本,这会增加分类器的训练时间。如果分类器的数量较多的话,对某个识别器的正样本很可能成为另一个识别器的反样本,影响姿态识别的结果。同时具有人脸检测和姿态识别的功能,使训练过程包含很多重复。

2.3 非线性回归方法(Nonlinear Regression Methods)

非线性回归方法通过学习从图像空间到一个或者多个姿态方向的非线性函数映射来估计头部姿态。

非线性回归方法(神经网络方法)的有点很多,这些系统非常快,只需要提供一组标注了姿态参数的人脸图像就可以方便的完成训练,在近场和远场图像中工作很好;在实践中精度也相对最精确。

这类方法的主要缺点是他们容易出现头部不稳定的错误。

2.4 歧管嵌入方法(Manifold Embedding Methods)

歧管嵌入方法寻找模型头部姿势连续变化的低维歧管。新图像可嵌入到这些歧管中,然后用于嵌入模板匹配或回归。

上述的歧管嵌入技术都是线性或非线性方法。线性技术具有嵌入可以通过矩阵乘法执行的优点,但是它们缺乏非线性技术的表示能力。作为这些方法的结合,全局头部在台歧管可以由一组局部线性歧管近似。这已经用于 PCA,LDA 和 LPP 的头部姿态估计。

2.5 柔性模型方法(Flexible Models )

柔性模型将非刚性模型与图像平面中个人的面部结构相结合。从特征级比较或模型参数的实例中估计头部姿势。

AAM(Active Appearance Model) 是一种典型的柔性模型。使用 AAM 通过迭代逐步接近人脸图像,所以能较好的克服头部检测误差的影响,获得准确的头部姿态。AAM 的主要问题是训练过程中对所有的训练图像都要标注人脸特征,这限制了该方法对大范围头部旋转的支持,因为此时人脸图像的很多特征点已变的不可见。另外,AAM 也不能跟踪分辨率较低的远景人脸图像。

2.6 几何关系方法(Geometric Methods)

几何方法使用诸如眼睛,嘴巴和鼻尖等特征的位置来确定其相对配置的姿势。

此类方法过程简单,使用几个特征点就可以得到头部姿态检测结果,但检测过程中不能出现特征点的丢失和遮挡,同时获得的姿态参数的精度也比较低。远场图像是有问题的,因为分辨率可能使得难以或不可能精确地确定特征位置。

2.7 跟踪方法(Tracking Methods)

跟踪方法从观察到的视频帧之间的移动中恢复头部的全局姿态变化。

跟踪方法的主要优点是通过发现视频帧之间的小姿态位移,能够以高精度跟踪头部。在这种跟踪配置中,这些方法始终优于其他头姿态估计方法。通过基于模型的跟踪的另一个优点是能够动态地构建个人头部的个性化原型,避免外观变化的不利影响。

跟踪方法的难度在于准确地初始化位置和姿势,以生成新模型或调整现有模型。没有单独的定位和头部姿态估计步骤,这些方法只能用于发现帧之间的相对变换。在这种操作模式下,这些方法不是绝对意义上估计头部姿势,而是跟踪头部的运动。然而,对于某些应用,仅需要相对运动。一些例子包括使用手动初始化的圆柱模型和递归最小二乘优化跟踪头部,或通过可变 3D 模型进行跟踪。只要头部姿态估计值接近原始视图,跟踪方法可以自动初始化,使用动态模板重新创建模型。

2.8 混合方法(Hybrid Methods)

混合方法组合了上述一种或多种方法来克服任何单一方法中固有的限制。

混合方法可以使用两种或更多种独立技术,并将每个系统的估计值融合为单一结果。在这种情况下,系统从多个提示获得信息,从而提高估计精度。具体示例包括外观模板与几何匹配(也包括粒子滤波)以及通过弹性图形匹配进行改进的歧管嵌入方法。

相关推荐:

《基于云计算的 CV 移动交互应用研究(1):CV交互+云计算》

附件:

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏iOSDevLog

Scikit-learn

15930
来自专栏CreateAMind

最强UNREAL(UNsupervised REinforcement and Auxiliary Learning)简介及代码

UNREAL(UNsupervised REinforcement and Auxiliary Learning)算法

9310
来自专栏AI研习社

从事人脸识别研究必读的N篇文章

该文内容较老,但对入门者还是有很强的学习意义,可以了解人脸识别的历程与技术发展。 人脸检测/跟踪 人脸检测/跟踪的目的是在图像/视频中找到各个人脸所在的位置...

34540
来自专栏机器之心

从算法到训练,综述强化学习实现技巧与调试经验

选自GitHub 作者:WilliamFalcon 机器之心编译 参与:乾树、黄小天 本文整理自 John Schulman 题为「深度强化学习研究的具体内容...

31760

5种无需数学背景也可理解机器学习算法的技巧

在一种自顶向下的研究机器学习的方法中,理论应立足于何处?

307100
来自专栏新智元

【神经网络本质是多项式回归】Jeff Dean等论文发现逻辑回归和深度学习一样好

【新智元导读】谷歌用深度学习分析电子病例的重磅论文给出了一个意外的实验结果,DNN与逻辑回归效果一样,引发了热烈讨论。不仅如此,最近Twitter讨论最多的论文...

14700
来自专栏新智元

【超越CycleGAN】这个人体动态迁移技术让白痴变舞王(视频)

CycleGAN利用pixel2pixel技术,能自动将某一类图片转换成另外一类图片,过度真实自然,可以说是2017年最受关注的模型之一。CycleGAN论文的...

70840
来自专栏AI研习社

一言不合就想斗图?快用深度学习帮你生成表情包

AI研习社:斯坦福大学的两个学生 Abel L Peirson V 和 Meltem Tolunay 发表了自己的 CS224n 结业论文—— 用深度神经网络生...

14110
来自专栏AI研习社

如何测量 NLP 模型的性别偏见到底有多大?

AI 研习社按:本文由 Ben Packer, Yoni Halpern, Mario Guajardo-Céspedes & Margaret Mitchel...

12330
来自专栏机器之心

前沿 | 将逆向课程生成用于强化学习:伯克利新研究让智能体掌握全新任务

383100

扫码关注云+社区

领取腾讯云代金券