首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >深度学习网络用于面部表情特征学习

深度学习网络用于面部表情特征学习

作者头像
计算机视觉研究院
发布2018-04-18 10:22:49
1.2K0
发布2018-04-18 10:22:49
举报

最近看了一篇关于面部表情特征学习的文章,感觉整体框架和构思特别好,就总结了下,和大家分享。希望得到大家的支持和认可,后期大家互相讨论,互相学习!谢谢!O(∩_∩)O谢谢!

AU-inspired Deep Networks for Facial Expression Feature Learning

受AU启发的深层网络面部表情特征学习

文章的主要贡献如下:

  1. 受AU启发,将表情分解成多个面部动作单元,构建特征学习框架去提取特有的特征;
  2. 构建不同的感受野构造和子网络学习方案。

文章简单介绍:

现存大多数面部表情识别的技术,利用现成的特征提取方法去进行分类。为了学习更好的具体表情特征的表达,本文提出构建一个深层的结构,受AU启发的深层网络(AUDN),其表情可以分解成多个面部动作单元(AUs)。为了充分利用这一影响,本文提出自动学习:

(1)可提供信息的局部外观变化;

(2)优化方法去结合局部变化;

(3)最后表情识别的高层表达。

所提出的AUDN由三个连续的模块组成,主要为微动作模式(MAP)表达学习、感受野构造和group-wise子网络学习。实验在CK+、MNI和SFEW三个表情数据库进行,学习的特征通过采用线性分类器,在所有数据库中都到达了最先进的结果且验证了AUDN的有效性。

文章的主要工作:

设计三个模块为了帮助自动学习去学习具体表情特征,如下:

  1. 微动作模式(MAP)表达学习;
  2. 感受野构造;
  3. Group-wise子网络学习。

首先给出实验结果,有一个明显对比吧!

1) 与人工制作特征比较

2) 与先进方法的比较

文章的整体构架

现在我开始详细的总结各个细节环节:

一、微动作模式(MAP)表达学习

面部动作编码(FACS)理论的关键成分是一个观察到的表情可以被分解成若干个局部外观的变化。为了学习高层表情具体特征,应该先编码这些后续使用的局部变化。考虑到AU的局部性,本文从所有的训练表情图像中密集采样大量的小块(即MAP原型),去共同表达由面部表情引起的所有局部变化。

假设块的大小为

像素,为了获得一个过完备表达,设置

在K-means聚类中,并且学习所有块归一化和白化后的K个质心

,

,其被认为是上面提到的MAP原型。然后每一个MAP原型被作为一个滤波器在整个面部图像中去和其他块卷积,为了计算到这个MAP(滤波器)的“响应”。对于一个

像素输入图像有个

块(其中

),每

个响应的2D网格用于一个单一滤波器通常被称为一个“特征映射”。最后在卷基层之后我们会得到一个

维的表达。为了实现平移不变性,我们进一步在相邻处应用最大池化,不相交的

个块在每一个

映射上去获得最后的MAP表达用于每个表情图像。

二、感受野构造

在这个模型中,本文专注在最大池化层输出(如MAP表达)的感受野构造,每个对应一个通过MAPs描述的局部外观变化的复杂组合。

两个主要问题已被考虑:在每个感受野的特征冗余和特征关联到表情类别。首先,如果特征是高度冗余的,单一的感受野可能无法提供足够的信息对于随后的特征学习。其次,应考虑特征和表情类别之间的相关性,以提高每个感受野的描述。

假定一个MAP的子集S(形成感受野)有m个特征:

给出表情标签c,监督信息可以通过测量整体标签相关性来表达:

如果没有监督,自信息熵可以代替:

在接受域内每一对MAP特征之间的整体冗余定义如下:

在先前的深度网络,感受野通常是手动设计作为局部空间区域,其中的特征是高度冗余。本文认为这种感受野不能提供足够的信息为随后的特征学习。为了探索每个感受野的特征是否应该是更冗余,评估了2个相互冲突的标准:最大化

和最小化

。通过将其与上述信息论的条件结合,分别设计了四个标准。

表1 方案的MAP分组及其公式的对应关系

为了显示在每个感受野的不同方案下所选择的特征差异,一些局部块对应于MAPs的例子在图3中被可视化。我们可以清楚地发现,“R”方案倾向于在局部空间区域MAPs的分组,而“NR”方案可以分组一些分离的块。“S”很容易选择眼睛或嘴巴的特征,其有更多可提供的信息用于特征表情。

图3 在不同方案下对应分组特征块的实例:(a)NS+R,(b)NS+NR,(c)S+R,(d)S+NR

三、Group-wise子网络学习

对于多层的group-wise子网络学习,我们研究了2个主流算法:多层感知器(MLP),其是通过充分监督梯度下降训练;深度信念网络(DBN),其包括一个无监督的预训练步骤和一个有监督的微调步骤。

多层感知器(MLP)

去训练一个MLP,采用小块的随机梯度下降学习所有模型的参数。梯度可以使用反向传播算法计算。

深度信念网络(DBN)

受限玻尔兹曼机(RBM)可以堆叠建立一个DBN。因为RBM通常是作为一种无监督的“预训练”工具,本文在堆叠RBMs后执行监督“微调”去细化参数。这个程序相当于用权重和堆叠RBMs获得隐层偏置去初始化一个MLP的参数。

四、数据库介绍

CK+数据库

CK+数据来自123个对象的593个序列,这是一个扩展版本的Cohn-Kanade(CK)数据库(一些例子如图4所示)。7个标准的情绪(愤怒、轻视、厌恶,恐惧,开心,悲伤和惊讶)。

MMI数据库

MMI数据库包括来自不同性别且年龄在19到62岁之间的30个对象。在数据集,213个序列已被标记的六种基本表情,在这205个序列是正面拍摄的。我们使用的数据来自所有这205个序列。与CK+对比,MMI更具有挑战性的条件:对象的表情不一致,且许多人佩戴饰品(如眼镜、胡须)。

SFEW数据库

为了进一步验证,我们评估我们的方法在一个更困难的场景:在野外的面部表情。野外的静态表情(SFEW)数据库,其从电影中提取的(例子见图5)。

五、跨数据库评价

作为一种基于学习的方法,它的泛化能力是普遍的担心。对这一点,我们还进行跨数据库实验,即在一个数据库训练特征模型和在另两数据库测试。结果显示在表4,这表明,我们的方法也可以实现非常有前途的结果。具体而言,该模型在实验室数据CK+训练,可以获得相似的性能相比于在SFEW自己数据库中训练。这些结果证明了所提出的方法很强大。

六、总结

在本文中提出构建一个深层结构去学习面部表情特征,被称为“AUDN”。通过AU解释的启发,提出了一种计算表达MAP去捕捉由面部表情引起的局部外观变化,并构建自适应感受野去模拟不同MAP的分组。子网络的学习过程可以进一步产生高层的特征,其特别有益于表情的识别。所提出的AUDN在三个人脸表情数据库中包括实验室控制和野生场景下实现了最佳性能。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-03-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 计算机视觉战队 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 受AU启发的深层网络面部表情特征学习
  • 文章的主要贡献如下:
  • 文章简单介绍:
  • 文章的主要工作:
  • 文章的整体构架
  • 一、微动作模式(MAP)表达学习
  • 三、Group-wise子网络学习
  • 四、数据库介绍
  • 五、跨数据库评价
  • 六、总结
相关产品与服务
人脸识别
腾讯云神图·人脸识别(Face Recognition)基于腾讯优图强大的面部分析技术,提供包括人脸检测与分析、比对、搜索、验证、五官定位、活体检测等多种功能,为开发者和企业提供高性能高可用的人脸识别服务。 可应用于在线娱乐、在线身份认证等多种应用场景,充分满足各行业客户的人脸属性识别及用户身份确认等需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档