What Is a Face? 人脸检测的关键特征

计算机视觉研究院

发布于 2019-08-22 18:28:23

1.1K0

发布于 2019-08-22 18:28:23

文章被收录于专栏：计算机视觉战队

今天跟大家继续说说人脸检测的一些事，我们是否考虑过人脸检测，到底哪些特征是比较关键性的？？？

面部传达着非常丰富的信息，这对于完整的社会互动至关重要。为了有效地提取这些信息，需要从复杂的视觉场景中很容易地检测到人脸。在这里，我们询问了哪些特征是人脸检测的关键？

为了回答这个问题，本次分享的文章提出了非人脸对象，这些对象产生了对人脸的强烈感知（即Pareidolia）。一组参与者对这组无生命的图像进行评估。第二组评估了12种局部和全局特征的存在。回归分析显示，只有眼睛或嘴对面部表情评分有显著影响。

进一步表明，去除眼睛或嘴，而不是牙齿或耳朵，显着降低面部评分。这些发现表明，人脸检测取决于特定的面部特征、眼睛和嘴巴。这种最小的信息导致过度泛化，产生虚假的人脸感知，但确保真实的面孔不会错过。

视觉系统给予面部类刺激的优先权也表现在由无生命刺激的子集所产生的面部感知，这种现象被称为pareidolia(见下图)。这些类似面部的无生命刺激被证明相对于人类和非人类灵长类动物都不会产生面部感知的相似的无生命刺激会导致更长的时间。此外，神经影像学研究表明，这些刺激会产生类似面部的神经反应。例如，在MEG的一项研究中，真实的面孔在130ms时产生了比脸一样的无生命刺激更大的反应，但在刺激开始后165ms产生了类似的反应。在fMRI实验中，FFA的反应模式，而不是LOC或PPA，与无生命刺激的面部特性相关，表明面部选择性区域被调到非面部刺激，从而产生对面部的感知。

综上所述，这些发现意味着人脸检测机制被广泛调整，并被过度概括为某种无生命的刺激。因为这些无生命的刺激是高度可变的，所以它们可以用来回答基本的问题，即人脸检测机制用来将刺激归类为面部的关键特征是什么。

这个问题不能用真实的面部刺激来回答，因为人类对真实面孔的所有面部特征都非常敏感，即使所提供的信息是部分的、扭曲的和稀少的，也可以很容易地将它们识别为人脸。另一方面，被认为是面部的无生命刺激包含非面部信息，使它们看起来像一张脸。

因此，利用这类刺激来回答一个基本问题，即需要什么信息才能使刺激被视为一张脸？

在目前的研究中，向参与者提供了无生命的刺激，并要求他们对他们看起来像一张脸的程度进行评分(即面部评定)。另一组受试者在12种面部特征中对这些刺激进行了评级，包括眼睛、嘴和牙齿等局部特征，以及面部表情、对称性或面部比例等全局特征。

通过将特征等级与人脸等级相关联，发现哪些特征需要作为面部刺激，哪些不是关键。

先前的一项研究也研究了面部表情评分与一些特征(眼睛、嘴巴、眉毛、表情和典型性)之间的相关性，结果表明：眼睛、嘴和表情可以预测面部表情。然而，预测因子与预测措施并不是独立的，因为同样的参与者对所有的指标都进行了评级。为了避免面容和特征评分的这种可能的影响，不同的参与者提供了面部和特征评分的这些测量标准(见下面的实验1)。

此外，在目前的研究中，还进行了一个后续实验，根据相关结果去除了关键或非关键特征，并考察了对面容评定的影响。我们认为去除关键特征(即与面容分数相关的特征)会降低面容等级，而去除非关键特征(即与面容分数无关的特征)不会影响面容等级。

实验1

刺激：

本研究使用了116幅彩色照片，包括风景、房屋、车辆或家具的照片。这些图片是在不同的互联网网站上找到的，还使用了谷歌搜索引擎中的关键词“看起来像脸的东西”。在116幅图像中，86幅被实验者视为面孔。此外，还选取了30幅非人脸图像，这些图像与描绘相似物体/景观的“人脸图像”相匹配。

过程：

对两组参与者进行了评分实验。一项面部评定实验，被测试者要求对图像的容貌进行打分。一项面部特征评分实验，参与者被要求对他们看到12个面部特征的程度进行评分，详情如下。

面部评定：一组35人完成面部评定实验。116幅图像中的每一幅都以随机顺序在电脑屏幕上显示了2秒。在图像消失后，研究人员要求受试者在照片中发现脸部的程度从1(照片中没有脸)到7(照片中肯定有一张脸)。实验持续了大约10分钟

面部特征评分：37名受试者完成面部特征评分实验。116幅图像中的每一幅都以随机顺序出现在屏幕上。被试被要求对以下12种面部特征进行分级：眼睛、嘴巴、鼻子、额头、牙齿、耳朵、眉毛、头发、眼镜框、比例、对称性和情绪表达。标度范围从1(照片中不存在该特征)到7(该特征绝对存在于照片中)。

每个特征可以出现在任何图像中，也可以不存在，在图像中清楚看到的特征应该得分为7，而不太明显的特征应该得到较低的评分。指示还包括对特征框架、比例和对称性的澄清。

眼镜框：如果你看到任何面部特征，他们是否出现在任何类型的框架内？
比例-如果你看到任何面部特征，它们之间的大小和距离是否与普通面孔相似？
对称性-在图像中被视为人脸的对象是否对称？

每幅图片都保留在屏幕上，直到参与者完成对所有特征的评级。由于特征评分实验时间长，将其分为两部分，每部分包含一半的照片。只要他们需要，受试者就可以在这两部分之间休息一下。每个部分大约需要半个小时才能完成。

数据分析：

评级分数被转换为z-scores（是以标准差单位来表现的一组观察值）在每一个科目内的面部得分和每个特征得分。所有受试者的116幅图像的z-scores都是平均的，因此每幅图像都有一个平均z-scores面容等级，以及12个特征中的一个平均z-scores。两名受试者对116幅图像的一个特征使用相同的评分，一个用于“眼镜框”，另一个用于“耳朵”。这些特征被排除在外。

实验结果

第一排图像得分最高，第二排得分居于中间，第三排得分最低。

上图显示了获得最高、中间或最低面部评分的示例图像。为了确定哪些特征对于面部检测是重要的，我们计算了每个面部特征的116幅图像上的相关性和面部评级。

根据每个特征和面部得分(右列)之间的相关性对12个特征和面部特征得分之间的相关矩阵进行排序。颜色编码指示相关性的强度。绿色相关是最高的，红色的相关性是最低的。

为了确定每个特征对面容评分的独特贡献，我们进行了多元回归，用所有12个特征的评分来预测面容评分。回归模型解释了92%的面容得分差异。在12项特征中，眼睛和嘴对面容评分的贡献最大且显著(经12次多次比较，p<0.004)。眉毛、头发和情绪对面容等级也有轻微的显著影响(见下表)。这些发现与Ichikawa和他的同事观察的结果一致，他们发现眼睛是面部得分、嘴和表情的最佳预测因子。在这项研究中，而面容和特征的评分是从同一组参与者中收集的，因此这些预测因子并不是独立测量的。

12种面部特征和容貌分级的多元回归结果

另一个可能与面部评分相关的指标是任何图像中存在的特征数。特征数较多的图像比特征数较少的图像更容易与人脸分数相关。

因此，我们检查了这个变量是否解释了我们发现的眼睛和嘴巴之间的相关性。对于每一幅图像，计算了获得z-scores大于0的特征数，这表明图像中存在此特性。特征数与面部评分的相关系数为0.86，P<0.0001。

然后，我们将这个变量包含在具有这12个特性的回归分析中。与不包括特征数的模型相比，该模型的容貌分数方差所占的比例(92%)相同。眼(β=0.48，t=6.7，p<0.001)和嘴(β=0.25，t=2.9，p=0.005)仍然是面部评定评分的显著预测因子，表明它们对人脸检测的贡献不是由图像中的特征数决定的。

在实验的四种版本中使用的刺激，其中从刺激中去除关键特征(A：眼睛、B：嘴部)或非关键特征(C：耳和D：牙齿)。参与者将这些图像与实验中呈现的刺激一起评定为真实性，因此相同的上下文用于具有和不具有特征的图像的评级。

讨论

该实验的目的是发现哪些特征对于面部检测是关键的。为了回答这个问题，我们使用了无生命图像，该图像产生了面部的强烈感知，并基于人类的评级来检查在12个面部特征和面部表情得分之间的刺激之间的相关性。

结果表明，图像中眼睛或嘴巴的存在与面部表情得分高度相关。为了进一步检查眼睛和嘴巴是否确实对于面部检测是关键的，在第二实验中，我们去除眼睛或嘴巴，或者两个不与面部、耳朵或牙齿相关的特征，以及用于编辑的图像的测量的真实性得分。结果显示，去除眼睛或嘴巴明显减少了面部表情得分，而在去除牙齿或耳朵之后图像的真实性得分与原始图像的真实性得分不显著不同。这些发现证实并扩展了相关的发现，进一步示出了感知图像中的面部取决于图像中眼睛或嘴的存在。

实验中的一个局限性是选择不同的图像来去除不同的特征。这是必要的，因为大多数图像都没有选择要删除的所有特征，或者在某些情况下，删除特征会以全局的方式扭曲图像。然而，每幅图片都与其本身相比较，从而减少了这一限制的影响。此外，去除非关键特征后的图像的容貌评分远高于去除关键特征后的图像。因此，去除关键特征比去除非关键特征的人脸得分要低，这表明去除非关键特征的效果较小。

总之，我们揭示了人脸检测依赖于一种广泛调整的机制，该机制基于与图像中的眼睛和嘴巴的存在相对应的相对最小的信息，将图像归类为人脸。这样的模板可能会产生虚假的人脸感知，但也保证了在我们生活的动态、杂乱和复杂的视觉环境中，真实的面孔不会被错过。

end

如果想加入我们“计算机视觉战队”，请扫二维码加入学习群。计算机视觉战队主要涉及机器学习、深度学习等领域，由来自于各校的硕博研究生组成的团队，主要致力于人脸检测、人脸识别，多目标检测、目标跟踪、图像分割等研究方向。