Efficient detection under varying illumination conditions

狼啸风云

修改于 2022-09-02 21:47:27

5380

修改于 2022-09-02 21:47:27

摘要

本文主要研究了不同光照和姿态下的兰伯曲面目标的检测问题。我们提供了一种新的检测方法，该方法通过对训练集中少量图像的不同光照进行建模;这将自动消除光照效果，允许快速的光照不变检测，而不需要创建一个大型的训练集。实验证明，该方法很好地“适应”了之前关于在不同光照下建模物体外观集的工作。在实验中，即使在存在显著阴影的情况下，在45范围内的图像平面旋转和各种不同光照下，也能正确地检测到目标。

1、简介

姿态和光照的微小变化会产生物体外观的巨大变化。在[9,16,19,20]中研究了不同类别几何变换或不同视点下物体的识别。然而，这些方法并不能解决光照变化的问题，光照变化对物体的外观有很强的影响。图1所示为同一面部表情、从同一视角拍摄的两幅图像。由于光照不同，这两幅图像有显著的可变性。事实上，据观察，在人脸识别中，由光照引起的变异性往往比由人的身份变化引起的变异性大。另一方面，视点的变化也会对目标的外观产生戏剧性的影响。光照和位姿的变化会导致具有很高线性维数的复杂图像集。在本文中，我们利用[3]的观测和[9]的反人脸方法来检测不同光照和姿态下的三维物体。反面方法提供了一个很有吸引力的解决方案，它通过在训练集中对不同光照条件的影响进行建模；这将自动消除光照效果，允许快速光照不变检测，而不需要创建一个大型的训练集。

介绍了以下应用：

在不同的姿态和光照下，检测一个没有阴影的具有兰伯式表面的物体。
在不同的姿态和光照下检测具有兰伯式表面的物体，并带有附加的阴影。

在第一种情况下，成功地检测了相当大的一类不同的姿态(360旋转)。在第二种情况下，阴影的存在使得图像采集更加复杂，但是算法仍然能够正确地检测45旋转范围内的目标。这些结果与之前的工作相比是有利的，在之前的工作中，通过单独应用光照锥到44度斑块[5]来实现对大范围位姿变化的检测。理论上，该算法要求物体是凸的，以排除投射阴影。然而，当不存在显著的投射阴影时，对于非凸目标可以获得良好的结果。

1.1、这篇文章的结构

第1.2节调查了有关照明变异性的相关工作。第二节重点介绍了反人脸算法在光照空间和光照锥上的应用，并给出了反人脸算法。在第3节中，我们使用了旋转图像的泰勒级数近似来减小训练集的大小，第4节给出了实验结果。

1.2、以前的工作

基于外观的方法可以识别在特定姿势和光线下的物体，如果它以前在类似的环境下被看到过:例如[14]。为了将这些方法扩展到处理光照变化，学习阶段需要使用大量不同光照下目标的图像，这是低效的[13]。因此，用一种低维线性子空间来表示一个物体在不同光照下产生的一组图像是非常流行的。特别是，在不附加阴影的情况下，改变光照条件下的三维朗伯曲面的图像空间由三幅基础图像展开[2,7,11,15,18,21,23]。Koenderink和Van Doorn[10]将这些结果扩展到环境成分，从而产生了4D空间。环境光问题也被考虑在[22]。Belhumeur和Kriegman[3]证明了所有由光照变化(包括附加阴影(无投射阴影))产生的物体外观都用三幅图像表示的凸锥来描述。Georghiades等人将这种表示方法用于物体识别，然后扩展到姿态变化[5]。在这种方法中，每个“锥”都模拟了可见度球的一个44度的斑块，因此在大姿态变化下的识别是通过计算到每个锥的距离来完成的，这比我们的方法的计算成本更高。Basri和Jacobs[1]以及Ramamoorthi和Hanrahan[17]提出了另一种尝试，试图找到兰伯物体因光照而产生的图像空间的低维表示。他们分析地表明，一个兰伯对象的照明变异性可以非常接近地由一个9D线性子空间。该结果已应用于人脸识别中。Jacobs等人[8]提出了一种简单的基于图像比率梯度的图像比较局部测度。该方法对不同光照条件下的人脸识别效果良好。值得一提的是，这种方法不需要训练集;它只使用一个图像。Chen等人[4]扩展了这项工作，利用图像梯度分布来开发图像比较的光照不敏感测度。这种新方法在同一面部数据库中产生了更好的结果。

2、光照不变检测

在本节中，我们展示了与其他学习技术不同的是，[9]反人脸方法只需要少量的训练图像，就可以在不同的光照条件下识别物体，并且提供了一种非常快速的检测算法。

2.1、Anti-faces简短概述

[9]是一种新的检测方法，在大量图像集合的情况下，例如在大量线性变换下的正面人脸，或在不同视点下的三维物体，都能很好地进行检测。调用应检测到的图像集合的多模板。该检测问题通过依次应用非常简单的滤波器(或检测器)来解决，这些滤波器(或检测器)作为给定图像(视为向量)的内积，并满足以下条件：

它们与多模板图像的内积的绝对值较小。
它们是平滑的，这导致它们与“随机图像”的内积的绝对值很大;这是使探测器能够从随机图像中分离出多模板的特征。
它们以独立的方式行动，这意味着它们的假警报不相关;因此，虚警率随检测器数目呈指数递减。

检测过程非常简单:将图像分类为多模板iff的成员，其与每个检测器的内积的绝对值小于某个(检测器特定的)阈值。只有通过第一检测器设定的阈值测试的图像才会被第二检测器检测，等等。这进而导致了一种非常快速的检测算法。通常,ð1þdÞN操作要求N-pixel图像进行分类,在d < 0:5。反人脸方法在图像与某些检测器的内积较小的情况下，将图像分类为所寻找的图像集合(或多模板)。因此，如果这个集合可以用少量的基图像的小系数线性组合来描述，那么反人脸方法就可以只在基元素上进行训练，从而得到一个非常高效的算法。这使得它是一个自然的候选，用于检测在不同的光照下。

2.2、光照模型

2.3、反人脸方法在光照不变检测中的应用

为了扩展反脸处理光照变异性，我们需要找到少量的“基图像”和相应的光滑检测器[9]，使:(a)经过归一化后，不同的物体出现都可以用基图像的线性组合来表示，组合系数较小。(B)探测器与基图像有较小的内积。因为(A)，他们也会有小的内积与所有的物体外观。这将在命题2.1中得到形式化。下面观察[3]支持条件(A)。考虑一个具有朗伯反射函数的凸对象。

当物体的任何部分都没有阴影时，其像位于由矩阵B张成的三维子空间L中;L可以由三个基图像构成。
无限远任意数量点光源下的图像集为Rn中的凸多面体锥，可以表示为极值光线的凸组合。

为了满足这些条件，让我们首先分析反人脸检测器的正集(即检测器接受的图像集)。

由命题2.1可知，如果将光照子空间的三幅基图像作为检测器的训练集，如果阈值选取得当，则检测出整个光照子空间。如前所述，光照锥可以由系数为非负的向量xij (Eq.(4))的线性组合表示。在实际应用中，照明锥的极限光线位于一个低维线性子空间附近。对于凸面物体，Basri和Jacobs[1]以及Ramamoorthi和Hanrahan[17]在理论上证实了这一观察结果。因此，由最后的观察和命题2.1可知，如果检测器是根据近似光照锥的低维子空间的基向量训练，如果阈值选择正确，检测器就会检测到光照锥。

2.4、不同姿态和光照下的检测(无阴影)

我们在上一节中展示了，如果我们想使用反面检测固定姿态下的物体，我们应该在光照子空间的三个基础图像上训练检测器，这将允许检测该子空间中的所有图像。该方法可以很容易地扩展到不同的位姿，通过在包含光照子空间的基础图像的线性子空间上训练检测器，该子空间对应于所有训练位姿。下面的伪代码描述了一个凸目标在不同光照和姿态下的检测算法，当目标的任何部分都没有阴影时。

1. 求出每个目标位置样本的光照子空间的三个基图像：

(i)在不带阴影的情况下，收集物体的三张或三张以上的图像。

(ii)将图像归一化到单位长度，应用奇异值分解，取与最大特征值对应的三个特征向量。

(第一步将会产生3M个图像，其中M是训练姿势的数量。)

2、取代训练集

3、使用新的训练集发现反脸检测器。

2.5、不同姿态和光照下的检测(允许阴影)

一个类似的想法可以用于检测各种姿态的照明锥。这里我们找到在每个姿势下形成照明锥的极端光线，然后在包含所有训练姿势的照明锥并集的线性子空间上训练检测器。下面的伪代码描述了一种在无限远的位置检测任意数量的点光源和变化姿态下的凸对象的算法。允许附加阴影。

1. 求每个样本物体位置的照明锥：

从命题2.1可以得出，对于所有的物体位置，检测器的正样本都近似于光照锥。正如2.1节中提到的，极端射线的数量是m(m-1)，其中m<=n是不同法线的数量，通常很大，因此构建照明锥所需的极端射线数量会非常大。因此，我们采用[6]的采样方法，直接对光源方向的空间进行采样，而不是通过式(4)(5)产生样本。

3、增量构成近似

4、实验结果

我们对上述算法进行了实验。我们选择图像平面旋转来训练和测试2.3节和2.4节中描述的算法。

4.1、实验

在不带阴影的不同光照条件下拍摄了10张玩具老虎的图像(图2A)。物体由单一光源照明，但由于来自周围的扩散，环境光出现在所有图像中。为了排除环境成分，我们仅在环境光下拍摄物体(图2B)，并从图2A中描绘的10张图像中减去该图像。利用第2节中的算法，我们找到了三个跨越光照子空间L的基图像(图3)。图4给出了在任意旋转和不同光照条件下无阴影的检测算法结果(2.3节)。检测器的训练基于49个基的图像，这些图像张成了无阴影的旋转和光照的线性子空间。十个检测器足以在没有假警报的情况下找回玩具。在玩具图像上训练的反面方法受到任意旋转和环境光单独照射，在图4描绘的场景中未能检测到物体。接下来的实验是为了测试在无限远的任意数量的点光源照射下，检测固定姿态下的目标的算法。允许附加阴影。我们采用与之前相同的基底图像(图3)，并使用样本方法[6]来近似圆锥体。在[3]中经验地表明圆锥是平的(即圆锥是圆的)。它的元素位于一个低维的线性子空间附近)，而下采样锥提供了一个近似值，从而产生良好的识别性能。在我们的实验中，我们创建了大约60幅图像，以便相应的光源方向或多或少均匀地分布在照明球上。图5给出了不同光照条件下玩具老虎在真实图像中的检测结果。8到10个反人脸检测器被用来检测老虎的所有实例，没有假警报。检测器在一个近似老虎玩具锥的16D线性子空间上训练。由于很难模拟产生明显阴影的光照条件，我们在老虎光照锥的200个随机样本上用一个和两个光源测试了算法。这些图像是使用[3]中描述的方法人工生成的。所有200个样本都被认定为老虎。图6展示了测试集的部分图像。最后一个实验是为了测试在不同光照下检测带有阴影的物体，并在45范围内进行图像平面旋转的算法(章节2.4)。我们创建的极端射线近似圆锥为每个旋转角度的方式在前面的实验中描述。设计了八套反脸检测器，每一套的范围为45，覆盖360。图7中的图像描绘了在不同光源方向下旋转180度的老虎。图8所示为相应旋转60和100的图像。在这些测试中，10个反人脸检测器足以探测到老虎，没有假警报。检测器的训练基于26个基图像，这些图像分布在线性子空间中，近似于物体在光照变化(带有附加阴影)和45范围内的平面旋转下的外观。

4.2、多模板结构的检测性能

在实验中，我们观察到，当旋转范围增大时，2.4节中描述的算法的检测性能会下降。例如，使用10个检测器在360范围内训练产生449个假警报，在一个253像素的图像(同图7A)。结果可以解释如下。定义有效维数，即90%能量所需的特征值个数;它是对图像集复杂度的一种度量(通过“复杂度”，我们指的是检测复杂度，即，这是对多模板图像检测困难程度的经验衡量)。光照锥在不同旋转下形成的多模板的有效尺寸几乎等于旋转集的有效尺寸与光照锥的有效尺寸的乘积。通过比较所有这些集合的有效维数，可以证明这一点。从表1可以清楚地看出，对于所有的旋转范围，用于旋转加上光照的多模板与仅用于旋转的多模板之间的比率在8到9之间，这大约是光照锥的有效尺寸。直观地说，旋转和光照不能很好地混合，将它们结合在一起会产生一个非常复杂的图像——比只允许旋转或只允许光照变化的情况要复杂得多。如果我们用2%的步长改变能量的有效维数从90%到98%的测量，那么集合之间的乘法关系不会改变。表2显示了45个旋转范围的结果。关于多模板结构的另一个有趣的观察是，它的复杂性取决于两个特征的组合:(1)它的有效维数和(2)主成分(即主成分)的光滑性。，该多模板在Rn中的奇异值分解中特征值最大的向量。如果设置的主要方向是光滑的(即。那么反面检测器应该与多模板正交，也与许多其他自然平滑的图像正交。因此，多模板的线性维数和主方向都可以用来预测检测问题的难度。通过研究不同模板的训练集主特征向量的粗糙度，可以验证这一观点。表3总结了结果。定义粗糙度为