本文分享 AAAI 2022 论文『Low-Light Image Enhancement with Normalizing Flow』,由南洋理工大学和香港城市大学合作完成,该文针对弱光图像增强问题提出了一种新颖的流正则化模型LLFlow,并在多个数据集上达到SOTA性能。
详细信息如下:
01
动机
弱光图像增强是计算机视觉领域中的一项底层视觉任务,近年来也获得了广泛的关注,其目的是通过图像处理手段调整弱光或暗光图像的像素分布,使其拥有正常的光照视觉效果。
目前基于深度学习的方法通过数据驱动的方式从大量数据中学习到弱光图像和正常曝光图像之间的逐像素映射关系,已经可以获得不错的增强效果,下图展示了本文方法与目前其他SOTA方法的增强效果对比,图(a)为输入的弱光图像,图(i)和图(j)分别为本文的效果和正常曝光的图像。
但是这类方法存在两个严重的问题:
基于这两个问题,本文引入正则化流技术进行改进。相关研究表明,正则化流约束相比于经典的像素损失更能符合复杂的条件分布,因此其可以更好的描述各种背景下图像结构细节,同时更高质量的计算处理图像与正常曝光图像的视觉距离,这有助于调整图像亮度的同时也抑制图像伪影。
基于正则化流技术,本文提出了LLFlow,其通过对正常曝光图像上的像素分布进行建模,可以准确地提取图像的局部像素相关性和全局图像特性。进而可以提高整体图像的增强质量。
02
本文方法
下图为本文所提方法的整体框架,由一个条件编码器(Conditional encoder)和可逆网络(Invertible network)构成。其中条件编码器用来提取光照不变的色彩图(illumination-invariant color map),可逆网络用来学习弱光图像与正常曝光图像之间的条件映射关系,下面将详细介绍网络的具体细节。
2.1 前提知识
在介绍本文方法之前,我们有必要先了解一下什么是正则化流[1]技术以及图像弱光图像增强的基础理论依据。正则化流是一种通过一系列可逆和可微映射将简单概率分布(例如标准正态分布)转换为更复杂的分布的方法,通过该方法估计的样本概率密度函数值可以通过将其转换回原来的简单分布来精确计算,其具有拟合复杂分布的能力,同时具有一定的可逆性。
图像弱光增强领域基本遵循图像Retinex理论,该理论是Edwin等人[2]在1971年提出。Retinex理论假设,物体的颜色取决于对红、绿、蓝三种波长的光的反射率,而不是光照强度的绝对值。现代Retinex理论假设被观测图像可以分解为两个分量:反射分量和光照分量,假设S代表观测图像,其可以如下分解为:
R代表反射分量,I代表光照分量。其中反射分量描述了被观测图像的固有属性,其不受图像光照条件的影响,上面提到本文方法生成的光照不变的色彩图(illumination-invariant color map)就可以看作是这里的反射分量。光照分量反映了图像整体的光照分布。
2.2 条件编码器生成光照不变色彩图
如上面的框架图所示,条件编码器由一系列的Residual-in-Residual Dense Blocks(RRDB)[3]堆叠构成,其共分为三步处理弱光图像并提取特征:
直方图均衡化可以初步提升弱光图像的全局对比度,处理后的图像可以看作是一种图像不变性较强的图像,将其作为增强网络输入的一部分,可以使网络更好的处理图像中过强或过暗的区域。
本文遵循Retinex理论,通过计算每个像素点与该位置所有通道均值的比值得到当前弱光图像x的反射分量,即光照不变色彩图,计算公式如下:
下图展示了图(a)输入弱光图像、(图b)编码器g增强后图像和图(c)参考图像的色彩图对比。
可以看出,图(b)和图(c)基本保持了原有参考图像的细节信息,而图(a)由于弱光条件影响产生了一系列的密集噪声。并且经过编码器g增强后,图(b)可以生成高质量的色彩图,并在一定程度上抑制了噪声。
除了上述两个步骤生成的直方均衡化图像和色彩图之外,还需要估计噪声图作为注意力图一起输入编码器,其中噪声图通过计算图像在x和y方向上的梯度得到。随后将上述三个步骤得到的三幅图像一起送入编码器。
2.3 可逆网络
与编码器学习一对一的映射不同,由于现实场景中光照条件复杂多变,所以可逆网络的目标是学习图像光照的一对多关系。可逆网络使用正则化流技术学习以弱光图像/光照不变颜色图为条件到正常光照图像之间的条件分布。
归一化约束作用在
和
之间,其中
是条件编码器增强后的图像色彩图,
是参考图像的色彩图。为了使模型更好的表征正常曝光图像的属性,本文使用最大似然估计来估计正则化流模型
的参数,并使用负对数似然函数(NLL)进行优化,损失函数如下:
整体的增强流程如下:首先将弱光图像通过编码器提取色彩图
,然后将编码器的中间特征图作为可逆网络的输入条件进行调整。在网络训练阶段,图像特征z可以从分布
中随机选择一个batch来得到不同的输出,并且计算这些生成图像的均值来获得更好的增强效果。在模型推理阶段,作者直接使用
作为输入z来提高推理速度。
03
实验效果
本文在两个具有代表性的图像增强数据集上进行了实验,分别LOL和VE-LOL。其中LOL包括 485张训练图像和15张测试图像。定量实验使用了三个常见的图像质量评价指标:PSNR、SSIM和LPIPS。下表对比了不同方法的增强数值效果,可以看出,本文方法均超越了目前的SOTA方法。
其中较高的PSNR值表明本文方法能够抑制伪影并更好地恢复颜色信息。SSIM值表明本文的方法更好地保留了具有高频细节的结构信息。对于LPIPS,该指标的设计理念是为了符合人类的视觉感知度量,本文方法的LPIPS值也取得了最好的结果,这表明了本文方法可以更好满足人眼的感官效果。
除此之外,上图展示了本文方法与其他方法的视觉效果对比,可以看到本文方法通过更好地抑制了人工伪影并且极大程度的保留了图像的颜色信息,实现了更高视觉质量的增强效果。
04
总结
在本文中,作者提出了一种新颖的流正则化模型来解决弱光图像增强问题。与目前基于像素级重建损失的方法不同,本文提出的以弱光图像/特征作为条件的负对数似然函数(NLL)损失函数可以更好的表征图像的结构上下文,同时其也拥有更优秀的视觉质量度量能力。凭借这些优点,本文方法可以更好地捕捉正常曝光图像的复杂条件分布,并且可以实现更好的图像弱光增强质量。
参考文献
[1] Kobyzev, I.; Prince, S.; and Brubaker, M. 2020. Normalizing flows: An introduction and review of current methods. IEEE Transactions on Pattern Analysis and Machine Intelligence.
[2] E. H. Land and J. J. McCann, “Lightness and retinex theory,” Josa, vol. 61, no. 1, pp. 1–11, 1971.
[3] Wang, X.; Yu, K.; Wu, S.; Gu, J.; Liu, Y.; Dong, C.; Qiao, Y.; and Change Loy, C. 2018. Esrgan: Enhanced super-resolution generative adversarial networks. In Proceedings of the European Conference on Computer Vision (ECCV) Workshops.
END