标题&作者团队
paper: https://arxiv.org/abs/2012.10102
该文是南京大学&腾讯优图在RealSR领域的又一力作。该文从bicubic退化与真实退化之间的频率密度分布差异入手,揭示了现有超分方案在真实场景数据上表现差的原因;在此基础上,作者提出了一种新颖的频率自适应生成器预测具有频率一致性的模糊核并用于制作LR-HR数据对,所制作的训练数据对用来对现有超分方案进行训练。由于训练数据具有与真实场景数据的频率密度分支一致性,所得模型在真实场景数据上具有更佳的表现。该文为缩小合成数据与真实场景数据提供了一个非常桥面的思路,值得各位同学了解一下。
基于深度学习的图像超分方案在已知退化方式的数据上取得了卓越的效果,然而这些方法在真实场景中性能急剧下降(主要原因在于:理想的退化方式与真实退化方式的偏离)。这种退化方式方面的偏移可以通过频率密度观测到,这种频率密度方面的差异启发了作者去探索如何缩小不正确退化导致的偏离。
作者设计了一种新颖的频率一致自适应(Frequency Consistent Adaptation, FCA)以确保现有超分方案在真实场景应用时的频域一致性。作者在无监督图像上估计退化核并用于生成对应的LR图像;为了给核估计提供有用的梯度信息,作者提出了频率密度比较器(Frequency Density Comparator, FDC)以判别不同尺度图像的频率密度。基于域一致性的LR-HR数据对对现有超分方案进行训练。
作者通过充分的实验表明:在真实场景应用中,所提FCA可以提升现有超分模型的性能并取得了SOTA结果,同时具有更好的保真度&视觉感知效果,也为RealSR提供了一种新颖的有效方案。
image-20201228113658657
上图给出了所提方案在智能手机拍摄的真实场景下的效果对比,可以看到:FCA方案具有最佳的视觉效果。该文的主要贡献包含以下三个方面:
在正式介绍本文所提方案之前,我们先来看一下为何已有方案在真实场景的效果比较差。下图给出了现有超分模型的数据制作、模型训练以及测试的流程图。
然而,由于训练数据与真实场景数据之前的退化方式差异问题,按照上述流程训练的模型在真实场景数据上的表现差强人意。下图说明了训练数据与测试数据之间的退化方式不一致时导致的问题示意图,可以看到:只有退化方式相一致时,训练的超分模型效果方能达到期望效果。
我们先从宏观角度来看一下超分问题的定义,假设LR图像通过如下退化方式得到:
其中
分别表示模糊核与噪声。基于上述退化LR-HR数据对,理想的超分模型表示如下:
上图给出了不同模糊核、不同尺度缩放图像的频率密度分布,这里的频率密度计算方式如下:
其中
表示域X中图像在频率l的密度,通过计算图像的傅里叶变换并对沿特定维平均得到
。退化方式与频率密度的这种相关性启发了作者聚焦于估计模糊核k,该过程可以描述为:
其中x表示源域的图像,
表示频域正则。然而,傅里叶变换难以直接嵌入到网络结构中。受益于频率一致性损失,FCA可以制作出与源域频域一致的LR图像,而HR则直接从源域得到。通过这种方式构建的LR-HR数据对将用于训练超分模型,注:这样得到的模型与域具有绑定关系。
image-20201228134008981
上图给出了本文所提方案的整体框架,它包含三个模块:
Adaptation Generator 对于输入图像x,生成器首先分析其退化方式并输出各向异性高斯模糊核;然后预测模糊核将于x的下采样结果卷积得到LR图像。该过程描述如下:
其中
表示模糊核估计器。更确切的讲,作者将其描述成如下形式:
其中
分别表示模糊核的水平半径、垂直半径以及旋转角度,而
表示各向异性高斯核。
Frequency Density Comparator 正如上图所示,FDC用于捕获两个输入块之间的频率密度相关性。对于输入图像x,其下采样与上采样均可能导致频率分布发生变化。此时的频率密度关系如下:
其中
分别表示下采样与上采样,C表示所提的比较器,
表示另一个源域图像块。比较器的优化可以表示如下:
注:FDC需要具有在粗粒度方面比较频率密度的能力。为得到一个细粒度的FDC,作者提出动态的缩小其分类边界(通过调整上采样与下采样的尺度,即由大到小)。
Frequency Consistent Loss FDC为生成提供了频率一致性损失,定义如下:
确保了生成器位于频率上边界
与下边界
范围内。生成器距离定义确保了模糊核估计尽可能的接近真实退化模糊核。
Curriculum Learning Strategy 为了对生成器提供稳定而精确的梯度信息,作者采用了“课程学习”的思路进行训练,也就是说:通过逐步提升难度,将频率密度比较器的训练划分为多个阶段。通过动态调整尺度因子(由大到小,比如3.5-->1.2)。作者采用了FDC与生成器同时训练的方式以确保每个batch的输入块具有相似的频域分布。
Wavelet Discriminator 除了上述损失外,作者还引入了对抗损失以使得LR尽可能与源域高频分布相近。作者对高频空间添加了对抗损失,这里的高频与低频通过小波变换方式进行分离。这里采用的判别器的比较浅,只有4层;另外需要注意,作者在这里采用了LSGAN。判别器的优化描述如下:
经由判别器传递给生成的对抗损失描述如下:
正如前面所提刀的信息,整体损失包含两部分:频域一致性损失
与对抗损失
。
其中,
表示两个损失的权值,默认值分别为1与0.001。
在网络结构方面,生成器的输入为
,尺度因子为4,高斯核尺寸为
,最大方差为9。课程学习过程中的上采样与下采样尺度因子从3.5逐渐下降到1.2。HR图像通过对原始图像进行bicubic下采样(x2)得到,注:这种处理方式有助于降低模糊。
在训练数方面,作者采用了DIV2K与DPED两个数据集;在评价准则方面,作者选用了PSNR、SSIM以及LPIPS。
为验证所提方法的有效性,作者设计了四种不同类型的退化核:
;
;
)各项同性高斯核;
)
作者在上述四种类型退化合成数据上训练FCA,然后构建HR-LR数据对用于训练RCAN与ESRGAN,性能对比见上表。与此同时,作者还提供了超分的性能上界。可以看到:所提FCA确实大幅提升了现有超分在真实场景数据上的性能。
下图给出了所提方法在合成数据上的视觉效果对比,可以看到:所提FCA可以成功的重建真实细节,同时具有更高的视觉感知质量。
image-20201228141803907
最后,作者还提供了所提方案在真实场景数据上的超分效果对比。可以看到:所提FCA方案具有最佳的超分效果,而其他方法超分结果要么过于模糊,要么产生严重的负面效果.
image-20201228142749879
全文到此结果,如有兴趣,建议各位同学查看原文以了解更多消融实验结果与分析。