2021年新出炉的文章,张凯大哥等人写的。
研究目的:目的是设计一个更复杂但实用的退化模型(包括随机混合模糊、下采样和噪声退化);
核心议题:如何构建一个实际的图像降级模型;
超分网络backbone:ESRGAN
主要对比方法:2019年的模型FSSR,2020年的模型Rral-SR;
图像质量的评价指标:有参:PSNR(峰值信噪比)、SSIM(结构相似性)、LPIPS(学习感知图像块相似性,也成为感知损失)。无参:NIQE(自然图像质量评价器)、NRQM、PI(评估图像锐度、噪声、伪影和整体的质量);
PSNR:主要衡量的是算法结果SR图像与HR图像对应像素距离的接近程度,应用范围很广,但容易出现与perceptual quality不一致的情况。 SSIM:从亮度、对比度和结构相似度三个方面来衡量SR图像与HR图像的差异。相比于PSNR,SSIM评估指标能更好的衡量图像的视觉质量。 IFC:信息保真度准则利用SR图像与HR图像的互信息进行评估。 LPIPS:在特征空间中计算SR图像与HR图像的L2距离,能与人眼主观评估保持较好的一致性。特征获取一般是通过深度学习模型。 NIQE:利用多元高斯模型拟合提取的图像特征,计算两个多元高斯模型的距离来衡量图像质量。 PIQE:人眼对图像空间中某些重要区域更为关注,将测试图像分成多个非重叠块,然后执行block-level分析来识别块的失真与等级。 NRQM:先提取图像的局部频域特征、全局频域特征和空间特征,然后分别训练3个随机森林模型,最后通过线性组合这3个随机森林模型的结果得到最终的感知得分。 从上可知,PSNR、SSIM、IFC、LPIPS等指标都需要参考图像,即质量评估分不仅需要利用到模型输出的SR图还需要真实HR图。NIQE、PIQE和NRQM则不需要参考图像。 参考:图像超分Real-World Single Image Super-Resolution: A Brief Review - 知乎
核心思路:
围绕着上述退化模型的三个因子:K为模糊核、S为降采样核、N为噪声。随机安排各因子的执行顺序(eg.KSN、NKS、SNK、SKN、NSK、KNS)。同时,每个因子又有不同的方法(eg.将降采样核S可以采用以下任一种方式:双三次、最近邻、双线性等等),可以从这些方法中为每个因子随机选取一种。此时,便可通过两种随机过程构建出退化模型。
要点1:忽略模糊核在构建HR-LR对时的影响,能够注入符合实际情况的噪声对构建HR-LR对是至关重要的。
为遵循论文的表述,我们将模糊核记为B(blur),降采样核记为D(downsample),噪声记为N(noise)。各因子及各因子所包含的方法如下:
模糊核B:各向同性的高斯模糊核iso、各向异性的高斯模糊核aniso; 降采样核D:最近邻插值nearest、双线性插值bilinear、双三次插值bicubic、上下缩放up-down; 噪声N:高斯噪声G、JPEG压缩噪声JPEG、传感器噪声S。
退化模型如下:
另外需要说明的一点是,上述退化模型是真的2倍缩小的图像的。如果要进行4倍退化,需要在所有随机退化(Degradation Shuffle)步骤之前先通过双三次或双线性对图像进行2倍缩小,然后在进行模型退化,便可得到4倍退化结果。
以下是一些效果图:
数据集:
使用了DIV2K、Flick2K、WED和FFHQ数据集来训练他们的BSRNet和BSRGAN模型。此外,他们还建立了两个测试数据集,包括合成的DIV2K4D数据集,它包含四个子数据集,总共400张图像,由100张DIV2K验证图像生成,具有四种不同的退化类型;以及真实的RealSRSet数据集,它包括20张真实图像,从互联网上下载或直接从现有测试数据集中选择。
在本文中,我们设计了一个新的退化模型来训练深度盲超分辨率模型。具体来说,通过使每个降级因素(即模糊、下采样和噪声)更加复杂和实用,并且还通过引入随机混洗策略,新的降级模型可以覆盖在真实世界场景中发现的宽范围的降级。基于新的退化模型生成的合成数据,我们训练了一个用于一般图像超分辨率的深度盲模型。在合成图像和真实的图像数据集上的实验表明,深度盲模型在被各种退化破坏的图像上表现良好。我们相信,现有的深度超分辨率网络可以受益于我们的新退化模型,以提高其在实践中的实用性。因此,这项工作提供了一种解决盲超分辨率的真实的应用。