注:原解读文发于 2021/09/14
arXiv https://arxiv.org/pdf/2108.05302.pdf,
code:https://github.com/JingyunLiang/MANet
这篇文章是ETH团队在盲图像超分之空间可变模糊核估计 方面的工作,已被ICCV2021接收。针对实际应用场景中模糊核的空间可变性,提出一种新的空间可变模糊核估计方案MANet。从退化的局部性角度发出,对现有方案的局限性进行了分析,同时提出MAConv解决小模型的弱表达能力问题。相比已有模糊核估计方案,所提方案取得了显著性能提升;当与非盲图像超分方案组合后,将盲图像超分性能推到了新的高度。
现有盲图像超分往往假设模糊核具有空间不变性,然而这种假设在真实图像中很好碰到:真实图像中的模糊核由于目标运动、虚焦等因素通常是空间可变的 。因此,现有盲超分方案在实际应用中的性能非常非常有限,甚至导致比较差的效果。
为解决上述问题,本文提出MANet(Mutual Affine Network)用于空间可变模糊核估计。具体来说,MANet具有两个固有特性:
合成数据与真实数据上的实验表明:MANet不仅优于空间可变与不变核估计,同时当与非常盲超组合后将盲超分性能提升到了新的高度。
本文主要贡献包含以下几个方面:
),它可以较小LR图像块上估计模糊核,其可精确估计的核尺寸为
。
LR图像
通过对HR图像
执行退化模型得到,当模糊核为空间不变类型时,两者之间的关系可以描述如下:
对于盲超分来说,HR图像
与模糊核
均是未知的。由于有很多对HR图像
与模糊核
可以生成相同的LR图像
,该问题是一种“病态(ill-posed)”问题。当模糊核具有空间可变性后,问题的“病态性”变得更为严重。
采用不同核模糊的图像块具有不同的分布特性。KernelGAN通过GAN方案对该属性进行了探索,然而它仅适用于空间不变核估计,对于小图像块无法进行有效核估计。再向前走一步,我们提出了直接从图像块估计模糊核。
Overall Framework 现代神经网路通常堆叠多个层以构建具有更大感受野的深度模型。然而,对于空间可变核估计任务,我们需要保持退化的局部性。因此,我们提出带适度感受野的MANet。
上图给出了MANet架构示意图,它包含特征提取与核重建两个模块。特征提取模块是一种类似UNet架构,由卷积、残差模块以及上/下采样构成;核重建模块由卷积、Softmax以及最近邻插值构成。预测得到的模糊核表示为
。基于上述架构设计,MANet的感受野为
。
Mutual Affine Convolution 一般来讲,小感受野意味着小网络、弱表达能力。一种可能的方案是提升通道数量,但这会带来指数级的参数量与计算量提升。为解决该问题,我们提出了MAConv,见下图。
假设
,我们首先沿通道维度将其拆分为S组:
对于
,我们采用
为其互补信息。我们将上述两者送入到仿射变换模块中进行处理:
在完成上述变换后,我们采用
卷积生成特征
。最后将所得特征进行拼接生成MAConv的输出:
MAConv通过互仿射变换探索了不同通道之间的相互关系,这种设计可以有提升特征表达能力,同时极大降低模型大小与计算复杂度。下表对比了卷积、组卷积以及MAConv在参数量、内存占用、FLOPs以及推理耗时方面的对比。注:由于仿射变换不会提升感受野,MAConv的感受野仍为
;而稠密与SE模块会导致感受野极大提升而不适合于核估计。
此外,从上表还可以看到:
。
Loss Function . 在损失函数方面,我们采用了简单的MAE(即L1损失):
上图对比了测试图像上的核估计结果,可以看到:对于非平坦区域,MANet可以精确估计模糊核;而对于平坦区域,MANet倾向于生成固定核。
上图给合成图像上的核估计对比,可以看到:MANet可以从
图像块上精确估计模糊核,当块尺寸提升后性能进一步提升。
在真实应用场景,图像还可能存在噪声与压缩伪影。为测试在更复杂场景下的核估计性能,我们在训练过程中添加高斯与JPEG压缩噪声并在不同噪声水平下进行测试,参见上表。从表中可以看到:相比无噪情况,尽管出现了性能下降,但LR图像的PSNR范围仍为40.59-45.45dB,这无疑说明了所提方案在重度噪声干扰下的核估计性能。
上表对比了不同盲超分方案的性能,从中可以看到:
上图给出了几种方案在空间可变核与真实场景数据上的视觉效果对比,从中可以看到:MANet可以生成具有最佳视觉效果的结果 ,而其他方案要么存在过度模糊,要么存在过度锐化问题。
在推理速度与内存占用方面,所提MANet仅需0.2s与0.3GB显存占用(Tesla V100 GPU);相反,KernelGAN需要93s,占用1.3GB显存;IKC需要15.2s,占用2.0GB显存。
上表对比了空间不变超分方案的性能,从中可以看到:
Different Numbers of MAConv Layers. 上图a与b对比了MAConv层数变化的影响,此时感受野从
提升到了
。从对比可以看到:小感受野的MANet可以更精确的估计模糊核,而大感受野反而无法精确估计 。这与我们的分析相一致:当模型具有大感受野时,它会将远离中心的像素纳入到核估计过程,造成核估计性能下降。大感受野并非空间可变核估计的期望属性。
Kernel Loss vs LR Image Loss . 上图a与c对比了两种损失的影响,从对比可以看到:当采用KernelLoss训练时,MANet可以成功的进行模糊核估计;而采用ImageLoss训练时,MANet则无法进行有效估计。
上面的内容主要针对模糊核估计MANet进行介绍,那么超分网络是什么样的呢?文章也只提到是RRDB的SFT变种,笔者从补充材料中找到了网络结构的图示,见下图。
从上图可以看到:模糊核部分延续了SRMD的作风,采用PCA对估计到的模糊核进行降维;但在与超分网络结构方面则使用了SFT机制,而非SRMD中的处理机制。下图为SRMD的结构示意图,可以看到:模糊核与图像的结合仅在网络开头部分进行了一次结合。后来的一些可调制图像复原方案大多采用了多阶段融合思想,比如CFSNet、CResMD等。