近距离接触盲图像超分：退化模型、基线以及性能上限

AIWalker

发布于 2022-06-24 14:21:31

1.7K0

发布于 2022-06-24 14:21:31

文章被收录于专栏：AIWalkerAIWalker

退化模型在盲图像超分中起着非常重要的作用，经典的退化模型近聚焦于模糊导致其在现实场景的应用能力有限。BSRGAN与Real-ESRGAN的实用性退化模型为盲图像超分的退化模型研究掀开了新的篇章，极大程度提升了图像超分在现实场景的应用。

BSRGAN：ETH开源业内首个广义盲图像超分退化模型，性能效果绝佳

Real-ESRGAN: ESRGAN插上高阶退化空间的翅膀走向更广义的空间

但是，BSRGAN与Real-ESRGAN中的退化模型主要聚焦于复杂退化实例，而忽视了现实场景中常见的边界实例(如噪声+模糊的组合)，可理解为退化基的非全组合。

为解决该问题，香港理工大学、深圳先进技术研究院以及上海AI Lab的研究员提出了一种带门控的统一退化模型，它可以通过随机门控生成更广泛的退化实例。

出发点

尽管盲图像超分已得到广泛的研究，但仍有三个关键问题并未得到很好的探究：

广义退化模型的设计覆盖了大部分/全部退化实例。现实场景的退化过程具有高度随机性，而现有的退化模型近考虑有限的退化实例。经典的退化模型仅考虑了模糊退化，实用型退化模型则仅聚焦于复杂退化实例。
强基线模型可以很好的处理大部分退化实例。优于缺乏统一的退化模型，现有方案难以在不同退化实例下均表现优秀。一个可以处理不同退化实例的强基线方案就变的亟需。
关于盲超分方案性能上限的研究。由于缺乏盲超分上限的定量研究，导致难以评价盲超分方案对特定退化实例具有足够好的表现。

带门控机制的实用退化模型

本文提出了一种带门控的统一实用退化(unified Gated Practical Degradation GD)模型 : 它通过门限机制生成不同的退化组合以尽可能覆盖现实场景中的退化实例。在引出本文退化模型之前，我们先看一下经典退化模型与实用型退化模型。

经典退化模型可以表示为如下形式：

I^{LR} = D_{k,n,j}(I^{HR}) = [(k \otimes I^{HR}) + n]_j

实用型退化模型(如BSRGAN、Real-ESRGAN) 可以表示成如下形式：

I^{LR} = D_p(I^{HR}) = (D_1 \circ D_2 \circ D_c \cdots D_m) (I^{HR})

注：

D_i \in \{D_k, D_n, D_j, \cdots\}, \forall i \in \{1, \cdots, m\}

表示退化基。

由于**实用型退化模型近考虑了复杂退化实例(即退化过程中使用了几乎所有的退化基)，而忽视了现实场景中常见的边界实例(即退化基的非全组合)**。受此启发，本文通过引入门限机制提出了统一退化模型(可参考上图)，表示如下：

I^{LR} = D_g(I^{HR}) = (\sigma_g(D_1) \circ \sigma_g(D_2) \circ \sigma_g(D_3) \cdots \sigma_g(D_m))(I^{HR}) \\ \sigma_g(D_i)(I^d) = \begin{cases} D_i (I^d), &g=1 \\ I^d, &g=0 \end{cases}

可以看到：当所有门控g=1 时，该退化模型等价于实用型退化模型；当所有门控g=0时，它则退化为传统非盲超分。也就是说，该退化模型是一个包含非盲退化、经典盲退化与使用退化的统一退化模型。

至于代码实现，这个就非常简单了，可基于Real-ESRGAN的code进行"魔改"，下面提供了一个参考。

 ############## add blur ################### 
 
 # self.opt['gate_blur_prob'] = 0.5
 
 if np.random.uniform() < self.opt['gate_blur_prob']:
     out = filter2D(self.gt, self.kernel1)
 else:
     out = self.gt

盲超分性能上限分析

参考FAIG一文，我们训练一个BSRNet-FAIG与五个特定退化下的模型(即性能上限)，结果见上表，可以看到：相比性能上限，该BSRNet-FAIG的PSNR指标下降约0.3dB。这种程度的性能下降在盲超分中是可以接受的，这促使我们进一步探究盲超分的学习能力。

上图给出了不同退化下超分的性能对比，从中可以看到：

BSRNet-PD在边界实例上出现了严重性能下降(如bic、b2.0、n20、b2.0n20)，而在b2.0j60与n20j60下的性能下降较小；在复杂退化实例b2.0n20j60方面，BSRNet-PD与性能上线的差异仅为0.09dB。这是因为PD主要聚焦于blur、noise以及JPEG的组合退化。
BSRNet-GD在边界实例b2.0与b2.0n20方面可以取得0.82dB与0.63dB的性能提升，在其他边界实例上的性能也非常接近性能上限。但是，BSRNet-GD在b2.0b20j60退化实例上的性能比BSRNet-PD下降了0.15dB。
从视觉效果角度来看，在b2.0与n20退化实例方面，BSRNet-GD可以生成更多纹理；在b2.0n20j60退化实例方面的性能牺牲可以接受(差异极小，几乎无法区分)。
总而言之，相比PD模型，所提GD模型以复杂退化实例的轻微性能下降达成所有边界退化实例上的大幅性能提升，且相比性能上限性能下降较小。