【盲图像超分】IKC解析与深度思考

AIWalker

发布于 2021-09-17 14:06:35

1.4K0

发布于 2021-09-17 14:06:35

文章被收录于专栏：AIWalker

点击下方卡片，关注“AIWalker”公众号

CV干货，第一时间送达

【AI侃侃】知道IKC 一文有一年多，但一直没有深入看过论文，code也未曾仔细看过，潜意识中认为IKC太复杂了，所以一直拖、一直拖，直到看了DAN的两个版本，看到了DAN中附带了IKC的code，才觉得IKC可能是与DAN相类似的方法。趁着周末，花了近一天时间去看了IKC的原理以及code。

arXiv:https://arxiv.org/abs/1904.03377 code: https://github.com/yuanjunchai/IKC

Abstract

因其优异的有效性与高效率，深度学习已成为图像超分领域主流方案。现有图像超分方案往往假设下采样过程中的模糊核是固定/已知(比如bicubic)。然而，实际应用场景中的退化模糊核往往是复杂且未知的 ，进而导致已有方案在实际应用中的严重性能退化。

本文提出一种迭代核估计方法用于盲超分中的模糊核估计。 本文思想源自：核不匹配会导致有规律的伪影(过度退化或者过度模糊)，而这种规律可以用于对不精确的模糊核进行校正 。因此，我们提出一种迭代校正机制IKC，它可以取得比直接核估计更好的结果。与此同时，我们还提出一种基于SFT(Spatial Feature Transformer)的超分网络SFTMD用于处理多模糊核。

合成数据与真实场景上的实验表明：所提SFTMD+IKC可以生成视觉友好效果，同时在盲超分领域取得了SOTA性能。

本文主要贡献包含以下几点：

提出一种直观且有效的深度学习框架用于模糊核估计；
提出一种基于SFT的非盲超分模型用于多模糊核图像超分；
所提SFTMD+IKC在盲超分领域取得了SOTA性能。

Method

Problem Formulation

盲图像超分问题可以描述如下：

I^{LR} = (k \otimes I^{HR}) \downarrow_s + n

已有研究往往采用各项同性高斯模糊核，此外，各项异性模糊核(可视作运动模糊+各项同性模糊核的组合)也开始得到关注。为简单起见，本文主要聚焦于各项同性模糊核 。延续SRMD，我们采用了高斯模糊+bicubic下采样 退化方式。在真实场景中，LR图像往往还存在加性噪声退化。噪声假设同样延续了SRMD中的高斯分布。

Motivation

接下来，我们将思考正确模糊核在超分过程中的重要性 。假设

\mathcal{F}(I^{LR}, k)

为带核信息输入的预训练超分模型，当输入正确模糊核，生成的超分图像不会存在伪影。盲超分问题就等价于寻找合适的模糊核以使得超分模型生成视觉友好的结果

I^{SR}

。一种直接的方案是采用预测器(Predictor)

k^{'}=\mathcal{P}(I^{LR})

直接从LR估计模糊核

，该预测器可通过最小化

l_2

损失得到：

\theta_{\mathcal{P}} = argmin_{\theta_{\mathcal{P}}} \| k - \mathcal{P}(I^{LR};\theta_{\mathcal{P}}) \|_2^2

然而，对模糊核

进行精确估计不太可能。此外，超分模型对于估计误差非常敏感，不精确的模糊核会导致生成的结果包含伪影。

上图给出了超分模型关于核不匹配的敏感性可视化图，从中可以看到：

当超分模型中的核比真实核锐利时，即

\sigma_{SR} < \sigma_{LR}

，超分结果会过于模糊；

当超分模型中的核比真实核模糊时，即

\sigma_{SR} > \sigma_{LR}

，超分结果会过度锐化；

当超分模型中的核与真实核相当时，即

\sigma_{SR} \approx \sigma_{LR}

，超分结果更为自然。

为解决核不匹配问题，我们提出了迭代校正模糊核以得到无伪影超分结果。为校正估计模糊核

，我们构建了一个Corrector度量估计核与真实核之间的差异。核心思想在于：**利用中间超分结果进行模糊核校正** 。Corrector可以通过最小估计核与真实核之间的

l_2

损失优化：

\theta_{\mathcal{C}} = argmin_{\theta_{\mathcal{C}} } \|k - (\mathcal{C}(I^{SR};\theta_{\mathcal{C}} ) + k^{'}) \|_2^2

Corrector基于超分结果的特征对模糊核进行调整，调整后的模糊核又将优化超分模型以得到具有更少伪影的结果。

上图给出了迭代次数与性能的对比，可以看到：

仅仅一次校正的结果并不是非常好；
多次迭代可以有效提升PSNR/SSIM指标，直到达到饱和。

Proposed Method

Overall Framework 所提IKC方案包含超分模型

\mathcal{F}

、预测器

\mathcal{P}

以及校正器

\mathcal{C}

。下图给出了IKC的实现伪代码。

Network Architecture of SR Model

\mathcal{F}

作为最成功的处理多模糊核退化的超分方案，SRMD将输入图像与退化信息拼接到一起作为模型输入，然后通过级联卷积与PixelShuffle进行图像超分。然而，SRMD中的拼接方式并非仅有的、也并非最优选择，原因有二：

核map并不包含图像信息，直接采用聚氨基对其处理可能会引入与图像无关的干扰；
核信息的影响仅在第一层得到了体验，深层特征难以收到该核信息的影响。

为解决上述问题，我们提出了一种基于SFT的超分模型SFTMD，SFT通过对特征执行仿射变换提升模糊核的影响，该仿射变化并不是直接包含在图像处理图像中，因而可以提供更好的性能。

上图给出了所提SFTMD架构示意图，它通过引入SFT对SRResNet进行扩展。SFT则基于模糊核特征

\mathcal{H}

对于特征F进行仿射变换：

SFT(F,\mathcal{H}) = \gamma \odot F + \beta

注：仿射变换系数

\gamma, \beta

通过另一个轻量CNN计算得到。

**Network Architecture of Predictor **

\mathcal{P}

**and Corrector **

\mathcal{C}

预测器与校正器的网络架构见下图。预测器由4个卷积层(后接LeakyReLU)+GAP组成；校正器则同时将超分图像与已有估计

作为输入。

Experiments

我们按照前述退化模型合成训练数据集，各项同性高斯模块的核宽分别为

[0.2,2.0],[0.2,3.0],[0.2,4.0]

以对应x2、x3以及x4，核尺寸固定为

21\times 21

；当应用于真实图像时，我们添加了

\sigma=15

的加性高斯噪声。训练数据为DIV2K+Flickr2K。

为定量评估所提方案，我们还提供了一个测试集Gaussian8：它包含8个各项同性模糊核，核宽范围分别为

[0.80,1.60],[1.35,2.40],[1.80,3.20]

。

SFTMD与IKC均在合成训练数据集上进行训练。首先，采用MSE训练SFTMD；然后，固定SFTMD参数，交替训练预测器与校正。

Experiments of SFTMD

上表对比了所提SFTMD与其他盲超分方案的性能，从中可以看到：

相比SRCNN-CAB与SRMD，所提SFTMD在所有配置与数据集上均取得了显著性能提升；
相比两个基于SRResNet的基线模型，所提SFTMD同样取得了最佳结果。

Experiments on Synthetic Test Images

上表给出了Gaussian8数据集上不同方案的性能对比，从中可以看到：

当退化核非bicubic时，在bicubic下采样退化下表现好的模型出现了严重的性能下降；
尽管无核校正的的方案已经取得了与现有方案相当的结果，但是，提升迭代次数仍可极大提升模型性能。

上图对比了模糊核迭代校正过程中的超分结果，可以看到：

直接采用预测器估计的模糊核生成的结果并不好，或者过于模糊或者存在振铃伪影；
随着迭代次数提升，PSNR指标逐渐提升，同时视觉效果也逐渐变好。

上表对所提方案的泛化性能进行了验证，从中可以看到：

所提IKC仍可保持其性能 ，说明IKC具有良好的泛化性；
移除PCA会造成性能下降，说明PCA有助于提升IKC的泛化性。

Experiments on Real Image Set

上图对比了不同方案在真实图像上的超分效果，可以看到：尽管退化模糊核未知，IKC仍可生成无伪影、边缘锐利的超分结果 。

上图提供了通过网格搜索优化模糊核+SRMD与IKC在Chip图像上的超分结果对比，从中可以看到：

尽管SRMD具有更锐利边缘、高对比度，但存在轻度伪影；
IKC可以自动生成视觉友好的超分结果，尽管对比度稍低，但仍具有锐利而自然的边缘。

个人思考

因为最近一年确实看过不少盲超分的paper，所以第一遍看完IKC后只感觉不过如此。在做笔记时，思考了IKC这一类方案的时间线时才真的意识到IKC的巧妙之处。

上图简单梳理了自SRMD以来用于多模糊核退化的图像超分方案，SRMD、DPSR、USRNet、DPIR以及MANet是Kai Zhang及其团队成员的工作，IKC则是Jinjin Gu、Chao Dong团队的成果，DANv1&DANv2是中科院Tieniu Tan团队的成果。

SRMD首次成功的将核先验、噪声先验信息嵌入到超分模型中 ；而后续的工作则针对模糊核的迭代估计进行探索，后续的工作延续了两条不同的路线：

路线一：基于MAP思想进行迭代估计，像DPSR、USRNet以及DPIR采用了类似的思路，将传统方法MAP逐渐嵌入到迭代优化中；
路线二：基于CNN进行迭代估计，像IKC、DANv1以及DANv2均采用了深度学习的思想进行模糊核的迭代优化。

作为路线二的探索者，IKC以核不匹配造成的伪影 作为切入点，深入分析了估计核与真实核之间过渡时的现象，提出了模糊核迭代优化机制IKC。针对SRMD中核先验与LR图像的拼接处理方式可能存在弊端(核信息只影响一次、对深层难产生影响)，引入SFT以加深核先验的影响。

当然，作为“吃螃蟹”的工作，它肯定会留下一些“坑”留给后来者去填。这些坑是啥呢？感兴趣的可以先去看一下DANv2，或者等待笔者的解读亦可。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2021-09-12，如有侵权请联系 cloudcommunity@tencent.com 删除

编程算法

本文分享自 AIWalker 微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

编程算法

登录后参与评论

0 条评论

热度