ICCV2021 | ArbSR：国防科大提出带尺度感知功能的新型任意尺度图像超分方案

AIWalker

发布于 2021-10-12 15:48:21

2.4K0

发布于 2021-10-12 15:48:21

文章被收录于专栏：AIWalker

arXiv:https://arxiv.org/abs/2004.03791

code: https://github.com/LongguangWang/ArbSR

一分钟概览版

本文提出一种任意尺度图像超分 方案，设计了一种“即插即用”型尺度感知上采样模块与一种尺度感知特征自适应模块，在这两个新提出的模块中用到了条件卷积(理解成动态滤波器卷积即可)以生成尺度相关的滤波器参数。

所提方案在非整数倍、非对称超分任务上可以取得非常好的结果，同时在整数倍超分任务上取得了SOTA性能。

Method

作者认为：不同尺度下的退化是不同的，而尺度信息有助于提升特征的判别能力，进而提升超分性能。为验证不同尺度下的特征相似性，作者以EDSR作为基线进行了可视化说明，对于每个位置按照如下公式计算特征相似性：

S_i(p) = \frac{1}{3} (\frac{(f_i^{x2})^T f_i^{x3}}{\| f_i^{x2}\| \|f_i^{x3} \|} + \frac{(f_i^{x2})^T f_i^{x4}}{\| f_i^{x2}\| \|f_i^{x4} \|} + \frac{(f_i^{x4})^T f_i^{x3}}{\| f_i^{x4}\| \|f_i^{x3} \|})

从上图可以看到：特征相似性会随区域以及模型深度而发生变化 。也就是说，不同区域、不同模块的恶特征对于尺度的敏感度各不相同。受此启发，我们提出了像素级特征自适应调整机制，即：对于具有高特征相似区域的特征直接用于任意尺度超分；对于低特征相似区域特征引入尺度相关信息进行特征调制。

Plug-in Module

上图给出了本文所提架构示意图，它以EDSR作为基线，然后插入尺度感知上采样与尺度感知特征自适应模块即可得到本文所提Arbitrary-scale版EDSR。

Scale-aware Feature Adaption 给定输入特征F，它首先被送入由四个卷积构成的HourGlass模块中生成引导图M(其数值范围为0-1)，然后F被送入到尺度感知卷积中进行特征调制得到调制特征

F^{adapt}

，最后基于引导图进行输入特征与调制调整融合：

F^{fuse} = F + F^{adapt} \times M

上图给出了尺度感知卷积的示意图，水平与垂直尺度因子

r_h, r_w

被送入到由两个全连接层构成的调制器中生成调制权值，然后这些调制权值与专家知识组合得到尺度感知滤波器。注：专家知识其实就是卷积核集合，通过训练确定 。所得尺度感知滤波器将对输入特征进行调制。

Scale-aware Upsampling PixelShuffle是一种广泛应用的整数倍上采样操作，它可以视作两步方案：采样步骤与空间可变滤波阶段。

本文将PixelShuffle扩展成为尺度感知上采样模块，见上图。首先，对HR空间的每个像素

(x,y)

计算其在LR空间的坐标

L(x), L(y)

以及相对距离

R(x),R(y)

L(x) = \frac{x+0.5}{r_h} - 0.5 \\ R(x) = L(x) - \text{floor}(\frac{x+0.5}{r_h})

然后，

R(x),R(y),r_h,r_w

拼接后送入到两个全连接层中进行特征提取(见Fig5-b)，所得特征将用于预测权值与偏置；其次，所预测权值将用于组合两组专家知识得到成对滤波器参数；最后，所得滤波器参数将被用于对输入特征卷积生成输出特征，见Fig5-c。

Experiments

上表给出了对称尺度超分的性能对比，从中可以看到：

在整数倍超分方面，ArbEDSR、ArbRDN、ArbRCAN均取得了与基线模型相当的性能；
对于非整数倍超分，所提方案显著优于基线模型；
相比Meta-RDN与Meta-RCAN，所提ArbRDN与ArbRCAN取得了相当甚至更好地性能，同时具有更好的计算效率、更低的内存占用。

上图给出了对称尺度超分的视觉效果对比，可以看到：ArbRCAN具有更好的视觉感知质量、更少的伪影、更清晰的细节。

上表与图给出了非对称尺度超分下的性能与视觉效果对比，可以看到：

所提ArbRCAN具有比基线模型以及Meta-RCAN更高的指标、更低的内存占用、更快的推理速度。
所提ArbRCAN生成的结果具有更锐利的边缘、更好的视觉感知结果。

上图给出了真实场景图像的不同倍率超分效果对比，可以看到：ArbRCAN生成结果具有更好的感知质量。

后记

ArbSR是2020年4月8号首次上传到arXiv(暂且称之为ArbSRv1)，不过当时那个版本的与本文有一些区别（不过两个版本的性能基本相当），见下图红框。当时看到这篇文章第一感觉：动态卷积+动态形变卷积。

本文解读版是2021年7月23号上传到arXiv(暂且称之为ArbSRv2)，此时已被ICCV2021接收。相关实现code也在前几天开源了，所以就稍微花了点时间看了下并做记录。

整体架构与思想上两者其实非常相似，但是本质上的区别还不小：

在尺度感知卷积方面，ArbSRv1是直接进行卷积核的预测(用的是动态滤波器的思想)，而ArbSRv2则是预测不同weight的融合系数(用的是条件卷积的思想，与CondConv类似)，两者虽然都是动态卷积，但本质不同。
在尺度感知上采样方面，ArbSRv1是直接进行卷积核以及offset的预测(用的同样是动态滤波器)且offset将被用到采样阶段；而ArbSRv2在offset的预测与应用方面相似，不过卷积核预测方面引入了bottleneck思想进行了两次卷积，同时用到了残差思想。

此外，ArbSRv1在训练阶段还用到了知识迁移机制(见下图)，而ArbSRv2并未使用该机制，而只是用基线模型进行参数初始化。

补充，两者的出发点虽然类似，不过呈现方式不太一样，下图是ArbSRv1在特征相似可视化方面的对比。从这个角度看：纹理丰富的区域尺度无关，而纹理较少的区域存在尺度相关(译自原文)。不应该是：纹理丰富区域尺度相关，平坦区域尺度无关吗？？？动机这块说明的貌似不太好，可能也是个人理解不到位。可能这也是作者低ArbSRv2中换了一种可视化的原因吧。