《Perceptual Extreme Super Resolution Network with Receptive Field Block》
Perceptual Extreme Super Resolution Network with Receptive Field Blockopenaccess.thecvf.com
NTIRE2020极限超分赛道的冠军。
研究背景:单图像超分辨率重建,旨在恢复丢失的高频细节,同时保持内容一致性。大多数超分辨率网络架构都是基于提高峰值信噪比(PSNR)值来设计的。然而,PSNR导向方法重建的图像特别平滑,缺乏高频细节。为了改善超分辨率结果的感知质量,提出了基于感知的方法。生成对抗网络(GAN)被引入到超分辨率中以更自然地生成结果。
研究目的:目的是解决单幅图像的感知极端超分辨率的难题,因为不同图像的纹理细节差异很大。
研究思路:这项研究的主要贡献包括将感受野块(RFB)应用于超分辨率,以提取多尺度信息并增强特征可分辨性;在RFB中使用多个小内核代替多尺度感受野块中的大卷积内核,以提取详细特征并减少计算复杂度;在上采样阶段交替使用不同的上采样方法,以减少高计算复杂度,同时仍保持令人满意的性能。研究人员还使用了10个不同迭代模型的集成来提高模型的鲁棒性并减少每个单独模型引入的噪声。
研究结果:实验结果表明RFB-ESRGAN具有优越的性能。根据NTIRE 2020感知极端超分辨率挑战赛的初步结果,他们的解决方案在所有参赛者中排名第一。
评价指标:峰值信噪比(PSNR)、结构相似性(SSIM)、学习感知图像块相似度(LPIPS)和感知指数(PI)。(这些指标用于评估重建图像的锐度和保真度。其中,PSNR和SSIM越高越好,而LPIPS和PI越低越好)。
数据集:其中一个数据集是NTIRE 2020感知极端超分辨率挑战赛提供的DIV8K数据集,它包括1500张高分辨率图像,分辨率从2K到8K不等。此外,研究人员还使用了其他数据集来丰富训练数据,包括来自DIV2k数据集的800张图像、来自Flickr2K数据集的2650张图像和来自OST数据集的785张图像。
极限超分需要解决纹理细节问题。
本文提出了3个改进点:
1、引入Receptive Field Block(RFB)到超分中,平衡小计算量和大感受野的问题,能抽取很细节的特征;(RFB在目标检测、图像识别上已经验证过其强大能力)。
2、交替使用Nearest Neighborhood Interpolation(NNI)和Sub-pixel Convolution(SPC)的上采样操作实现的超分,实现空间信息和深度信息的良好交融,不至于极限超分而损失细节性能。
3、使用权重平均的方法,对训练过程中10个优质模型进行融合,提升模型抗噪能力和鲁棒性。
整体和ESRGAN一致:
所提出的网络结构由图1所示的5个部分组成,即第一卷积模块、Trunk-a模块、Trunk-RFB模块、上采样模块和最终卷积模块。
Trunk-a是原ESRGAN中RRDB结构,论文使用16个block,每个block由5层卷积组成:
RRDB:dense connection + residual scaling + small initialization.
Trunk-B就是引入RFB后的RRFDB (Residual of Receptive Field Dense Block) 结构,论文使用8个block,每个block由5层RFB组成:
就只是把RRDB中的conv层换成RFB层。
上采样部分,先使用一层RFB进行特征融合,然后交替使用NNI ( Nearest Neighborhood Interpolation 最近邻插值) 和 SPC(Sub-pixel Convolution 子像素卷积) 的上采样操作,每次上采样后会接上一层RFB和LReLU。最后接上两层卷积。
上采样部分。
和原始的RFB结构基本一致:
The most important reason to use RFB is the ability of extracting the very detailed features, which is exactly what is needed in the field of image reconstruction.
本论文使用的RFB层
在RFB-ESRGAN中,主干RFB由8个剩余的感受野致密块(RRFDB)堆叠而成,每个RRFDB包含5个RFB。RFB的组成结构如图4所示。
Nearest Neighborhood Interpolation (NNI) 对输入特征起到空间转换的作用,然后接RFB层将其空间影响在深度上扩散。Sub-pixel Convolution (SPC) 发挥深度到空间的变换,然后接RFB层将该变换在空间范围内增强。
Use them alternately will improve the information communication between space and depth. Also, the use of SPC will reduce the amount of parameters and time complexity.
损失函数和ESRGAN一致。
G网络损失函数:(利用像素损失、VGG损失和对抗性损失)
D网络的损失函数:(利用真实的损失LReal和伪损失LFake)
我们融合前10个模型的所有相应参数以导出集合模型GEnsemble,其参数为:
最终集成模型GEnsemble可以有效地降低重建图像的噪声,并且对不同的测试图像具有更强的鲁棒性。
训练集:
HR图像结果MATLAB bicubic插值得到缩小16倍的LR图像。包含高清图像数据集:800张DIV2K,2650张Flickr2K,785张OST dataset。(数据多样性很重要,在其他SR实验验证过) 训练参数设置: batch size为16;Adam
训练过程可以分为两个阶段。第一阶段,训练具有L1损失的面向PSNR的模型。学习率初始化为2×10−4(10的-4次方),并且每2.5 × 105个小批量步骤衰减2倍。第二阶段(基于GAN的训练阶段),在完全训练面向PSNR的模型之后,生成网络用预训练的PSNR导向模型的参数初始化,并使用生成损失函数训练和对抗损失函数在生成损失函数中,λ被设置为10,η被设置为5e-3(e的-3次方)。学习率被设置为1e-4(e的-4次方),并在[50k,100k,200k,200k]减半。在基于GAN的训练阶段期间,每5000次迭代记录生成网络的参数。
实验结果对比:
消融实验:
上采样只用SPC(第2列),细节会 too sharp,有点假;
上采样只用NNI(第3列),细节会 too blurry,不清晰;
交替使用SPC和NNI(第4列)可以达到比较好的效果;
使用RFB(第5列),线条会更加细致和平滑;
使用集成模型(第6列),整体更加鲁棒,去噪。
SPC、NNI、RFB、ensemble 消融分析:
不同算法的对比:
不同算法的效果对比:
针对单幅图像的极端感知超分辨率问题,提出了RFB-ESRGAN算法。针对×16尺度的超分辨率问题,提出了利用多尺度感受野提取LR图像的多尺度特征。此外,提出了利用小卷积核提取输入图像的细节特征,并利用最近邻插值和子空间插值的方法重建SR图像的细节特征。本文的实验和NTIRE 2020感知极限超分辨率挑战赛的结果表明,本文提出的方法能够有效地实现感知极限超分辨率。