标题&作者团队
本文是中科大团队用于参加NTIRE2021图像去模糊竞赛的方案EDPN,取得了Track1三指标第一,Track2赛道双指标第一的成绩。EDPN是在EDVR的基础上改进而来,引入了金字塔结构、渐进式思想集成自相似性与跨尺度相似性特征。
学术界的图像去模糊往往采用了最简单的单一假设,而真实场景的模糊往往与其他退化并存,比如压缩、下采样。
为解决这种问题,本文提出了一种适用于多退化的模糊图像复原:EDPN(Enhanced Deep Pyramid Network),它充分利用了退化图像的自相似性与跨尺度相似性。具体来说,我们设计了两个基于金字塔的模块:PPT(Pyramid Progressive Transfer)与PSA(Pyramid Self-Attention)。它以多帧重复模糊图像作为输入,PPT模块采用渐进方式从相同退化图像中迁移子相似性与跨尺度相似性信息;然后,PSA模块则采用自注意力与空域注意力对前述特征进行融合。
在NTIRE2021图像去模糊竞赛中,EDPN取得了Track1赛道的最佳PSNR、SSIM、LPIPS指标,取得了Track2竞赛的最佳SSIM、LPIPS指标。
上图给出了本文所提方案架构示意图,EDPN主要包含四个部分:
重复图像中提取特征
;
接下来,我们将主要针对PPT与PSA进行介绍。
上图给出了PPT模块的结构示意图,它的输入为
,给定
特征,PPT模块需要执行
次。在PPT模块内部,我们采用金字塔与渐进式结构学习自相似性与跨尺度相似性。对于金字塔结构,我们采用stride卷积进行下采样。假设金字塔级数为M,对于每一级有N个渐进式迁移模块(Progressive Transfer Block, PTB)用于提取自相似性。在第
级,第
个PTB的输入为
、前一模块输出
。需要注意的是,首个PTB的输入为
。受启发于TDAN与EDVR,我们在PTB中采用的形变卷积。该过程可以描述如下:
形变卷积中学习到的offset根据输入进行预测,计算方式如下:
然后,我们生成特征级掩码
,它用于迫使PTB聚焦于学习最相关特征,其计算方式如下:
这里所计算的运动注意力掩码进一步与形变卷积的输出相乘。
在完成卷积之后,生成特征将被视作该模块的残差信息,输出特征将通过如下得到:
最后,第
级PPT模块的输出特征描述如下:
在执行完PPT后,自相似性与跨尺度相似性特征以完成提取与变换。受启发于EDVR,我们提出了PSA:采用金字塔结构赋予像素级集成权值。此外,我们还采用了3D卷积融合所有特征信息,见下图。
该模块同样采用了金字塔处理,定义第
级子注意力模块的输出特征为
。在第
级,我们在嵌入空间计算相似图,定义如下:
基于注意力特征将于输入进行加权融合,计算方式如下:
我们采用3D卷积对原始变换特征进行融合,然后在于上述特征相加融合。此外,我们还采用了EDVR中的空域注意力机制,不再赘述。在这里,我们采用3级金字塔,通过为降低计算量,在分辨率降低时并未提升通道数。
训练数据:NTIRE2021图像去模糊竞赛数据,包含Track1、Track2。其中,Track1需要同时进行去模糊和超分;Track2需要同时进行去模糊、压缩伪影移除。数据集为REDS。
损失函数:采用了Charbonnier损失与SSIM损失。
上表对比了 不同模块的有效性,从中可以看到:
上表对比了PTB模块数量的影响分析,从中可以看到:
上图对比了输入的复制数量的影响,从中可以看到:采用4次复制可以取得最佳PSNR指标,指标可以从27.89提升到28.01.
上图对比了损失函数的贡献与影响,从中可以看到:仅仅采用Charbonnier损失可以取得最佳的PSNR指标,SSIM的引入会造成PSNR指标降低,但SSIM指标提升明显。为均衡考量,我们采用了两者组合。
上表从集成角度进行了分析,从中可以看到:
在这里,我们将其与RCAN、MSRN、GFN、EDVR等方法进行了对比。
从上表可以看到:
上图给出了所提方案在BID、BISR任务上的视觉效果对比。可以看到:EDPN取得了最佳的视觉效果,更精确的细节。具体而言,EDPN复原的边缘更为锐利、清晰。
上图对比了NTIRE2021图像去模糊竞赛两个赛道上的排名,可以看到: