前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >NTIRE2021图像去模糊竞赛冠军方案: EDPN

NTIRE2021图像去模糊竞赛冠军方案: EDPN

作者头像
AIWalker
发布2021-05-24 10:52:11
7150
发布2021-05-24 10:52:11
举报
文章被收录于专栏:AIWalkerAIWalker

标题&作者团队

本文是中科大团队用于参加NTIRE2021图像去模糊竞赛的方案EDPN,取得了Track1三指标第一,Track2赛道双指标第一的成绩。EDPN是在EDVR的基础上改进而来,引入了金字塔结构、渐进式思想集成自相似性与跨尺度相似性特征。

Abstract

学术界的图像去模糊往往采用了最简单的单一假设,而真实场景的模糊往往与其他退化并存,比如压缩、下采样。

为解决这种问题,本文提出了一种适用于多退化的模糊图像复原:EDPN(Enhanced Deep Pyramid Network),它充分利用了退化图像的自相似性与跨尺度相似性。具体来说,我们设计了两个基于金字塔的模块:PPT(Pyramid Progressive Transfer)与PSA(Pyramid Self-Attention)。它以多帧重复模糊图像作为输入,PPT模块采用渐进方式从相同退化图像中迁移子相似性与跨尺度相似性信息;然后,PSA模块则采用自注意力与空域注意力对前述特征进行融合。

在NTIRE2021图像去模糊竞赛中,EDPN取得了Track1赛道的最佳PSNR、SSIM、LPIPS指标,取得了Track2竞赛的最佳SSIM、LPIPS指标。

Method

上图给出了本文所提方案架构示意图,EDPN主要包含四个部分:

  • 特征提取:它由18个残差模块构成,用于从
K+1

重复图像中提取特征

F_{[0:K]}

  • PPT模块:它以渐进式进行自相似性与跨尺度相似性特征迁移与变换;
  • PSA模块:它对前述变换特征进行融合集成;
  • 重建模块:它用于进行残差图像的复原,它由120个多尺度残差通道注意力模块构成。

接下来,我们将主要针对PPT与PSA进行介绍。

Pyramid Progressive Transfer Module

上图给出了PPT模块的结构示意图,它的输入为

F_{[0:K]}

,给定

K+1

特征,PPT模块需要执行

K+1

次。在PPT模块内部,我们采用金字塔与渐进式结构学习自相似性与跨尺度相似性。对于金字塔结构,我们采用stride卷积进行下采样。假设金字塔级数为M,对于每一级有N个渐进式迁移模块(Progressive Transfer Block, PTB)用于提取自相似性。在第

m

级,第

n

个PTB的输入为

F_0^m

、前一模块输出

(F_{i,PTB}^{n-1})^m,(i\in[0,K])

。需要注意的是,首个PTB的输入为

F_0^m, F_i^m

。受启发于TDAN与EDVR,我们在PTB中采用的形变卷积。该过程可以描述如下:

(F_i^D)^{m,n} = \mathcal{F}_{Dconv}(F_0^m, (F_{i,PTB}^{n-1})^m)

形变卷积中学习到的offset根据输入进行预测,计算方式如下:

(\Delta P_i)^{m,n} = \mathcal{F}_C(F_0^m \| (F_{i,PTB}^{n-1}))

然后,我们生成特征级掩码

(Mask_i)^{m,n}

,它用于迫使PTB聚焦于学习最相关特征,其计算方式如下:

(Mask_i)^{m,n} = Softmax(\mathcal{F}_C(F_0^m) - \mathcal{F}_C((F_{i,PTB}^{n-1})^m))

这里所计算的运动注意力掩码进一步与形变卷积的输出相乘。

在完成卷积之后,生成特征将被视作该模块的残差信息,输出特征将通过如下得到:

(F_{i,PTB}^{n})^m = F_0^m = \mathcal{F}_C(F_0^m \|(Mask_i)^{m,n}\otimes (F_i^D)^{m,n}))

最后,第

m

级PPT模块的输出特征描述如下:

(F_i^{PPT})^m = \mathcal{F}_C(Up((F_i^{PPT})^{m+1})^{\uparrow s} \| (F_{i,PTB}^N)^m)

Pyramid Self-Attention Module

在执行完PPT后,自相似性与跨尺度相似性特征以完成提取与变换。受启发于EDVR,我们提出了PSA:采用金字塔结构赋予像素级集成权值。此外,我们还采用了3D卷积融合所有特征信息,见下图。

该模块同样采用了金字塔处理,定义第

l

级子注意力模块的输出特征为

F_{sa}^l

。在第

l

级,我们在嵌入空间计算相似图,定义如下:

\Theta_i^l = Sigmoid(\mathcal{F}_C(\hat{F}_0^l)^T \odot \mathcal{F}_C(\hat{F}_i^l))

基于注意力特征将于输入进行加权融合,计算方式如下:

\tilde{F}_i^l = \Theta_i^l \odot \hat{F}_i^l \\ F_{fusion}^l = \mathcal{F}_C(\tilde{F}_{[0LK]}^l)

我们采用3D卷积对原始变换特征进行融合,然后在于上述特征相加融合。此外,我们还采用了EDVR中的空域注意力机制,不再赘述。在这里,我们采用3级金字塔,通过为降低计算量,在分辨率降低时并未提升通道数。

Experiments

训练数据:NTIRE2021图像去模糊竞赛数据,包含Track1、Track2。其中,Track1需要同时进行去模糊和超分;Track2需要同时进行去模糊、压缩伪影移除。数据集为REDS。

损失函数:采用了Charbonnier损失与SSIM损失。

Ablation Study

上表对比了 不同模块的有效性,从中可以看到:

  • 相比基线模型,PPT模块可以带来0.41dB性能提升;
  • 相比基线模型,PSA模块可以带来0.35dB性能提升;
  • 相比基线模型,PPT与PSA组合可以带来0.58dB性能提升。

上表对比了PTB模块数量的影响分析,从中可以看到:

  • 越多的PTB模块可以带来越多的性能提升。这意味着更多的PTB有助于提升自相似性;
  • 为平衡计算效率与性能,我们设置PPT中每级PTB数为3.

上图对比了输入的复制数量的影响,从中可以看到:采用4次复制可以取得最佳PSNR指标,指标可以从27.89提升到28.01.

上图对比了损失函数的贡献与影响,从中可以看到:仅仅采用Charbonnier损失可以取得最佳的PSNR指标,SSIM的引入会造成PSNR指标降低,但SSIM指标提升明显。为均衡考量,我们采用了两者组合。

上表从集成角度进行了分析,从中可以看到:

  • 自集成与模型集成均可带来性能提升;
  • 模型集成带来的性能提升要比自集成更大。

Comparisons with Existing Method

在这里,我们将其与RCAN、MSRN、GFN、EDVR等方法进行了对比。

从上表可以看到:

  • 在PSNR、SSIM以及LPIPS指标方面,EDPN显著优于其他方案;
  • 相比EDVR,EDPN在BISR任务上取得了0.38dB性能提升,在BID任务上取得了0.77dB性能提升。这说明EDPN可以有效的探索自相似性与跨尺度相似性,进而提升了模型在多退化方面的复原性能。

上图给出了所提方案在BID、BISR任务上的视觉效果对比。可以看到:EDPN取得了最佳的视觉效果,更精确的细节。具体而言,EDPN复原的边缘更为锐利、清晰。

Challenge Results

上图对比了NTIRE2021图像去模糊竞赛两个赛道上的排名,可以看到:

  • 在Track1赛道,EDPN取得了绝对优势;相比第二名,其PSNR指标提升0.13dB,SSIM指标提升0.017,LPIPS指标下降0.0172;
  • 在Track2赛道,EDPN在SSIM与LPIPS指标上取得了最佳指标。
  • 总而言之,EDPN是该竞赛中最有效的解决方案。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-05-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AIWalker 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Abstract
  • Method
    • Pyramid Progressive Transfer Module
      • Pyramid Self-Attention Module
      • Experiments
        • Ablation Study
          • Comparisons with Existing Method
            • Challenge Results
            领券
            问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档