前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >HAT | 探究SwinIR优于RCAN的背后机理,挖掘预训练策略潜能!

HAT | 探究SwinIR优于RCAN的背后机理,挖掘预训练策略潜能!

作者头像
AIWalker
发布2022-06-24 14:16:49
8710
发布2022-06-24 14:16:49
举报
文章被收录于专栏:AIWalkerAIWalker

尽管Transformer已在图像超分领域取得了令人惊讶的性能,但从感受野角度来看:Transformer的潜力仍为得到充分挖掘

基于此,本文提出了一种新颖Hybrid Attention Transformer(HAT)方案,它同时利用了通道注意力与自注意力机制。此外,更好的进行跨窗口信息聚合,本文提出一种Overlapping Cross-Attention模块以增强相邻窗口之间的信息交互

在训练阶段,本文还额外提出一种同任务预训练(Same-task Pre-training)策略进一步提升性能。实验结果表明:所提HAT大幅超越了其他图像超分方案,最高可达1dB

1出发点

为什么SwinIR会比CNN方案具有更优的性能呢?为挖掘其工作机理,本文采用LAM进行了分析,LAM工具可以清晰的呈现哪些输入像素对所选区域产生了共享。

直观上来讲,越多的像素被利用模型的性能越好,CNN方案中的EDSR与RCAN符合该假设。但是,从上图可以看到:虽然SwinIR的性能更优,但SwinIR的感受野比RCAN更小。也就是说,Transformer方案有违前述直观感知。但同时也为我们提供农了额外的洞察:

  • 相比CNN,SwinIR具有更强的建模能力:利用更少的信息达成更优的性能;
  • 如果可以利用更多的输入像素,SwinIR还有进一步提升的空间。

此外,我们发现:SwinIR的中间特征存在明显的伪影问题。而这些伪影是由于窗口划分机制导致,这意味着:移位窗口对于构建跨窗口链接不够高效。

基于上述洞察,本文对通道注意力在Transformer方案中的应用进行了探索,同时还提出了一种OCAM用于更好的进行跨窗口信息聚合。

2本文方案

上图给出了本文所提HAT架构示意图,很明显,它是一种类RCAN架构。它与RCAN的关键区别在于RHAG与RCAG。因此,我们仅对RHAG进行介绍,而RHAG由HAB与OCAB两部分构成。

  • HAB:该模块有CAB与(S)W-MSA组合得到,描述如下:
X_n = LN(X)
X_M = (S)W-MSA(X_N) + \alpha CAB(X_N) + X
Y = NLP(LN(X_M)) + X_M

注:关于HAB中的(S)W-MSA模块部分可参见SwinIR一文,这里略过不计。

  • OCAB :上图给出了OCAB模块的结构示意图。它与SwinIR中的自注意力的区别在于Key/Value采用了更大的块,进而达到了跨窗口信息聚合。为更好的控制窗口重叠程度,作者引入了超参\gamma ,此时Key/Value的窗口尺寸定义为:
M_o = (1 + 2 \gamma) \times M

除了上述模块方面的改进外,本文还提出了一种同任务预训练策略:在相同任务下采用更大的数据集(如ImageNet)进行模型预训练,然后将预训练模型在目标数据集(如DF2K)上微调。

3Experiments

上面图&表对比了不同方案的性能与超分效果,可以看到:

  • 在所有基准数据集上,HAT均大幅超越其他超分方案;
  • 相比SwinIR,HAT的性能提升达0.48dB~0.64dB@Urban100,在Manga109数据集上的性能提升达0.34dB~0.45dB;
  • 相比其他采用预训练的方案(如EDT),HAT的性能提升仍高达0.5dB@Urban100。

最后,我们再看一下同任务预训练策略的性能,见下表。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-05-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AIWalker 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1出发点
  • 2本文方案
  • 3Experiments
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档