HAT | 探究SwinIR优于RCAN的背后机理，挖掘预训练策略潜能！

AIWalker

发布于 2022-06-24 14:16:49

8710

发布于 2022-06-24 14:16:49

文章被收录于专栏：AIWalkerAIWalker

尽管Transformer已在图像超分领域取得了令人惊讶的性能，但从感受野角度来看：Transformer的潜力仍为得到充分挖掘。

基于此，本文提出了一种新颖Hybrid Attention Transformer(HAT)方案，它同时利用了通道注意力与自注意力机制。此外，更好的进行跨窗口信息聚合，本文提出一种Overlapping Cross-Attention模块以增强相邻窗口之间的信息交互。

在训练阶段，本文还额外提出一种同任务预训练(Same-task Pre-training)策略进一步提升性能。实验结果表明：所提HAT大幅超越了其他图像超分方案，最高可达1dB。

1出发点

为什么SwinIR会比CNN方案具有更优的性能呢？为挖掘其工作机理，本文采用LAM进行了分析，LAM工具可以清晰的呈现哪些输入像素对所选区域产生了共享。

直观上来讲，越多的像素被利用模型的性能越好，CNN方案中的EDSR与RCAN符合该假设。但是，从上图可以看到：虽然SwinIR的性能更优，但SwinIR的感受野比RCAN更小。也就是说，Transformer方案有违前述直观感知。但同时也为我们提供农了额外的洞察：

相比CNN，SwinIR具有更强的建模能力：利用更少的信息达成更优的性能；
如果可以利用更多的输入像素，SwinIR还有进一步提升的空间。

此外，我们发现：SwinIR的中间特征存在明显的伪影问题。而这些伪影是由于窗口划分机制导致，这意味着：移位窗口对于构建跨窗口链接不够高效。

基于上述洞察，本文对通道注意力在Transformer方案中的应用进行了探索，同时还提出了一种OCAM用于更好的进行跨窗口信息聚合。

2本文方案

上图给出了本文所提HAT架构示意图，很明显，它是一种类RCAN架构。它与RCAN的关键区别在于RHAG与RCAG。因此，我们仅对RHAG进行介绍，而RHAG由HAB与OCAB两部分构成。

HAB：该模块有CAB与(S)W-MSA组合得到，描述如下：

X_n = LN(X)

X_M = (S)W-MSA(X_N) + \alpha CAB(X_N) + X

Y = NLP(LN(X_M)) + X_M

注：关于HAB中的(S)W-MSA模块部分可参见SwinIR一文，这里略过不计。

OCAB ：上图给出了OCAB模块的结构示意图。它与SwinIR中的自注意力的区别在于Key/Value采用了更大的块，进而达到了跨窗口信息聚合。为更好的控制窗口重叠程度，作者引入了超参\gamma ，此时Key/Value的窗口尺寸定义为：

M_o = (1 + 2 \gamma) \times M

除了上述模块方面的改进外，本文还提出了一种同任务预训练策略：在相同任务下采用更大的数据集(如ImageNet)进行模型预训练，然后将预训练模型在目标数据集(如DF2K)上微调。

3Experiments

上面图&表对比了不同方案的性能与超分效果，可以看到：

在所有基准数据集上，HAT均大幅超越其他超分方案；
相比SwinIR，HAT的性能提升达0.48dB~0.64dB@Urban100，在Manga109数据集上的性能提升达0.34dB~0.45dB；
相比其他采用预训练的方案(如EDT)，HAT的性能提升仍高达0.5dB@Urban100。

最后，我们再看一下同任务预训练策略的性能，见下表。

本文参与腾讯云自媒体分享计划，分享自微信公众号。

原始发表：2022-05-15，如有侵权请联系 cloudcommunity@tencent.com 删除

数据分析

本文分享自 AIWalker 微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体分享计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度