尽管Transformer已在图像超分领域取得了令人惊讶的性能,但从感受野角度来看:Transformer的潜力仍为得到充分挖掘。
基于此,本文提出了一种新颖Hybrid Attention Transformer(HAT)方案,它同时利用了通道注意力与自注意力机制。此外,更好的进行跨窗口信息聚合,本文提出一种Overlapping Cross-Attention模块以增强相邻窗口之间的信息交互。
在训练阶段,本文还额外提出一种同任务预训练(Same-task Pre-training)策略进一步提升性能。实验结果表明:所提HAT大幅超越了其他图像超分方案,最高可达1dB。
为什么SwinIR会比CNN方案具有更优的性能呢?为挖掘其工作机理,本文采用LAM进行了分析,LAM工具可以清晰的呈现哪些输入像素对所选区域产生了共享。
直观上来讲,越多的像素被利用模型的性能越好,CNN方案中的EDSR与RCAN符合该假设。但是,从上图可以看到:虽然SwinIR的性能更优,但SwinIR的感受野比RCAN更小。也就是说,Transformer方案有违前述直观感知。但同时也为我们提供农了额外的洞察:
此外,我们发现:SwinIR的中间特征存在明显的伪影问题。而这些伪影是由于窗口划分机制导致,这意味着:移位窗口对于构建跨窗口链接不够高效。
基于上述洞察,本文对通道注意力在Transformer方案中的应用进行了探索,同时还提出了一种OCAM用于更好的进行跨窗口信息聚合。
上图给出了本文所提HAT架构示意图,很明显,它是一种类RCAN架构。它与RCAN的关键区别在于RHAG与RCAG。因此,我们仅对RHAG进行介绍,而RHAG由HAB与OCAB两部分构成。
注:关于HAB中的(S)W-MSA模块部分可参见SwinIR一文,这里略过不计。
除了上述模块方面的改进外,本文还提出了一种同任务预训练策略:在相同任务下采用更大的数据集(如ImageNet)进行模型预训练,然后将预训练模型在目标数据集(如DF2K)上微调。
上面图&表对比了不同方案的性能与超分效果,可以看到:
最后,我们再看一下同任务预训练策略的性能,见下表。