paper:https://arxiv.org/abs/2006.01424
code:https://github.com/SHI-Labs/Cross-Scale-Non-Local-Attention
该文是地平线&UIUC等提出的一种图像超分方案,它与笔者之前分享的文章《思想的碰撞:非局部均值偶遇深度学习》同出一辙,感兴趣者可以先去了解一下跨尺度非局部注意力机制。而该文则是在前述文章的基础上进行了拓展并投于CVPR2020.
Abstract
基于深度学习的图像超分取得了前所未有的进展,但这些方法往往受益于网络的更深、感受野的更宽。图像块的非局部相似性是图像的一种基本先验信息,而这却很少在深度学习方面得到探索与应用。尽管已有相关方法尝试采用非局部注意力机制进行图像超分,但跨尺度相似性却并未受到关注。
在该文中,作者将跨尺度特征相关性先验信息纳入到深度学习中并嵌入到递归神经网络中。它通过递归单元组合所提跨尺度非局部注意力机制与单尺度非局部注意力。通过组合上述先验信息,所提图像超分在多个公开数据集上取得了SOTA性能。
Method
上图给出了该文所提出的图像超分架构示意图。很明显,它是一个递归神经网络,作者将每个递归单元命名为Self-Exemplars Mining, SEM,它用于集成局部、单尺度非局部、跨尺度非局部先验信息。
CS-NL Attention Module
上图为跨尺度非局部注意力模块示意图。
Self-Exemplars Mining Cell
上图给出了SEM的示意图,每个SEM单元用于集成利用多种先验信息,比如Local、In-Scale Non-Local、Cross-Scale Non-Local等先验信息。
前面已经介绍了所涉及到的几种先验信息,那么如何融合将是其中的关键环节。这种采用了类似《Deep Back-Projection Networks for Super-Resolution》的方法进行多种先验信息融合,见上图。
Recurrent Framework
Experiments
为验证所提方案的有效性,作者在DIV2K数据上进行了模型训练,并在Set5、Set14、B100、Urban100、manga109等数据集上进行了验证。所有指标在YCbCr空间中的Y通道上进行评估,评价准则为PSNR与SSIM。
关于网络架构,SEM模块的数量为12,中间特征通道数为128。在训练过程中,输入图像块大小为48X48,batch为16,数据增广方面进行随机镜像与转换,优化器为Adam,初始学习率为0.0001,每150epoch折半,合计训练500epoch。训练硬件平台为Nvidia V100GPU。
下表给出了所提方法与其他超分方法在公开数据集上的性能对比与视觉效果对比,很明显,所提方法取得了SOTA指标。
此外,作者还在Set5数据集对比了不同方法的PSNR指标与参数量,见下图。「注:这个对比非常不公平!递归模块的参数去对比非递归模块的参数,呵呵。如果真要公平的话,应该将CSNLN的参数量x12后再去对比就差不多。这样对比的话,相比SAN就看不到什么参数量上的优势咯。」
与此同时,作者还进行了一些消融实验。下图给出了Cross-Scale与In-Scale两者的注意力图效果展示。可以看到:In-Scale更关注于像素灰度相似性;而Cross-Scale则更关注块相似性,这与非局部均值的思想相一致。
下表给出了SEM中不同模块对于模型性能的影响性分析对比,从而说明Cross-Scale对于图像的信息充分利用非常重要。更多消融实验对比分析,建议查阅原文。
Conclusion
该文提出了首个将跨尺度非局部注意力用于图像超分的方案,基于所提模块,它可以更有效的挖掘图像中的跨尺度非局部相似性;与之前的In-Scale注意力相结合可以进一步提升图像超分的性能,在多个公开数据集上取得了SOTA性能。
转载来源:AIWalker