论文:Context Reasoning Attention Network for Image Super-Resolution
链接:https://openaccess.thecvf.com/content/ICCV2021/papers/Zhang_Context_Reasoning_Attention_Network_for_Image_Super-Resolution_ICCV_2021_paper.pdf
如图1中SAN[9]和RFANet[38]所示,由于CNN中的基本卷积层大多用于提取局部特征,从而缺乏对全局上下文建模的能力,因此导致恢复出来的纹理细节都不正确。然而,利用全局上下文信息的CSNLN[41]方法都是通过将全局上下文合并到局部特征表示中进行全局特征交互而忽略了挖掘上下文信息之间的关系。
有神经科学表明神经元是根据上下文动态调节的,这一理论被大多数基于CNN的SR方法所忽略。作者基于这些观察和分析,提出了上下文推理注意网络(CRAN)来根据全局上下文自适应调整卷积核。具体来说,作者是提取了全局上下文描述符,并通过语义推理进一步增强了这些描述符。然后引入通道和空间交互来生成上下文推理注意掩码,并应用上下文推理注意掩码自适应地修改卷积核。在这项工作中,作者的主要贡献有:
作者在设计自适应修改滤波器的卷积借鉴了Context Guided Conv[37],在中间添加了对应上下文的注意力关系以及对应的通道交互和空间交互操作,具体如下图:
为了提取上下文信息,作者首先通过使用池层将输入特征
的空间
大小减小到
,然后通过一个共享的线性层,其权重为
将每个通道投影到大小为e的潜在向量。
按照之前Context Guided Conv的设计,我们将向量大小
设为
,从而获得具有上下文信息的新特征,表示为
。然后作者又将全局上下文信息写成一组向量
。
基于之前的卷积推理工作,作者构建了上下文描述符之间的关系推理模型。具体地说,通过权重参数
将上下文描述符嵌入到两个嵌入空间中。然后,正对的关系函数可以表达为:它获取每两个学习的上下文描述符
和
之间的关系,从而生成一个图。
然后通过一个残差学习将
和原始输入桥接得到最终的全局上下文关系:
作者采用增强的全局上下文信息
来更新卷积核,从而得到最终的注意力遮罩。为了尽可能减少空间复杂度,作者将这个卷积遮罩分解成
和
。然后分别利用空间交互和通道交互来得到
和
。
通道相互作用:其中通道相互作用采用了深度可分离卷积来减少计算量,通过一个权重为
分组线性层进行投影。最后得到通道交互特征
。
空间相互作用:然后,我们分别对
和
分别进行空间相互作用,得到相应的张量
和
。具体来说就是利用两个权重共享的线性层将这两个特征
和
映射为
和
,记作
和
。
**上下文推理注意力卷积:**在进行通道和空间交互之后, 作者直接利用
和
通过扩张通道数为
,然后再进行逐元素相加得到
。
最后,我们可以应用注意掩码
来调制卷积核权重
,如下所示:
作者采用了RCAN的网络结构,将原有的RCAN中的RCAB模块替换成了CRAB模块,其中CRAB就是利用了作者提出的上下文推理注意力卷积来进行构建的。
采用了和RCAN中的参数设置,并且进行了一系列的消融实验证明作者提出的模块的有效性。
训练选用了DIV2K和Flickr2K作为训练数据,
可以从表1中可以看出,包含注意力的模块可以获得比普通残差快更高的性能。
作者提出的CRAB可以有效的考虑全局上下文的关系,从而获得好的性能,然后作者的模块通过CDRR,实现了进一步的性能提升,这证明了CDRR的有效性。
如表2所示,作者提供了空间交互和通道交互组件的几种组合,可以发现每个组件都有助于提高性能。这证明了空间交互和通道交互操作的有效性。
上表对比了不同注意力超分方案的性能,从中可以看到:
上图对比了不同方法在纹理细节恢复上的效果对比,可以看到:通过作者提出的全局上下文推理注意力卷积可以有效的恢复出正确的纹理细节。
作者为了调查卷积核的多样性,作者考虑计算
和全为1的矩阵I的欧氏距离,作者将100张图像随机转发到网络中,并计算每个样本的距离。如上图所示,可以看出:作者提出的卷积是根据图像进行自适应调整的,因此整个图像是波动的。
[1] Tao Dai, Jianrui Cai, Y ongbing Zhang, Shu-Tao Xia, and Lei Zhang. Second-order attention network for single image super-resolution. In CVPR, 2019.
[2] Xudong Lin, Lin Ma, Wei Liu, and Shih-Fu Chang. Context-gated convolution. In ECCV, 2020.
[3] Jie Liu, Wenjie Zhang, Y uting Tang, Jie Tang, and Gangshan Wu. Residual feature aggregation network for image super-resolution. In CVPR, 2020.
[4] Yiqun Mei, Y uchen Fan, Y uqian Zhou, Lichao Huang, Thomas S Huang, and Humphrey Shi.
[5] Image super-resolution with cross-scale non-local attention and exhaustive self-exemplars mining. In CVPR, 2020.
本文分享自 GiantPandaCV 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!