Lightweight Image Super-Resolution with Superpixel Token Interaction
基于transformer的方法在单图像超分辨率(SISR)任务中显示了令人印象深刻的结果。然而,当应用于整个图像时,自注意机制的计算成本很高。
现状
目前的方法是将低分辨率的输入图像分割成小块,这些小块分别进行处理,然后融合生成高分辨率图像。然而,这种常规的patch划分过于粗糙,缺乏可解释性,导致在注意操作过程中产生伪影和非相似结构干扰。
解决
提出了一种新的超级token交互网络(SPIN)。该方法利用超像素对局部相似像素进行聚类,形成可解释的局部区域,利用超像素内的注意实现局部信息交互。它是可解释的,因为只有相似的区域相互补充,不同的区域被排除在外。
此外,我们设计了一个超像素交叉关注模块,通过超像素的替代实现信息的传播。大量的实验表明,所提出的自旋模型在精度和轻量化方面优于最先进的SR方法。
创新
基于固定形状划分图像块导致连续结构的分割,这意味着在其他区域使用相似的信息来增强图像的细节。此外,在每个patch中应用的局部注意机制在计算中涉及到不相关的区域,导致了不良的推理。
为了解决这些问题,我们提出了一种融合局部和全局注意力机制和精细超像素划分的新方法。我们首先对输入图像的像素进行基于CNN的浅层特征提取,然后进行局部聚类,将相邻的像素分组为超像素。然后通过基于相似度的超像素聚类得到局部区域,并分别对其进行局部特征提取。
以往的方法采用固定形状的patch分割,只是为了提高并行计算效率,而我们的区域分割策略具有更强的可解释性,可以对输入图像进行更灵活、更自适应的分割,防止连续结构的分裂。然后引入超像素交叉注意模块,通过超像素的代理实现远程信息交互。此外,我们设计了一种超像素内注意(Intra-Superpixel Attention, ISPA)机制,应用于超像素的像素,扩展了原来只在规则图像区域的注意操作。这保证了局部注意机制信息交互发生在相似的区域,消除了干扰和无关计算。这两种注意机制相互交织,在局部和全局特征提取中相互协作。如图1所示,所提出的SPIN算法在PSNR和模型大小之间有很好的权衡。
我们的贡献总结如下:
(a) 我们提出了一种新的超分辨率模型,该模型将超像素聚类与变压器结构相结合,形成了一个更易于解释的框架。
(b) 我们提出了超像素内注意(ISPA)和超像素交叉注意(SPCA)模块,它们在超像素内和超像素之间运行,在保持捕获远程依赖的能力的同时,可以在不规则区域进行计算。
(c) 实验表明,与最先进的轻量级SR方法相比,本文方法具有更好的SR重构性能。
本文模型的体系结构如图2所示,主要由本文提出的超像素交互(SPI)块组成。在SPI块之前,我们利用一个3 × 3卷积的编码器,将低分辨率的图像
嵌入到高维特征空间。给定编码器,我们可以得到
的浅层特性:
其中
表示所提模型的编码器。
然后,我们将K个SPI块堆叠在编码器的顶部,提取出更深层的特征,这些特征包含了输入图像的丰富的低层和高层信息。每个SPI块包括四个部分:超像素聚合(SPA)、超像素交叉注意(SPCA)、超像素内注意(ISPA)和局部注意。
首先通过SPA模块将每个块的输入特征聚合成超像素。然后,ISPA模块捕获每个超像素内像素之间的依赖关系和交互,SPCA模块捕获长像素之间的依赖关系和交互。为了增强局部区域内像素之间的交互作用,在ISPA和SPCA模块之后,我们使用了一个局部注意模块,该模块使用基于窗口的注意。我们使用重叠补丁来加强特征交互。在形式上,对于第
个SPI块,整个过程可以表示为:
式中,
为第
个SPI块的超像素特征,
每个独立分量的函数。在之前的工作基础上,利用剩余连接来简化整个训练过程。
K SPI分块后,我们采用3×3卷积层和像素洗牌操作获得全局残差信息,将残差信息添加到上采样的
图像中,用于分辨高分辨率图像
。
与以往将输入图像或特征分割成规则的小块的方法不同,我们提出了将输入特征分割成超像素的方法。与常规斑块容易将连通区域分割成不同的斑块相比,超像素分割可以感知地将相似的像素聚在一起,可以描述更精确的边界,减少了边界产生模糊和不准确的风险。
图3:我们的方法的超像素聚合(SPA)模块,它通过平均池初始化超像素,然后以迭代的方式更新它们
由于超像素只捕获局部区域像素的局部性和互联性,因此可能缺乏捕获超分辨率长期依赖关系的能力。在这里,我们利用自我注意范式通过超像素替代来增强远程通信,这有助于利用特征之间的互补性来产生高质量的超分辨率图像。由于像素特征与所归属的超像素特征高度相似,使得超像素成为一种很有希望的替代方法,尽可能地在像素之间传播信息。
一旦信息从像素传播到超像素,就需要将聚合后的信息重新分布到像素上,从而实现像素之间的信息传播。在这里,我们进一步采用了注意力机制。具体来说,我们利用另一个权重矩阵
从像素特征中获取查询。为了减少参数的数量,我们直接以超像素特征
为键,以更新后的超像素特征为值,利用交叉注意将更新后的超像素特征映射回像素级。与Transformer块类似,经过上述处理后,我们也采用了前馈网络(FFN)。我们的FFN包含一层归一化层,然后利用特征门控对输入特征进行调制,利用通道注意提取全局信息。然后使用两个全连接层和GELU激活函数。
图4:提出的超像素交叉注意(SPCA)模块。该算法首先将信息从像素传播到超像素,然后通过交叉注意机制将聚合后的信息分布到像素上
在给定关联图的情况下,一种提高超分辨率图像质量的直观方法是利用同一超像素内相似像素的互补性。为此,我们需要获取每个超像素对应的像素。但是,不同的超级像素包含的像素数量可能不同,这使得并行处理变得困难,也会导致意外的内存消耗,因为总会有一些超级像素包含大量的像素。为了解决这个问题,如图5所示,我们利用关联图AT,选择与每个超像素最相似的top-N个像素。
top-N的选择可能会导致一些“被忽略”的像素,也就是说,这些像素不包含在任何超像素中。对于那些“被忽略”的像素,我们利用值投影
来投影得到更新后的特征,然后将这些特征与那些通过超像素内交互更新的像素进行整合。与SPCA模块类似,我们在ISPA模块之后采用了相同的FFN。
图5:提出的超像素内注意力(ISPA)模块。我们选择与每个超像素最相似的top-N个像素进行超像素内注意。对“被忽略”的像素点进行特征整合
不同方法的定量指标见表1。我们可以观察到,基于Transformer的模型在PSNR和SSIM方面始终优于基于CNN的方法,利用图像小块之间的长距离相似性。然而,他们总是将图像分割成规则的小块,这些小块可能会破坏输入图像中的对象、边界等。
相比之下,我们的方法利用超像素为Transformer实现可解释和连续的区域划分。在所有五个基准数据集和所有三个尺度上,我们获得了最好或次最好的PSNR/SSIM分数。而且,该方法的参数数量比现有的基于Transformer的方法要少。
图6显示了Urban100、BSDS100和Set14数据集上的比例因子×4的可视化比较。结果表明,只要LR图像中存在相应的非局部信息,所提出的自旋方法就能有效地恢复严重受损的纹理。相反,缺乏非局部注意的深度SISR模型无法准确地重建受损的纹理。例如,对比“B100/148026”图像的重建结果,我们的模型得到的结果与HR非常接近,而其他没有非局部注意的竞争SISR模型如CARN和IMDN不适合恢复这样严重受损的区域。
此外,与ESRT、SwinIR-light和ELAN-light等其他基于注意力的深度SISR方法相比,我们的SPIN模型仍然保持了较好的重建质量。此外,对于“Urban100/img020”这幅图像,即使没有太多的纹理信息,我们的方法也可以准确地恢复受损的图像。
在本文中,我们提出了一种名为超级令牌交互网络(SPIN)的新方法,该方法利用超像素将局部相似像素分组成可解释的局部区域。该方法利用超像元内注意促进不规则局部超像元区域内的局部信息交互,超像元交叉注意模块通过超像元替代实现远程信息交互。大量的实验表明,SPIN在精度和轻量级方面优于目前最先进的超分辨率方法。此外,该方法还解决了利用可解释区域划分来处理整个图像的难题。