首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >SFT-GAN、CSRCNN、CSNLN、HAN+、Config (f)…你都掌握了吗?一文总结超分辨率分析必备经典模型(三)

SFT-GAN、CSRCNN、CSNLN、HAN+、Config (f)…你都掌握了吗?一文总结超分辨率分析必备经典模型(三)

作者头像
机器之心
发布2023-05-01 09:41:05
3760
发布2023-05-01 09:41:05
举报
文章被收录于专栏:机器之心机器之心

 机器之心专栏

本专栏由机器之心SOTA!模型资源站出品,每周日于机器之心公众号持续更新。

本专栏将逐一盘点自然语言处理、计算机视觉等领域下的常见任务,并对在这些任务上取得过 SOTA 的经典模型逐一详解。前往 SOTA!模型资源站(sota.jiqizhixin.com)即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。

本文将分 3 期进行连载,共介绍 16 超分辨率任务上曾取得 SOTA 的经典模型。

  • 第 1 期:SRCNN、DRCN、FSRCNN、ESPCN、SRGAN、RED
  • 第 2 期:VDSR、DRRN、LapSRN、RCAN、DSRN
  • 第 3 期:SFT-GAN、CSRCNN、CSNLN、HAN+、Config (f)

您正在阅读的是其中的第 3 期。前往 SOTA!模型资源站(sota.jiqizhixin.com)即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。

第 1 期回顾:SRCNN、DRCN、FSRCNN、ESPCN、SRGAN、RED…你都掌握了吗?一文总结超分辨率分析必备经典模型(一)

第 2 期回顾:VDSR、DRRN、LapSRN、RCAN、DSRN…你都掌握了吗?一文总结超分辨率分析必备经典模型(二)

本期收录模型速览

模型

SOTA!模型资源站收录情况

模型来源论文

SFT-GAN

https://sota.jiqizhixin.com/project/sft-gan 收录实现数量:3 支持框架:PyTorch

Recovering Realistic Texture in Image Super-resolution by Deep Spatial Feature Transform

CSRCNN

https://sota.jiqizhixin.com/project/csrcnn 收录实现数量:1 支持框架:PyTorch

Cascade Convolutional Neural Network for Image Super-Resolution

CSNLN

https://sota.jiqizhixin.com/project/csnln 收录实现数量:2 支持框架:PyTorch

Image Super-Resolution with Cross-Scale Non-Local Attention and Exhaustive Self-Exemplars Mining

HAN+

https://sota.jiqizhixin.com/project/han-4 收录实现数量:2 支持框架:PyTorch

Single Image Super-Resolution via a Holistic Attention Network

Config (f)

https://sota.jiqizhixin.com/project/config-f 收录实现数量:1 支持框架:TensorFlow

One-to-many Approach for Improving Super-Resolution

图像超分辨率(Super Resolution,SR)是指从低分辨率(Low Resolution,LR)图像中恢复高分辨率(High Resolution, HR)图像的过程,是计算机视觉和图像处理中一类重要的图像处理技术。SR在现实世界中有着广泛的应用,如医疗成像、监控和安全等。除了提高图像感知质量外,SR还有助于改善其他计算机视觉任务。一般来说,超分辨率分析是非常具有挑战性的,而且本身就是一个难题,因为总是有多个HR图像对应于一个LR图像。在已有文献中,研究人员提出了各种经典的SR方法,包括基于预测的方法、基于边缘的方法、统计方法、基于patch的方法和稀疏表示方法等。 近年来,随着深度学习技术的快速发展,基于深度学习的SR模型得到了快速发展,并在SR的各种基准上取得了最先进的性能。各种各样的深度学习方法已经被应用于SR任务,从早期的基于卷积神经网络(CNN)的方法到最近使用的生成对抗网络的SR方法。一般来说,使用深度学习技术的SR方法在以下主要方面有所不同:不同类型的网络架构、不同类型的损失函数、不同类型的学习原理和策略等。 超分辨率分析可以分为视频超分辨率VSR(Video Super Resolution) 和单帧超分辨率SISR(Single Image Super Resolution),本文重点关注单帧超分辨率分析方法。本文聚焦于深度学习技术,回顾SISR中必备的TOP模型。

1、 SFT-GAN

本文是cvpr2018的图像超分辨率论文,引入了图像的分割掩码作为超分辨率的先验特征条件,即SFT layers。具体的,文章提出了使用先验类别信息来解决超分辨率纹理不真实的问题,就是在超分辨率的合成中使用语义图,语义图的生成使用了图像分割网络。文章探讨了不同分辨率下的语义分割的误差,比较后发现其实高低分辨率图像对于分割的精度影响不大。整个模型的架构如图1。

图1 SFT layer可以方便地应用于现有的SR网络。所有的SFT layer共享一个条件网络。条件网络的作用是从先验中产生中间条件,并将条件广播给所有的SFT layers,以便进一步产生调制参数

如图1,模型有两个输入,一个是低分辨率图像,另一个是分割语义图,分割语义图经过condition network 生成conditions feature map ,值得注意的是整个网络每一层的conditions feature map 都是共享的,而SFT layer是不共享的。这就相当于每隔一个卷积层就有一个conditions 的SFT layer。 SRGAN总体公式如下:

模型可分为生成和鉴别两部分。其中,生成器Gθ由两部分组成:条件网络和SR网络。条件网络将分割概率图作为输入,然后由四个卷积层处理。它生成所有SFT层共享的中间条件。为了避免一个图像中不同分类区域的干扰,通过对所有卷积层使用1×1的核来限制条件网络的感受野。SR网络由16个残差块构建,具有所提出的SFT层,其以共享条件作为输入并学习(γ,β)以通过应用仿射变换来调制特征图。引入Skip connection用于简化深度CNN的训练。通过使用最近邻上采样后跟一个卷积层来上采样特征。上采样操作在网络的后半部分中执行,因此大多数计算在LR空间中完成。 对于鉴别器Dη,应用VGG来逐渐减小空间维度。鉴别器不仅可以区分输入是真的还是假的,还可以预测输入属于哪个类别。 SFT layer 是一个小型的network 用于生成不同层的condition 信息。SFT layer 有两个输入,一个是condition network 的输出conditions,另一个则是上一层的输出F。conditions 计算出γ, β ,继而计算出整个SFT layer的输出,而整个SFT layer又作为下一层的输入。

最后,有两个目标函数,一个是vgg感知loss ,另一个是鉴别器的loss:

当前SOTA!平台收录SFT-GAN共3个模型实现。

项目

SOTA!平台项目详情页

SFT-GAN

前往 SOTA!模型平台获取实现资源:https://sota.jiqizhixin.com/project/sft-gan

2、 CSRCNN

随着SRCNN的发展,深度学习技术已被广泛应用于图像超分辨率任务。许多研究人员专注于优化和改进SRCNN的结构,实现了良好的处理速度和修复质量。然而,这些方法在训练过程中大多只考虑特定比例的图像,而忽视了不同比例图像之间的关系。基于这种考虑,本文提出了一个用于图像超分辨率的级联卷积神经网络(cascade convolution neural network,CSRCNN),它包括三个级联的快速SRCNN,每个快速SRCNN可以处理一个特定比例的图像。因此,不同比例的图像可以同时训练,所学的网络可以充分利用不同比例图像中的信息。

图2 CSRCNN网络结构。该网络由三个级联的FSRCNN组成,其中每个FSRCNN的放大系数为2。网络的输入大小为一个𝑊/8 ∗ 𝐻/8 LR图像,它被依次送入三个子FSRCNN中。每个子FSRCNN可以将输入图像的大小放大一倍。对于每个子网络,网络的输出图像将与相应的真实HR图像形成一个子损失函数,而这些子网络的子损失函数之和最终构成整个网络的损失函数

CSRCNN的网络结构由三个级联的FSRCNN组成,每个FSRCNN可以处理一个特定比例的图像。在每个子FSRCNN中,将其缩放系数设置为2,可以将输入图像的尺寸放大一倍。假设所有的图像都有相同的重量-高度比。𝑊和𝐻分别表示原始HR图像的重量和高度。𝑊/8 ∗ 𝐻/8, 𝑊/4 ∗ 𝐻/4 和 𝑊/2 ∗ 𝐻/2分别为输入到三个子网络的图像形状。用𝐼^𝑘来表示每个子FSRCNN的输入图像,其中𝑘=0,1,2代表每个子FSRCNN的ID和输入图像的比例指数。设定𝑟^𝑘代表LR图像与HR图像的比例,输入图像的大小𝐼^𝑘描述为𝑟𝑘𝑊 ∗ 𝑟𝐻。尺度比分别为r0=1/8,r1=1/4,r2=1/2,和r3=1。𝐼^(𝑘+1)=F_k(𝐼^𝑘 )是每个FSRCNN的输出图像,也就是每个子FSRCNN-k的修复HR图像。对于每个级联的FSRCNN,输出图像的大小是输入图像的两倍。 网络是由三个级联的FSRCNN组成。对于每个子网络,一方面,输出图像将进入下一个级联的子网络进行训练。另一方面,它将与相应的真实HR图像形成一个子损失函数。整个网络的损失函数是由三个子损失函数组成的。在论文实验中使用的𝐿0, 𝐿1, 𝐿2分别代表三个子网络的损失函数。整个网络的损失函数表示为:

对于每个子网络,损失函数计算如下:

在评估过程中,将根据LR图像与HR图像的比例,把LR图像分配到级联网络的不同阶段。当LR图像被分配到FSRCNN-k时,它将被调整为相应网络的输入形状𝑟𝑘𝑊 ∗ 𝑟𝑘𝐻。例如,对于一个给定的测试图像,放大系数为3倍,将调整图像的形状为𝑾/𝟐 ∗ 𝑯/𝟐 。调整后的图像将被编入FSRCNN2。在这里,每个子网络可以将输入图像的大小放大一倍。在评估结束时,所有图像都被放大到统一的HR图像。图3显示了该网络的整个评估过程。

图3 LR图像根据其分辨率比例被分配到级联的FSRCNN的不同阶段。在CSRCNN之后,所有LR图像被放大到统一的HR

当前SOTA!平台收录CSRCNN共1个模型实现。

项目

SOTA!平台项目详情页

CSRCNN

前往 SOTA!模型平台获取实现资源:https://sota.jiqizhixin.com/project/csrcnn

3、CSNLN

在单幅图像超分辨率SISR领域,使用大量的外部图像数据训练的模型可以学到有用的局部恢复信息,但近来探索图像内部的相似性也开始引起研究人员的兴趣,比如使用non-local 注意力模型利用低分辨率图像long-range相似性构建的超分辨率算法提高了SR的效果。本文提出了用于SISR任务的第一个跨尺度非局部(Cross-scale Non-local,CS-NL)注意力模块,计算图像内部的像素到块以及块到块的相似性,此外,还提出了一个强大的自样本挖掘模块(Self-Exemplars Mining,SEM)单元,在单元内部通过结合局部、尺度内非局部和跨尺度非局部特征的相关性,尽可能挖掘更多的的先验信息。 总的网络结构如图4所示,本质上是一个递归神经网络,每个递归单元为一个SEM,它完全融合了局部、尺度内非局部以及新提出的跨尺度非局部(CS-NL)信息。

图4 CS-NL注意力模块。底部的绿框是用于patch级的跨尺度相似性匹配。上面的分支显示了提取LR图像中的原始HR patch

非局部注意力(Non-local Attention)可以通过总结整个图像的相关特征来探索self-exemplars。形式上,给定图像特征图X,非局部注意力定义为:

其中,z代表经过NL模块之后i,j位置的值,X_i,j表示输入特征图i,j位置的值,X_g,h表示输入特征图g,h位置的值,X_u,v表示任意位置的值,这个公式表示遍历整个特征图像每个像素点求得与X_i,j之间的关系,然后用得到的关系整除所有位置与X_i,j的关系,这样就得到了X_g,h所在位置对X_i,j影响权重的大小,再加入X_g,h位置向X_i,j位置的映射,最终将所有位置向X_i,j的映射进行加权求和得到i,j位置新的表示。 假设输入的特征图是X(W×H),为了计算pixel-patch的相似性,需要首先将X下采样为Y(Ws×Hs),并找到X和Y之间的像素相似性,最后用X中相应的s×s patch来SR X中的像素,因此输出Z为sW×sH。跨尺度注意力(Cross-scale attention)可由上式改写为:

进一步,作者通过经验总结,用另一种patch匹配的方法来实现CS-NL注意力:

Self-Exemplars Mining模块概述如图5所示:

图5 SEM单元。在SEM内部,它融合了从CS-NL注意力中学到的特征,以及从尺度内IS-NL和局部路径中学到的其他特征

Multi-Branch Exemplars 在SEM单元内,作者详尽地挖掘了所有可能的intrinsic priors,并接受了丰富的external image priors。具体来说,挖掘图像的自相似性,并使用多分支结构学习新信息,包括传统的局部(L)和尺度内非局部(ISNL)分支,以及新提出的CS-NL分支。 Mutual-Projected Fusion 虽然SEM中的三分支结构通过独立利用LR图像中的每个信息源产生了三个特征图,但如何将这些独立的张量融合成一个综合的特征图仍不清楚。本文提出了一种相互预测的融合方法,将特征逐步结合在一起。算法过程如图6所示。

图6 Mutual-projected fusion。下采样和上采样操作分别用跨尺度卷积和跨尺度反卷积来实现

为了让网络集中于信息量更大的特征,首先计算IS-NL F_I和CS-NL F_C分支的两个特征之间的残差 R_单层卷积后,将这些特征加回F_I中,得到F_IC:

采用back-projection方法,结合局部信息对特征进行规范化处理,纠正重建误差。最终融合特征H的计算方法是:

网络通过递归的使用SEM将图像的特征信息挖掘出来,输出到最终的拼接阶段,通过卷积最终生成高质量SR图像。CS-NL模型利用了不同尺度之间特征的相关性,通过CS-NL将图像的细节变得更丰富,单个像素表征的信息变成了多个点进行信息表征,进一步缓解了卷积过程中信息的融合。

当前SOTA!平台收录CSNLN共2个模型实现。

项目

SOTA!平台项目详情页

CSNLN

前往 SOTA!模型平台获取实现资源:https://sota.jiqizhixin.com/project/csnln

4、 HAN+

信息性特征在单幅图像的超分辨率任务中起着至关重要的作用。通道注意力已经被证明可以有效地保留每一层的信息丰富的特征。然而,通道注意力将每个卷积层作为一个单独的过程,忽略了不同层之间的关联性。为了解决这个问题,本文提出了一个新的整体注意力网络(holistic attention network,HAN),它由一个层注意力模块(layer attention module ,LAM)和一个通道-空间注意力模块(channel-spatial attention module,CSAM)组成,用来模拟层、通道和位置之间的整体相互依赖关系。具体来说,LAM通过考虑各层之间的相关性,自适应地强调层次特征。同时,CSAM学习每个通道所有位置的置信度,以选择性地捕获更多的信息特征。

图7 HAN网络结构。给定一个低分辨率的图像,HAN的第一个卷积层提取一组浅层的特征图。然后,一系列的残差组进一步提取低分辨率输入的更深层次的特征表示。作者提出了一个层注意模块(LAM)来学习来自RGs的每个输出的相关性,以及一个通道-空间注意力模块(CSAM)来研究通道和像素之间的相互依赖关系。最后,一个上采样块生成了高分辨率的图像

如图7所示,HAN由四部分组成:特征提取、层注意力模块、通道空间注意力模块和最终的重构模块。给定LR,HAN的第一个卷积层提取一组浅层特征图,然后一系列残差组进一步提取LR的深层特征。其间,利用所提出的LAM来学习残差组输出的特征图的相关性,以及一个CSAM来研究通道和像素之间的相互依赖关系。最后,通过上采样模块产生HR。 首先对输入的LR图像进行卷积提取浅层特征:

然后使用RCAN网络的框架,设置N个residual group(RG)得到中间特征:

对提取到的特征进行整体特征加权,包括:i)对层级特征即各F_i的层次注意 ii)对RCAN最后一层F_N的通道-空间注意力:

其中,H_LA表示LAM模块, L从RGs的输出特征中学习特征相关矩阵,然后为各F_i加权。结果表明,该方法能够增强高贡献的特征层,抑制冗余特征层。

其中,H_CSA表示CSAM模块。通道-空间注意力的目的是通过调节特征,自适应地捕捉通道间和通道内更重要的信息,以便最终的重建处理。基于准确性与效率的权衡考量,此步只以 F_N作为输入。在LAM和CSAM分别提取特征后,对两者结果联合处理,采用亚像素卷积的上采样方法:

选择L1距离作为损失函数:

图8 LAM图示

LAM模块的输入是从N 个residual group提取到的各层次特征图,维度为N×H×W×C,并将其reshape至N×HWC维度,和对应的转置矩阵进行矩阵相乘,计算得到各层之间的相关系数W_la:

其中,δ表示softmax,ψ表示reshape操作,w_i,j代表第i个和第j个特征图间的相关系数。将各矩阵加权相乘后再加上原矩阵,得到F_Lj :

图9 通道-空间注意力模块

然后,将最后一层的特征图F_N作为输入,通过三维卷积层获得通道和空间特征W_csa,这样可以得到更有效的通道内和通道间信息。

此外,将注意力映射图W_csa和输入特征F_v进行元素乘法运算。最后,将加权后的结果乘以一个比例因子β,再加入输入特征F_N得到加权特征F_cs,其中,σ为sigmoid函数,β为比例因子,初始化为0。

当前SOTA!平台收录HAN+共2个模型实现。

项目

SOTA!平台项目详情页

HAN+

前往 SOTA!模型平台获取实现资源:https://sota.jiqizhixin.com/project/han-4

5、 Config (f)

该方法是GAN在SR中的应用。作者修改了生成器以估计一个分布作为随机噪声的映射,此外改进了阻碍知觉训练目标的内容损失,还提出了额外的训练技术以进一步提高生成图像的感知质量。

图10 循环一致性损失是通过比较LR图像和下采样的SR图像来测量的。鉴别器得到了目标图像和通过对LR图像进行双三次上采样生成的参考图像

如图10所示,作者将超分辨率问题视为LR和HR图像空间之间的图像转换任务,并应用CycleGAN框架。为了简化问题,利用对G2:HR→LR的先验知识,可以将降采样操作表示为f,并将G2设置为f,而不是学习它。这就只剩下G1和D1需要学习。作者提出循环一致性损失( cycle consistency loss)。这个损失不会以任何方式惩罚高频细节的生成,同时确保SR图像与LR图像保持一致。最后,生成器损失为:

为了使生成器能够在给定的单一图像中生成一个以上的解决方案,它必须接收和应用随机信息。超分辨率图像之间的变化将主要是高频纹理的随机变化。StyleGAN通过向生成器中每一层的输出添加像素级的高斯噪声来实现图像的随机变化,本文引入了这种方法,在生成器的每一个RRDB(Residual in Residual Dense Block)层之后添加噪声。然而,这就在噪声的大小方面引入了新的超参数。作者还观察到,各层和各通道的敏感性和所需的噪声大小是不同的。在每一层之后直接添加相同的噪声可能会损害生成器的性能。例如,检测边缘的通道会受到噪声的严重损害。为了缓解这种可能的问题,作者允许每个通道自适应地学习所需的噪声大小。具体来说,在将噪声添加到每一层的输出之前,将噪声与一个通道的缩放因子相乘。缩放因子是与网络参数同时学习的。噪声在评估时不被应用。 传统上,鉴别器网络接收单一的图像,并被训练来分类给定的图像是真实的还是生成的图像。这种设置将为生成器提供指向 "任何自然图像 "的梯度,而不是指向相应的HR图像。在一个极端的例子中,传统的鉴别器不会因为生成器从LR图像中生成完全不同但同样真实的图像而受到惩罚。虽然由于其他内容和感知损失的存在,这不太可能,但对于超分辨率的任务来说,鉴别器给出的梯度反馈是次优的。作为一种解决方案,作者将低分辨率的图像作为参考,与目标图像一起提供给鉴别器。这使鉴别器能够学习更多的重要特征来鉴别生成的图像,并根据LR图像提供更好的梯度反馈。 作者建议在网络对patch进行训练之前,检测并去除模糊的patch。有各种模糊检测的方法,例如算法方法和基于深度学习的方法。然而,大多数基于深度学习的工作侧重于预测图像的像素级模糊图,作者认为这并不能满足本文的需要,而选择了算法方法。如图11,作者测量patch的Laplacian activation的方差,并认为方差低于100的patch是模糊的patch。该算法在DIV2K数据集的16,000个96×96大小的随机裁剪的patch样本中检测到28.8%的模糊patch,在DIV8K数据集的140,000个patch样本中检测到48.9%的patch。

图11 在DIV8K数据集的图像0031上测试的随机选择的模糊检测算法样本。上面两行是被分类为清晰的patch,下面几行是模糊的patch。图像中清晰的区域(人、杆)被检测算法正确地认为是清晰的patch

当前SOTA!平台收录Config (f)共1个模型实现。

项目

SOTA!平台项目详情页

Config (f)

前往 SOTA!模型平台获取实现资源:https://sota.jiqizhixin.com/project/config-f

前往 SOTA!模型资源站(sota.jiqizhixin.com)即可获取本文中包含的模型实现代码、预训练模型及API等资源。 

网页端访问:在浏览器地址栏输入新版站点地址 sota.jiqizhixin.com ,即可前往「SOTA!模型」平台,查看关注的模型是否有新资源收录。 

移动端访问:在微信移动端中搜索服务号名称「机器之心SOTA模型」或 ID 「sotaai」,关注 SOTA!模型服务号,即可通过服务号底部菜单栏使用平台功能,更有最新AI技术、开发资源及社区动态定期推送。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2023-04-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1、 SFT-GAN
  • 2、 CSRCNN
  • 3、CSNLN
  • 4、 HAN+
  • 5、 Config (f)
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档