双目图像可以提供同一场景左右两个视角的信息。合理利用双目图像所包含的互补信息可以进一步提升图像超分辨的性能。
随着双摄像头成像设备的发展,双目图像超分辨在手机摄像、自动驾驶、遥感与侦察监视、智能机器人等领域具有光明的发展前景。
本文将解读双目图像超分辨领域2020年的两个最新工作:
一、Stereoscopic Image Super Resolution with Stereo Consistent Feature(AAAI2020 oral)
论文地址:
https://www.aaai.org/Papers/AAAI/2020GB/AAAI-SongW.10348.pdf
引言:在双目图像超分辨领域,StereoSR(CVPR2018)算法和PASSRnet(CVPR2019)算法均以低分辨率的双目图像作为网络输入,生成高分辨率的左视角图像。这两个算法虽然可以在一定程度上融合左右视图的信息,但是在超分辨过程中未考虑左右图的特征一致性——双目图像在未被遮挡的对应区域具有相同的纹理特征。该算法将此先验加以考虑,同时超分辨左右两个视图,并通过改进PASSRnet的网络结构与设计新的双目一致性损失函数,充分利用了左右视图纹理的一致性,实现了较PASSRnet算法更加优越的超分辨性能,如下图所示:
网络结构:该论文提出 Self and Parallax Attention Mechanism (SPAM),将自注意力机制与视差注意力机制相结合,网络结构如下(下文称其为SPAMnet):
SPAMnet采用和PASSRnet相同的特征提取模块,并在原有视差注意力机制的基础上引入了分块自注意力机制,旨在利用单幅图像的自相似性信息。SPAM的示意图如下:
由图可见,SPAMnet将左右图的信息融合分为了两个阶段。拿从右到左的转换来举例,在第一个阶段中,右图通过视差注意力图转到左图,并与左图特征(经残差块转换)以及左图经过自注意机制转换得到的特征级联,而后初步融合;在第二阶段中,SPAMnet利用左右视角的视差注意力图计算得到两边视角的disparity map,并通过比对左右图 disparity 的一致性得到左右图的valid masks,实现occlusion-aware 的左右特征融合。
损失函数方面,SPAMnet在PASSRnet的损失函数基础上引入了一个新的损失—— Stereo-consistency Loss
这项损失函数的含义为:超分辨得到的左右图不仅要跟其对应视图的groundtruth image“平行地”做Loss,还要经过计算得到disparity的转换,在未被遮挡的区域与对面视角的groundtruth image“交叉地”做Loss。
在训练过程中,这两类loss占有相同的权重。Stereo-consistency Loss 的设计充分利用了双目图像的对称性,经过Ablation Study验证,可以提升双目超分辨的性能。
最后,算法在 Middlebury、Flickr1024、以及KITTI数据集上与领域内算法进行了比较,结果如下。
二、A Stereo Attention Module for Stereo Image Super-Resolution(SPL2020)
Motivation:领域内现有的双目超分辨工作 StereoSR(CVPR2018)、PASSRnet(CVPR2019)、SPAMnet (AAAI2020)都是通过设计不同的网络结构实现双目图像超分辨任务。受限于现有双目图像数据集的数量和质量,此类方法难以从双目场景中学到丰富的图像结构和纹理的先验知识。为解决此问题,该论文提出了一个新的范例:通过设计一个通用的双目注意力模块(Stereo Attention Module,SAM),将其安插至预训练好的SISR网络中(如SRCNN,VDSR等)并在双目图像数据集Flickr1024上进行微调,实现在结合左右图互补信息的同时保持对单图信息的充分利用,从而进一步提升超分辨性能。论文验证了 SRResNet + SAM的性能优于PASSRnet(SRResNet本身的性能弱于PASSRnet)。该论文被IEEE Signal Processing Letters收录并被列为受欢迎论文Top20(Feb,2020)。
论文信息如下:
论文链接:
https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8998204
代码链接:
https://github.com/XinyiYing/SAM
该文首先分析了双目图像超分辨任务面临的挑战:
1. 双目图像超分辨需要有效地结合双目图像中的互补信息,而双目图像中的视差变化使得左右图互补信息难以被充分利用,遮挡问题造成的左右图信息不对称也给超分辨过程带来了挑战。
2. 双目图像超分辨还需要充分利用单幅图像内的结构和纹理信息。当前,双目图像超分辨算法的性能仍弱于很多SISR算法,训练集的差异产生了很大的影响。相比于SISR数据集(例如DIV2K),双目图像数据集在数量、质量、场景多样性方面处于弱势,从而限制了双目图像超分辨算法的性能。而受限于设备,获取双目图像数据集比获取单图数据集难度更大。
该论文针对以上挑战提出了解决方案,通过将多个SAM安插至现有的预训练好的两个相同的SISR网络中,并将组合而成的网络在Flickr1024数据集上微调,从而将原有的SISR网络扩展为双目超分辨网络,间接利用了SISR数据集带来的增益。SAM的结构图如下所示:
以VDSR网络为例,图(a)展示了在两个相同的VDSR骨干网络中插入了若干个SAM实现左右图双向信息交互,VDSR+SAM可以同时将输入的双目低分辨率图像重建为双目高分辨率图像;
(b)为SAM的内部结构示意图。SAM首先将输入的左右图特征进行视差注意力关联(同PASSRnet中的PAM),而后在相互正交的两个的方向上分别进行Softmax操作,得到L→R和R→L的视差注意力图。
左右图的特征分别与对应的视差注意力图进行分批次矩阵乘得到视角转换后的特征,转换后的特征与原特征以及Valid Mask级联并通过卷积整合,得到融合后的特征。
相比于视差注意力模块(PAM),SAM仅进行一次视差注意力关联便可以进行左右图双向信息的交互,结构更加紧凑高效。而左右图双向信息交互也为在SISR骨干网络中插入多个SAM奠定了基础。
论文将PAM和SAM得到的Attention Map进行了可视化,如下图所示:
从上图可以看出,SAM产生的Attention Map (b与c)同PAM产生的Attention Map(a)较为相似,从而说明SAM可以像PAM一样建立左右视图的视差关联。
实验:论文将SAM安插到单图超分辨网络SRCNN、VDSR、LapSRN、SRDenseNet、SRResNet中,均可相应提升其超分辨性能,说明了SAM的通用性和有效性;同时SRResNet+SAM的组合相比于PASSRnet可以取得更好的超分辨效果。
此外,论文针对SAM进行了三项Ablation Study:
(1)论文以VDSR网络为例,验证了将SAM安插至在单图数据集上预训练过的VDSR网络中,并在Flickr1024数据集上进行微调,可以达到相对于其他方式更好的性能。
(2)论文调查了将SAM安插至VDSR网络不同阶段带来的增益大小。实验结果表明,将SAM安插至VDSR网络的中间部分可以实现更好的性能。
(3)论文调查了在VDSR网络中安插不同数量的SAM所带来的增益。实验结果表明,随着所安插SAM数量的增加,性能能够得到提升但是慢慢趋向于饱和。
结语:
以上两个工作均从“视差注意力机制”着手,对如何进一步提升双目图像超分辨的性能做出了启发性的探索:SPAMnet强调超分辨过程中双目图像特征的一致性,并通过设计stereo-consistency loss利用了左右图特征一致性的先验;SAM强调在利用双目图像互补信息的同时也要加强对于单幅图像纹理结构先验的学习,并通过在预训练的SISR骨干网络中安插SAM模块克服了双目数据集较单目数据集上的劣势,以达到在SISR基础上进一步的性能提升。