作者:薰风初入弦 知乎:https://zhuanlan.zhihu.com/p/295646725
比赛主要是对真实退化图像进行2倍、3倍和4倍的超分,比较的指标是PSNR和SSIM。
SRCNN[1] SRGAN[2] EDSR[3] ESRGAN[4] RCAN[5]
这些方法都是通过成对的 LR-SR 图片进行训练的,而 LR 图片则是通过 HR 图片进行双三次降采样得到的。
众所周知,在现实应用中双三次降采样训练出的模型非常拉跨,因为现实中 LR 图片的退化方式比双三次采样复杂的多。
那么问题来了,为什么大家都在用双三次采样(或者其他降采样方法)来获取数据呢?
因为获得真实世界中的 LR-SR 图片想想就很麻烦。
首先,这个有监督任务数据集的图片中 LR 与对应 SR 图片每个点的位置是一一对应的。这就导致单纯用一个高像素相机和效果很差相机拍摄同一个物体获得 LR-SR 图片对十分困难,因为很难保证角度、距离等角度完全一致,需要进行额外的图像配准(Image registration)。当然,不是说做不到,只是麻烦而已
既然真的使用去拍两张照片很麻烦,那从已有的 HR 图片去生成对应的 LR 图片就方便很多了。
那为啥不能从 LR 生成 SR 图片呢?
……假设已经有一个从 LR 图片生成 SR 图片的好办法,那我还要你 SR 模型干嘛?
为了训练更符合现实场景的需要,首先就要提出更符合要求的数据集。
City 100的图像是针对室内环境的纸质明信片进行拍摄的,因此在捕捉复杂的图像和自然场景的退化特征方面有点限制。
在真实世界中收集数据,并提出了一个上下文双边损失,以解决数据集中的不对齐问题。
由两台单反相机拍摄。他们提出了拉普拉斯金字塔框架下的LP-KPN方法。
考虑到复杂的图像退化跨不同场景和设备,一个大规模的不同的真实SR数据集。被五种不同的单反相机 (佳能、索尼、尼康、奥林巴斯和松下) 捕获,造成更具有挑战性的图像退化模式。
拍摄的对象覆盖室内和室外,如广告海报、植物、办公室、建筑物等。注意这些场景中都是没有移动中的物体的(明年水论文的方向找到了!)
这些HR-LR图像对是对齐的,这也是AIM2020 Real World 赛道使用的数据集。
只要在 Codalab 上注册就可以搞到这个数据集,不过其只随机抽取了 DRealSR 数据集的一半。
使用这个数据集的初衷,就是想要模型去训练一个:
赛道分为 2倍、3倍和4倍放大,而指标则综合了
而最终得分则是根据平均的 PSNR 和 SSIM 加权得来:
Baidu 的团队同时获得了三个赛道的冠军,而 CETC-CSKT 以及 OPPO_CAMERA 则获得了前两个赛道的第二和第三名。在第三个赛道, ALONG 和 CETC-CSKT 则获得了第二和第三名。
总结了排名靠前的种种解决方案,可以总结出如下的趋势
所有的队伍都是用深度神经网络进行超分,而神经网络的架构则很大程度地影响了最终的结果。
基本所有队伍都使用了将训练数据随机反转以及旋转90°的办法进行数据增广。
除此之外,Cut-Blur 方法也被证明十分有用!
大多数方法使用了 self-ensemble ×8 法,而也有些人通过融合不同训练参数模型的结果,甚至融合不同架构的结果进行集成。
(事实证明所有高分都是各种集成,这就是打比赛嘛,爱了爱了)
百度使用了自家提出的 GP-NAS 算法[10]对比赛用的模块进行搜索。而搜索的模型则是与 RCAN 差不多的 Dense Residual 模型变体。
使用基于高斯过程 (Gauss Process) 的 NAS 加快搜索,考虑到 GP-NAS 的超参数估计特性,它们能够有效地预测任何结构在搜索空间中的性能。
具体地,GP-NAS 旨在将网络架构搜索当成一个超参数估计任务:
有 D 个 Block,输入转换为 F 通道浅层特征,交由 Block 里的 L 个 stage(两个conv)处理,并且把 L 个 stage 的处理结果拼接到一起得到 F*L 通道特征,再 conv 成 F 通道输出。
综上所述,就是有三个超参数:
其参照了 RCAN 的两种跳接方式
IBSC的出发点是结合不同的感受野。
训练集使用的是 120 * 120 的切片,而数据增广使用了镜像翻转以及转置。
损失函数:使用了 L1 Loss 以及多尺度结构相似度损失(Multi-Scale Structural Similarity,MS-SSIM)。
使用多级模型集成机制:包括 patch 本身的自集成,以及对整张图片的 patch集成以及模型集成。
提出了自适应稠密链接超分辨率重建模型(Adaptive Dense Connection Super Resolution reconstruction(ADCSR))
Adaptive densely connected single image super-resolution. In: 2019 IEEE/CVF International Conference on Computer Vision Workshop
队伍将算法分为了两个部分:BODY + SKIP
BODY 部分关注高频特征学习。
其通过自适应密集连接提高了卷积特征的利用率。
通过自适应亚像素重建模块(adaptive sub-pixel reconstruction module,AFSC)来重建输出特征
这一块提前预训练,使得 BODY 可以更加关注高频特征的学习。
在Track 1 中使用了空间注意力机制。
使用了自集成+模型集成的方法,将输入图片分成 60×60 的输入进行拼接,以减小块的边缘差。
训练时使用 80 * 80 大小的图片进行训练。
SKIP部分需要进行单独预训练,之后再把整个网络放在一起训练。
很头铁地只使用了 L1 loss 进行训练。
提出了用于现实世界超分辨率的自校准注意力神经网络(Self-Calibrated Attention Neural Network)。
该模型的 backbone,也就是残差模块和模块间的稠密连接参考了 DRLN 模型。
在此基础上也多了个带可学习权重的输入到输出跳接:降低学习难度以让模型化更多精力学习图像的高频部分。
DRLN: Densely residual laplacian super-resolution. Arxiv 2019
该模型分为四个部分:
这个模型最大的改进就是引入了自校正卷积(Self-Calibration Convolution SCC),SCC可以用来扩展感受野,使得空间中的每个点都能够获得来自附近区域和通道的交互式信息。
SCC:Improving convolutional networks with self-calibrated convolutions. CVPR 2020
在自校准模块中还有稠密链接,一个残差块里有三个稠密链接的自校准块。
和DRLN一样,在每个大的残差块里都使用了有多尺度特征聚合(feature integration)的注意力模块。
损失函数方面,其综合了 L1,SSIM 以及 MS-SSIM 的加权组合
而其数据增广多使用了一个 CutBlur[11],集成策略使用了形同RCAN[12]的自集成(self-ensemble ×8)以及参数融合(parameter-fusion)策略[13]。