前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >AIM2020 Real World SR(真实场景超分)

AIM2020 Real World SR(真实场景超分)

作者头像
AIWalker
发布2020-11-23 11:08:04
1.6K0
发布2020-11-23 11:08:04
举报
文章被收录于专栏:AIWalker

作者:薰风初入弦 知乎:https://zhuanlan.zhihu.com/p/295646725

1. Introduction

比赛主要是对真实退化图像进行2倍、3倍和4倍的超分,比较的指标是PSNR和SSIM。

1.1 SR的历史:SOTA的路线图

SRCNN[1] SRGAN[2] EDSR[3] ESRGAN[4] RCAN[5]

这些方法都是通过成对的 LR-SR 图片进行训练的,而 LR 图片则是通过 HR 图片进行双三次降采样得到的。

众所周知,在现实应用中双三次降采样训练出的模型非常拉跨,因为现实中 LR 图片的退化方式比双三次采样复杂的多。

那么问题来了,为什么大家都在用双三次采样(或者其他降采样方法)来获取数据呢?

因为获得真实世界中的 LR-SR 图片想想就很麻烦。

首先,这个有监督任务数据集的图片中 LR 与对应 SR 图片每个点的位置是一一对应的。这就导致单纯用一个高像素相机和效果很差相机拍摄同一个物体获得 LR-SR 图片对十分困难,因为很难保证角度、距离等角度完全一致,需要进行额外的图像配准(Image registration)。当然,不是说做不到,只是麻烦而已

既然真的使用去拍两张照片很麻烦,那从已有的 HR 图片去生成对应的 LR 图片就方便很多了。

那为啥不能从 LR 生成 SR 图片呢?

……假设已经有一个从 LR 图片生成 SR 图片的好办法,那我还要你 SR 模型干嘛?

1.2 那咋整:Real World SR 数据集

为了训练更符合现实场景的需要,首先就要提出更符合要求的数据集。

1.2.1 City 100[6]

City 100的图像是针对室内环境的纸质明信片进行拍摄的,因此在捕捉复杂的图像和自然场景的退化特征方面有点限制。

1.2.2 SR-RAW[7]

在真实世界中收集数据,并提出了一个上下文双边损失,以解决数据集中的不对齐问题。

1.2.3 RealSR[8]

由两台单反相机拍摄。他们提出了拉普拉斯金字塔框架下的LP-KPN方法。

1.2.4 DRealSR[9]

考虑到复杂的图像退化跨不同场景和设备,一个大规模的不同的真实SR数据集。被五种不同的单反相机 (佳能、索尼、尼康、奥林巴斯和松下) 捕获,造成更具有挑战性的图像退化模式。

拍摄的对象覆盖室内和室外,如广告海报、植物、办公室、建筑物等。注意这些场景中都是没有移动中的物体的(明年水论文的方向找到了!)

这些HR-LR图像对是对齐的,这也是AIM2020 Real World 赛道使用的数据集。

2. 比赛细节

2.1 数据集:DRealSR

只要在 Codalab 上注册就可以搞到这个数据集,不过其只随机抽取了 DRealSR 数据集的一半。

使用这个数据集的初衷,就是想要模型去训练一个:

  1. 适应真实场景中退化模式的
  2. 而且能够同时适应不同退化模式的单一模型。

2.2 赛道与指标

赛道分为 2倍、3倍和4倍放大,而指标则综合了

  • 峰值信噪比 PSNR(Peak Signal to Noise Ratio)
  • 结构相似性系数 SSIM(Structural Similarity index)

而最终得分则是根据平均的 PSNR 和 SSIM 加权得来:

2.3 比赛结果

Baidu 的团队同时获得了三个赛道的冠军,而 CETC-CSKT 以及 OPPO_CAMERA 则获得了前两个赛道的第二和第三名。在第三个赛道, ALONG 和 CETC-CSKT 则获得了第二和第三名。

总结了排名靠前的种种解决方案,可以总结出如下的趋势

2.3.1 网络结构

所有的队伍都是用深度神经网络进行超分,而神经网络的架构则很大程度地影响了最终的结果。

  • TeamInception 设计了一个带有很多残差的结构以降低训练的难度。
  • OPPO_CAMERA 则将输入和输出层通过了一个可学习的卷积层连接到了一起。
  • CETC-CSKT 进一步地提出对跳接分支中的可训练层进行预训练。
  • 很多队伍,比如 DeepBlueAI 以及 SR-IM 使用了通道注意力模块。
  • 而 TeamInception 和 Noah_TerminalVision 则把通道注意力模块和空间注意力模块全用上了。

2.3.2 数据增广

基本所有队伍都使用了将训练数据随机反转以及旋转90°的办法进行数据增广。

除此之外,Cut-Blur 方法也被证明十分有用!

2.3.3 集成(Ensemble)策略

大多数方法使用了 self-ensemble ×8 法,而也有些人通过融合不同训练参数模型的结果,甚至融合不同架构的结果进行集成。

(事实证明所有高分都是各种集成,这就是打比赛嘛,爱了爱了)

3. 大佬们的解法

3.1 Baidu(1 1 1)

百度使用了自家提出的 GP-NAS 算法[10]对比赛用的模块进行搜索。而搜索的模型则是与 RCAN 差不多的 Dense Residual 模型变体。

3.1.1 GP-NAS 高斯过程 NAS

使用基于高斯过程 (Gauss Process) 的 NAS 加快搜索,考虑到 GP-NAS 的超参数估计特性,它们能够有效地预测任何结构在搜索空间中的性能。

具体地,GP-NAS 旨在将网络架构搜索当成一个超参数估计任务:

  1. 基于互信息最大化高效采样网络
  2. 根据采样网络的性能,逐步更新超参数的后验分布。
  3. 基于估计的超参数,可以得到性能最好的网络结构。

3.1.2 搜索空间

有 D 个 Block,输入转换为 F 通道浅层特征,交由 Block 里的 L 个 stage(两个conv)处理,并且把 L 个 stage 的处理结果拼接到一起得到 F*L 通道特征,再 conv 成 F 通道输出。

综上所述,就是有三个超参数:

  1. F:通道特征数
  2. D:模块数
  3. L:Stage数

3.1.3 跳接

其参照了 RCAN 的两种跳接方式

  1. 模块跳接(Block Skip Connection,BSC)是模块输入与输出之间的调节
  2. 模块间跳接(Inter-Block Skip Connection,IBSC)是将上一个模块的输入连接到本模块内两个stage

IBSC的出发点是结合不同的感受野。

3.1.4 训练细节

训练集使用的是 120 * 120 的切片,而数据增广使用了镜像翻转以及转置。

损失函数:使用了 L1 Loss 以及多尺度结构相似度损失(Multi-Scale Structural Similarity,MS-SSIM)。

使用多级模型集成机制:包括 patch 本身的自集成,以及对整张图片的 patch集成以及模型集成。

3.2 CETC-CSKT(2 2 3)

提出了自适应稠密链接超分辨率重建模型(Adaptive Dense Connection Super Resolution reconstruction(ADCSR))

Adaptive densely connected single image super-resolution. In: 2019 IEEE/CVF International Conference on Computer Vision Workshop

队伍将算法分为了两个部分:BODY + SKIP

3.2.1 BODY

BODY 部分关注高频特征学习。

其通过自适应密集连接提高了卷积特征的利用率。

通过自适应亚像素重建模块(adaptive sub-pixel reconstruction module,AFSC)来重建输出特征

3.2.2 SKIP

这一块提前预训练,使得 BODY 可以更加关注高频特征的学习。

3.2.3 其他细节

在Track 1 中使用了空间注意力机制。

使用了自集成+模型集成的方法,将输入图片分成 60×60 的输入进行拼接,以减小块的边缘差。

训练时使用 80 * 80 大小的图片进行训练。

SKIP部分需要进行单独预训练,之后再把整个网络放在一起训练。

很头铁地只使用了 L1 loss 进行训练。

3.3 OPPO_CAMERA(3 3 7)

提出了用于现实世界超分辨率的自校准注意力神经网络(Self-Calibrated Attention Neural Network)。

该模型的 backbone,也就是残差模块和模块间的稠密连接参考了 DRLN 模型。

在此基础上也多了个带可学习权重的输入到输出跳接:降低学习难度以让模型化更多精力学习图像的高频部分。

DRLN: Densely residual laplacian super-resolution. Arxiv 2019

该模型分为四个部分:

  1. 特征提取
  2. Residual in Residual 深度特征提取
  3. 上采样
  4. 重建

这个模型最大的改进就是引入了自校正卷积(Self-Calibration Convolution SCC),SCC可以用来扩展感受野,使得空间中的每个点都能够获得来自附近区域和通道的交互式信息。

SCC:Improving convolutional networks with self-calibrated convolutions. CVPR 2020

在自校准模块中还有稠密链接,一个残差块里有三个稠密链接的自校准块。

和DRLN一样,在每个大的残差块里都使用了有多尺度特征聚合(feature integration)的注意力模块。

损失函数方面,其综合了 L1,SSIM 以及 MS-SSIM 的加权组合

而其数据增广多使用了一个 CutBlur[11],集成策略使用了形同RCAN[12]的自集成(self-ensemble ×8)以及参数融合(parameter-fusion)策略[13]。

参考

  1. ^SRCNN: Learning a deep convolutional network for image super-resolution. ECCV 2014
  2. ^SRGAN: Photo-realistic single image superresolution using a generative adversarial network.
  3. ^EDSR: Enhanced deep residual networks for single image super-resolution. CVPR2017 Workshop
  4. ^ESRGAN: Enhanced super-resolution generative adversarial networks. ECCV 2018
  5. ^RCAN: Image super-resolution using very deep residual channel attention networks. ECCV 2018
  6. ^Camera lens super-resolution. CVPR 2019
  7. ^Camera lens super-resolution. CVPR 2019
  8. ^Toward real-world single image super-resolution: A new benchmark and a new model. ICCV 2019
  9. ^Component divideand-conquer for real-world image super-resolution. ECCV 2020
  10. ^Gp-nas: Gaussian process based neural architecture search. CVPR 2020
  11. ^CutBlur:Rethinking data augmentation for image superresolution: A comprehensive analysis and a new strategy. CVPR 2020
  12. ^Self-ensemble:Image super-resolution using very deep residual channel attention networks. ECCV 2018
  13. ^Perceptual extreme super-resolution network with receptive field block. CVPRW 2020
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-11-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AIWalker 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. Introduction
  • 1.1 SR的历史:SOTA的路线图
  • 1.2 那咋整:Real World SR 数据集
    • 1.2.1 City 100[6]
      • 1.2.2 SR-RAW[7]
        • 1.2.3 RealSR[8]
          • 1.2.4 DRealSR[9]
          • 2. 比赛细节
          • 2.1 数据集:DRealSR
          • 2.2 赛道与指标
          • 2.3 比赛结果
            • 2.3.1 网络结构
              • 2.3.2 数据增广
                • 2.3.3 集成(Ensemble)策略
                • 3. 大佬们的解法
                • 3.1 Baidu(1 1 1)
                  • 3.1.1 GP-NAS 高斯过程 NAS
                    • 3.1.2 搜索空间
                      • 3.1.3 跳接
                        • 3.1.4 训练细节
                        • 3.2 CETC-CSKT(2 2 3)
                          • 3.2.1 BODY
                            • 3.2.2 SKIP
                              • 3.2.3 其他细节
                              • 3.3 OPPO_CAMERA(3 3 7)
                              • 参考
                              相关产品与服务
                              访问管理
                              访问管理(Cloud Access Management,CAM)可以帮助您安全、便捷地管理对腾讯云服务和资源的访问。您可以使用CAM创建子用户、用户组和角色,并通过策略控制其访问范围。CAM支持用户和角色SSO能力,您可以根据具体管理场景针对性设置企业内用户和腾讯云的互通能力。
                              领券
                              问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档