机器之心专栏
作者:Chong Mou
来自腾讯 ARC Lab 的研究者们提出利用无监督的度量学习, 来训练现实场景下可调节的图像超分辨率任务。
现实世界超分辨率 (Real-world super-resolution) 是指从包含真实退化的低分辨率图像中复原得到高分辨率的图像. 可调节的现实世界图像超分辨率是一个很有挑战的任务, 因为降质 (degradation) 过程复杂且未知,可调节的交互机制很难通过有监督的训练来完成。
对于可调节的图像超分辨率, 之前的工作主要在经典退化的仿真数据上进行研究,也就是说我们已知了退化类型和退化强度。虽然这种设计在仿真数据上有不错的表现,但在现实场景下的应用仍然存在很多问题:
最近无监督的对比学习在底层视觉领域受到越来越多的关注。这类方法方便了复杂降质特征的提取,这给来自腾讯 ARC Lab 的研究者们提供了一个思路: 是否可以利用对比的方式无监督的构建现实场景下图像超分辨率的可调节交互机制?
这篇工作的核心是利用度量学习在高阶仿真退化中,通过对比不同样本退化强度大小的方式无监督地构建退化强度的度量空间。度量空间中的退化得分不代表真实的退化强度,但可以反映退化强度的相对大小。本篇文章提出的方法(MM-RealSR)通过度量空间中的退化得分来构建现实场景下图像超分辨率的可调节交互机制。
本文提出了在复杂的退化空间中,划分两个度量空间,分别是广义 noise 和广义 blur。因为这两种退化因素是真实场景下最为常见的也是人们最关注,和最需要调节的。MM-RealSR 在现实场景下可以达到如下图 1 的调节效果。相比于近几年其他可调节复原方法, MM-RealSR 不仅实现了现实场景下的可调节图像超分辨率, 整体重建结果也更加自然。
图 1. MM-RealSR 在真实场景下的可调节超分辨率效果
现有可调节复原方案的回顾与对比
如图 2 所示,首先来看,现有方案针对的图像退化设定是低阶的,需要已知退化类型和退化强度的。本文提出的方案面向现实场景,退化过程是高阶的,未知退化类型和退化强度的。
图 2. 本文提出方案与现有方法的对比
MM-RealSR 结构
本文关注真实场景中最常见的两种退化因子,广义 noise 和广义 blur,并对这两种退化因子做了一般化的定义如图 3 所示。其中 noise 包含高斯噪声、泊松噪声,和 JPEG 压缩等;blur 包含各向同性、各向异性,以及随机尺寸变换等模糊因素。
图 3. 退化因子的定义
针对这两种退化因子,本文提出的无监督退化估计模块如图 4 所示。通过度量学习,该模块将难以量化的现实世界退化强度映射到两个独立的度量空间之中。通过不同退化强度之间的大小对比,构建度量空间中的距离关系。本文额外通过一个锚点损失函数限制度量空间的分布。虽然度量空间中的退化得分无法反映真实的退化强度,但可以体现退化强度的相对大小关系。本文将无监督的退化估计模块和图像超分辨率模块进行联合训练,来构建退化得分和重建结果之间的可调节关系。
图 4. 基于度量学习的无监督退化估计模块
本文提出的总模型结构如图 5 所示。由退化估计模块、状态变量生成模块,以及重建模块构成。其中状态变量生成模块将预测到的退化得分转化成一组状态变量,并将这组状态变量以仿射变换的方式注入图像重建模块当中去,起到调节重建结果的作用。实验证明,本文提出的方法兼顾优越的重建效果和可调节能力。
图 5. 基于度量学习的可调节现实世界图像超分辨率网络
损失函数
本文通过 L1,Perceptual 和 GAN 复原损失函数来保证图像重建质量,通过度量损失函数(margin ranking losses)来训练噪声度量空间和模糊度量空间。度量损失函数的表达式:
为了控制度量空间中评分的分布,本文还提出了一个锚点损失函数:
和现有的现实世界图像超分辨率工作 Real-ESRGAN 类似,本文采用高阶退化的仿真数据作为训练数据。更多的细节请参见论文。
实验结果
研究者们在现实世界的低质量数据上做了重建效果的测试:
可以看到,本文提出的方法在具备交互能力的基础上,超分辨率的性能也达到了 SOTA 的水平,主观结果也更加美观自然。
研究者们在现实世界数据上对无监督退化评分器的评分能力进行了测试:
可以看到,无监督退化评分器可以较好地评估现实场景下的退化强度。
研究者们在现实世界数据上对网络的交互重建能力进行了测试:
可以看到,对比现有方法,MM-RealSR 在交互重建能力上有更好的表现。它的交互范围更大,重建效果更好。
小结
本文提出了在真实场景下,可调节的维度主要是广义 noise 和广义 blur 两方面。通过无监督的度量学习,首次实现了真实场景下可调节的图像超分辨率。提出的方法在调节能力和超分辨率性能上都取得了优异的表现。
掌握「声纹识别技术」:前20小时交给我,后9980小时……
《声纹识别:从理论到编程实战》中文课上线,由谷歌声纹团队负责人王泉博士主讲。
课程视频内容共 12 小时,着重介绍基于深度学习的声纹识别系统,包括大量学术界与产业界的最新研究成果。
同时课程配有 32 次课后测验、10 次编程练习、10 次大作业,确保课程结束时可以亲自上手从零搭建一个完整的声纹识别系统。
点击阅读原文,了解更多课程内容。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin.com