前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >ECCV 2022 | 可调节的真实场景图像超分辨率, 腾讯ARC Lab利用度量学习来解决

ECCV 2022 | 可调节的真实场景图像超分辨率, 腾讯ARC Lab利用度量学习来解决

作者头像
机器之心
发布2022-09-13 13:42:21
6360
发布2022-09-13 13:42:21
举报
文章被收录于专栏:机器之心

机器之心专栏

作者:Chong Mou

来自腾讯 ARC Lab 的研究者们提出利用无监督的度量学习, 来训练现实场景下可调节的图像超分辨率任务。

现实世界超分辨率 (Real-world super-resolution) 是指从包含真实退化的低分辨率图像中复原得到高分辨率的图像. 可调节的现实世界图像超分辨率是一个很有挑战的任务, 因为降质 (degradation) 过程复杂且未知,可调节的交互机制很难通过有监督的训练来完成。

对于可调节的图像超分辨率, 之前的工作主要在经典退化的仿真数据上进行研究,也就是说我们已知了退化类型和退化强度。虽然这种设计在仿真数据上有不错的表现,但在现实场景下的应用仍然存在很多问题:

  • 经典的仿真退化很难模拟复杂的现实世界退化,训练出的网络在现实世界数据上重建效果较差。同时,这种设定下训练得到的可调节交互机制在现实世界数据上的调节效果也会大打折扣。
  • 虽然高阶退化可以用来仿真现实世界的低清图像,但这种仿真退化下的退化强度是未知的,很难通过有监督的训练来构建这种可调节交互机制。

最近无监督的对比学习在底层视觉领域受到越来越多的关注。这类方法方便了复杂降质特征的提取,这给来自腾讯 ARC Lab 的研究者们提供了一个思路: 是否可以利用对比的方式无监督的构建现实场景下图像超分辨率的可调节交互机制?

  • 论文:MM-RealSR: Metric Learning based Interactive Modulation for Real-World Super-Resolution
  • 论文地址: https://arxiv.org/pdf/2205.05065.pdf 
  • 开源代码:https://github.com/TencentARC/MM-RealSR
  • Colab Demo: https://colab.research.google.com/drive/1pIpHK4g2uKdbYXIuskusL9WdwQVZAz1q

这篇工作的核心是利用度量学习在高阶仿真退化中,通过对比不同样本退化强度大小的方式无监督地构建退化强度的度量空间。度量空间中的退化得分不代表真实的退化强度,但可以反映退化强度的相对大小。本篇文章提出的方法(MM-RealSR)通过度量空间中的退化得分来构建现实场景下图像超分辨率的可调节交互机制。

本文提出了在复杂的退化空间中,划分两个度量空间,分别是广义 noise 和广义 blur。因为这两种退化因素是真实场景下最为常见的也是人们最关注,和最需要调节的。MM-RealSR 在现实场景下可以达到如下图 1 的调节效果。相比于近几年其他可调节复原方法, MM-RealSR 不仅实现了现实场景下的可调节图像超分辨率, 整体重建结果也更加自然。

图 1. MM-RealSR 在真实场景下的可调节超分辨率效果

现有可调节复原方案的回顾与对比

如图 2 所示,首先来看,现有方案针对的图像退化设定是低阶的,需要已知退化类型和退化强度的。本文提出的方案面向现实场景,退化过程是高阶的,未知退化类型和退化强度的。

图 2. 本文提出方案与现有方法的对比

MM-RealSR 结构

本文关注真实场景中最常见的两种退化因子,广义 noise 和广义 blur,并对这两种退化因子做了一般化的定义如图 3 所示。其中 noise 包含高斯噪声、泊松噪声,和 JPEG 压缩等;blur 包含各向同性、各向异性,以及随机尺寸变换等模糊因素。

图 3. 退化因子的定义

针对这两种退化因子,本文提出的无监督退化估计模块如图 4 所示。通过度量学习,该模块将难以量化的现实世界退化强度映射到两个独立的度量空间之中。通过不同退化强度之间的大小对比,构建度量空间中的距离关系。本文额外通过一个锚点损失函数限制度量空间的分布。虽然度量空间中的退化得分无法反映真实的退化强度,但可以体现退化强度的相对大小关系。本文将无监督的退化估计模块和图像超分辨率模块进行联合训练,来构建退化得分和重建结果之间的可调节关系。

图 4.  基于度量学习的无监督退化估计模块

本文提出的总模型结构如图 5 所示。由退化估计模块、状态变量生成模块,以及重建模块构成。其中状态变量生成模块将预测到的退化得分转化成一组状态变量,并将这组状态变量以仿射变换的方式注入图像重建模块当中去,起到调节重建结果的作用。实验证明,本文提出的方法兼顾优越的重建效果和可调节能力。

图 5.  基于度量学习的可调节现实世界图像超分辨率网络

损失函数

本文通过 L1,Perceptual 和 GAN 复原损失函数来保证图像重建质量,通过度量损失函数(margin ranking losses)来训练噪声度量空间和模糊度量空间。度量损失函数的表达式:

为了控制度量空间中评分的分布,本文还提出了一个锚点损失函数:

和现有的现实世界图像超分辨率工作 Real-ESRGAN 类似,本文采用高阶退化的仿真数据作为训练数据。更多的细节请参见论文。

实验结果

研究者们在现实世界的低质量数据上做了重建效果的测试:

可以看到,本文提出的方法在具备交互能力的基础上,超分辨率的性能也达到了 SOTA 的水平,主观结果也更加美观自然。

研究者们在现实世界数据上对无监督退化评分器的评分能力进行了测试:

可以看到,无监督退化评分器可以较好地评估现实场景下的退化强度。

研究者们在现实世界数据上对网络的交互重建能力进行了测试:

可以看到,对比现有方法,MM-RealSR 在交互重建能力上有更好的表现。它的交互范围更大,重建效果更好。

小结

本文提出了在真实场景下,可调节的维度主要是广义 noise 和广义 blur 两方面。通过无监督的度量学习,首次实现了真实场景下可调节的图像超分辨率。提出的方法在调节能力和超分辨率性能上都取得了优异的表现。

掌握「声纹识别技术」:前20小时交给我,后9980小时……

《声纹识别:从理论到编程实战》中文课上线,由谷歌声纹团队负责人王泉博士主讲。

课程视频内容共 12 小时,着重介绍基于深度学习的声纹识别系统,包括大量学术界与产业界的最新研究成果。

同时课程配有 32 次课后测验、10 次编程练习、10 次大作业,确保课程结束时可以亲自上手从零搭建一个完整的声纹识别系统。

点击阅读原文,了解更多课程内容。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-09-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档