专栏首页相约机器人ECCV 2020 | 这个模型的脑补能力比GAN更强,ETH提出新型超分辨率模型SRFlow

ECCV 2020 | 这个模型的脑补能力比GAN更强,ETH提出新型超分辨率模型SRFlow

选自arXiv

作者:Andreas Lugmayr等

编辑:小舟、魔王

近日,来自苏黎世联邦理工学院计算机视觉实验室的研究者提出了一种超分辨率模型 SRFlow。该模型具备比 GAN 更强的脑补能力,能够根据低分辨率输入学习输出的条件分布。该论文已被 ECCV 2020 收录。

超分辨率是一个不适定问题(ill-posed problem),它允许对给定的低分辨率图像做出多种预测。这一基础事实很大程度上被很多当前最优的深度学习方法所忽略,这些方法将重建和对抗损失结合起来,训练确定性映射(deterministic mapping)。

近日,来自苏黎世联邦理工学院计算机视觉实验室的研究者提出了一种新的超分辨率模型 SRFlow。该模型是一种基于归一化流的超分辨率方法,具备比 GAN 更强的脑补能力,能够基于低分辨率输入学习输出的条件分布

  • 论文地址:https://arxiv.org/pdf/2006.14200.pdf
  • 项目地址:https://github.com/andreas128/SRFlow?

研究者使用单个损失函数,即负对数似然(negative log-likelihood)对模型进行训练。SRFlow 直接解释了超分辨率问题的不适定性,并学习预测不同逼真度的高分辨率图像。此外,研究者利用 SRFlow 学到的强大图像后验来设计灵活的图像处理技术,能够通过传输其他图像的内容来增强超分辨率图像。

该研究展示了基于人脸图像以及其他超分辨率图像实验,结果表明 SRFlow 在 PSNR 和感知质量度量上都优于当前最优的 GAN 方法,同时 SRFlow 允许探索超分辨率解空间,以实现生成图像的多样性。

下图展示了基于 GAN 的 ProgFSR 与基于归一化流的 SRFlow 的对比结果:

SRFlow 方法简介

研究者将超分辨率公式化为:给定低分辨率(LR)输入图像,学习高分辨率(HR)图像的条件概率分布问题。该方法旨在通过捕获基于自然图像流形的所有可能超分辨率(SR)图像,来明确地解决超分辨率问题的不适定性。

为此,研究者设计了条件归一化流架构,使用基于对数似然的训练来学习丰富的分布。

用于超分辨率的条件归一化流

超分辨率的目标是通过生成缺失的高频细节,来预测给定低分辨率图像 x 的更高分辨率版本 y。大多数当前方法学习确定性映射 x→y,而该研究旨在获取与 LR 图像 x 对应的自然 HR 图像 y 的全条件分布

这是一个颇具挑战性的问题,因为该模型必须捕获多种可能的 HR 图像,而不仅仅是预测单个 SR 输出。该研究的目的是在给定大量 LR-HR 训练对

的情况下,以纯数据驱动的方式训练分布的参数 θ。

条件流层

流层(flow-layer)f^n_θ 的设计需格外精细,以确保 well-conditioned inverse 和易于处理的雅可比行列式。[10,11] 首次解决了该挑战,最近也有很多研究者对此感兴趣 [5,14,21]。

该研究从无条件 Glow 架构 [21] 开始,该架构本身基于 RealNVP [11]。这些架构使用的流层可以以直接的方式设置为有条件的 [3,49]。研究者对其进行了概述,并介绍了该研究提出的 Affine Injector 层。

架构

SRFlow 的架构如图 2 所示:

应用和图像处理

研究者将 SRFlow 网络用于多项应用和图像处理任务,该研究的技术利用了 SRFlow 网络的两个关键优势,而这是基于 GAN 的超分辨率的方法 [47] 所不具备的。

首先,该研究的网络对 HR 图像空间内的分布

建模,而不仅仅是预测单个图像。因此,它通过捕获多个可能的 HR 预测而具有极大的灵活性。这就允许使用其它指导信息或随机采样来探索不同的预测。

其次,该流网络 f_θ(y; x) 是完全可逆的编码器 - 解码器。因此,任何 HR 图像

都可以被编码成

到潜在空间(latent space)中,并精确地重构为

。这种双射的对应关系允许在潜在空间和图像空间中灵活操作。

随机超分辨率

给定 LR 图像 x,我们可以通过采样不同的 SR 预测

,探索 SRFlow 学习到的分布

。正如基于流的模型的观察结果那样,方差较小的采样可以实现最佳结果 [21]。因此,研究者使用具有方差 τ(也称为温度)的高斯分布

。当 τ = 0.8 时,结果如下图 3 所示:

LR 一致性风格迁移

对 LR 图像 x 进行超分辨处理时,SRFlow 允许迁移现有 HR 图像

的风格。

下图 4 展示了图像中面部特征、发色和眼睛颜色的风格迁移:

潜在空间归一化

研究者利用 SRFlow 网络 f_θ 的可逆性和学得的超分辨率后验,开发了更先进的图像处理技术。该方法的核心思想是将包含所需内容的任意 HR 图像映射到潜在空间,在该空间中对潜在统计量(latent statistics)进行归一化,使其与给定 LR 图像中的低频信息一致。令 x 为低分辨率图像,

为任意高分辨率图像(不一定与 LR 图像 x 一致)。该研究的目标是获得 HR 图像 y,其包含

的图像内容,并与 LR 图像 x 一致。

图像内容迁移

该研究旨在通过传输其他图像的内容来操纵 HR 图像。令 x 为 LR 图像,y 为对应的 HR 图像。如要处理超分辨率图像,则

是 x 的 SR 样本。但,我们也可以通过将 x 设置为 y 的 down-scaled 版本

,来操纵现有的 HR 图像 y。研究人员将其他图像的内容直接嵌入 y 的图像空间,进而操纵 y,如下图 5 所示:

图像恢复

研究者将学得的图像后验应用于图像恢复任务,进而其能力。注意,此处研究者采用了相同的 SRFlow 网络,该网络仅针对超分辨率进行训练。研究者探索了对图像中的高频信息产生主要影响的因素,如噪声和压缩伪影。

实验

研究者将其提出的方法与当前 SOTA 方法进行了对比,并执行了控制变量分析。

人脸超分辨率

该研究基于 CelebA 测试集中的 5000 张图像,评估了 SRFlow 在人脸超分辨率图像任务中的性能,并与 bicubic、RRDB [47]、ESRGAN [47] 和 ProgFSR [19] 进行了对比。

通用超分辨率

研究者在 DIV2K 验证集上评估了 SRFlow 在通用超分辨率任务中的性能,并与 Bicubic、EDSR 、RRDB、ESRGAN 和 RankSRGAN 进行了对比。

与基于 GAN 的方法 [47,56] 相比,SRFlow 实现了明显更好的 PSNR、LPIPS 和 LR-PSNR 结果,并在 PIQUE 和 BRISQUE 方面也得到了出色的结果。

图 8 中的可视化结果表明,EDSR 和 RRDB 的感知效果较差,这些结果几乎不会产生高频细节。相比之下,与 ESRGAN 相比,SRFlow 能够生成丰富的细节,实现了良好的感知效果。

如第一行所示,ESRGAN 生成的图像在多个位置存在严重的褪色伪影(discolored artifact)和振铃效应(ringing pattern)。而 SRFlow 能够生成更加稳定和一致的结果。

控制变量研究

此外,为了研究深度和宽度这两个因素的影响,研究者进行了控制变量实验。图 9 显示了在 CelebA 数据集上的结果:

本文分享自微信公众号 - 相约机器人(xiangyuejiqiren)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-09-09

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 高糊图片可以做什么?Goodfellow等人用它生成一组合理图像

    作者:David Berthelot、Peyman Milanfar、Ian Goodfellow

    代码医生工作室
  • 500万面孔 - 面部识别的前15个免费图像数据集

    从手机安全和监控摄像头到增强现实和摄影,计算机视觉的面部识别分支具有多种有用的应用。根据您的具体项目,可能需要在不同光照条件下的面部图像或表达不同情绪的面部。从...

    代码医生工作室
  • 250,000辆汽车–用于机器学习的十大免费车辆图像和视频数据集

    随着特斯拉自动驾驶汽车的兴起以及谷歌Waymo等项目的兴起,自动驾驶汽车行业似乎每年都在增长。无人驾驶汽车是计算机视觉的一个重要领域,具有众多应用程序,并且具有...

    代码医生工作室
  • 想让AI读懂时尚?看看亚马逊新发的这两篇论文

    安妮 编译整理 量子位 出品 | 公众号 QbitAI 亚马逊想让AI读懂时尚。 继在Echo Look中加入穿搭指导功能引发大量吐槽后,目前,亚马逊又发表了两...

    量子位
  • 论文 | Twitter在超分辨率技术上取得新进展,能还原打码图片

    AI科技评论按:受到万众瞩目的ICLR已经于今天在法国土伦召开。该大会由Yann LeCun 、 Yoshua Bengio 等几位行业顶级专家于2013年发起...

    AI科技评论
  • 论文Express | 英伟达最新:多模态无监督图像迁移网络框架

    大数据文摘
  • CVPR 2020 | 几篇GAN在low-level vision中的应用论文

    【图像分离、去雨/反射/阴影等】Deep Adversarial Decomposition: A Unified Framework for Separat...

    公众号机器学习与生成对抗网络
  • 高糊马赛克秒变高清,「脑补」面部细节,表情帝:这还是我吗?

    杜克大学近期的一项研究可以将高糊人脸照片转换成清晰的面部图像,而且你完全看不出来图像中的人并非真人,而是计算机生成的人脸。

    机器之心
  • 北京协和医院陆菁菁:盆腔器官分割和建模的尝试与挑战 | ISICDM 2018

    近日,第二届图像计算与数字医学国际研讨会(ISICDM 2018)在成都圆满落幕。

    AI掘金志
  • 苹果机器学习开发日记:如何设计能在Apple Watch上实时运行的中文手写识别系统

    AI 科技评论按:随着苹果机器学习日记(Apple ML Journal)的开放,苹果分享出的设计自己产品、运用机器学习解决问题的故事也越来越多。近日苹果在上面...

    AI科技评论

扫码关注云+社区

领取腾讯云代金券