专栏首页人工智能前沿讲习思想的碰撞:非局部均值偶遇深度学习(第二部)

思想的碰撞:非局部均值偶遇深度学习(第二部)

paper:https://arxiv.org/abs/2006.01424

code:https://github.com/SHI-Labs/Cross-Scale-Non-Local-Attention

该文是地平线&UIUC等提出的一种图像超分方案,它与笔者之前分享的文章《思想的碰撞:非局部均值偶遇深度学习》同出一辙,感兴趣者可以先去了解一下跨尺度非局部注意力机制。而该文则是在前述文章的基础上进行了拓展并投于CVPR2020.

Abstract

基于深度学习的图像超分取得了前所未有的进展,但这些方法往往受益于网络的更深、感受野的更宽。图像块的非局部相似性是图像的一种基本先验信息,而这却很少在深度学习方面得到探索与应用。尽管已有相关方法尝试采用非局部注意力机制进行图像超分,但跨尺度相似性却并未受到关注。

在该文中,作者将跨尺度特征相关性先验信息纳入到深度学习中并嵌入到递归神经网络中。它通过递归单元组合所提跨尺度非局部注意力机制与单尺度非局部注意力。通过组合上述先验信息,所提图像超分在多个公开数据集上取得了SOTA性能。

Method

上图给出了该文所提出的图像超分架构示意图。很明显,它是一个递归神经网络,作者将每个递归单元命名为Self-Exemplars Mining, SEM,它用于集成局部、单尺度非局部、跨尺度非局部先验信息。

CS-NL Attention Module

上图为跨尺度非局部注意力模块示意图。

Self-Exemplars Mining Cell

上图给出了SEM的示意图,每个SEM单元用于集成利用多种先验信息,比如Local、In-Scale Non-Local、Cross-Scale Non-Local等先验信息。

  • 对于LocalBranch而言,它是一种简单的信息融合,比如Concat与Add均可;
  • 对于In-Scale Non-Local而言,它是一种简单的非局部注意力机制,源自《Sencond-order attention network for single image super resolution》;
  • 对于Cross-Scale Non-Local而言,它则是该文的核心关键之一。

前面已经介绍了所涉及到的几种先验信息,那么如何融合将是其中的关键环节。这种采用了类似《Deep Back-Projection Networks for Super-Resolution》的方法进行多种先验信息融合,见上图。

Recurrent Framework

Experiments

为验证所提方案的有效性,作者在DIV2K数据上进行了模型训练,并在Set5、Set14、B100、Urban100、manga109等数据集上进行了验证。所有指标在YCbCr空间中的Y通道上进行评估,评价准则为PSNR与SSIM。

关于网络架构,SEM模块的数量为12,中间特征通道数为128。在训练过程中,输入图像块大小为48X48,batch为16,数据增广方面进行随机镜像与转换,优化器为Adam,初始学习率为0.0001,每150epoch折半,合计训练500epoch。训练硬件平台为Nvidia V100GPU。

下表给出了所提方法与其他超分方法在公开数据集上的性能对比与视觉效果对比,很明显,所提方法取得了SOTA指标。

此外,作者还在Set5数据集对比了不同方法的PSNR指标与参数量,见下图。「注:这个对比非常不公平!递归模块的参数去对比非递归模块的参数,呵呵。如果真要公平的话,应该将CSNLN的参数量x12后再去对比就差不多。这样对比的话,相比SAN就看不到什么参数量上的优势咯。」

与此同时,作者还进行了一些消融实验。下图给出了Cross-Scale与In-Scale两者的注意力图效果展示。可以看到:In-Scale更关注于像素灰度相似性;而Cross-Scale则更关注块相似性,这与非局部均值的思想相一致。

下表给出了SEM中不同模块对于模型性能的影响性分析对比,从而说明Cross-Scale对于图像的信息充分利用非常重要。更多消融实验对比分析,建议查阅原文。

Conclusion

该文提出了首个将跨尺度非局部注意力用于图像超分的方案,基于所提模块,它可以更有效的挖掘图像中的跨尺度非局部相似性;与之前的In-Scale注意力相结合可以进一步提升图像超分的性能,在多个公开数据集上取得了SOTA性能。

转载来源:AIWalker

本文分享自微信公众号 - 人工智能前沿讲习(AIFrontier)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-06-15

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 基于深度学习的图像超分辨率最新进展与趋势【附PDF】

    图像超分辨率是计算机视觉和图像处理领域一个非常重要的研究问题,在医疗图像分析、生物特征识别、视频监控与安全等实际场景中有着广泛的应用。随着深度学习技术的发展,基...

    马上科普尚尚
  • 基于深度学习的艺术风格化研究【附PDF】

    廖菁博士,获浙江大学和中国香港科技大学双博士学位;毕业后曾工作于微软亚洲研究院,担任视觉计算组研究员,主要研究方向为计算机图形学、计算机视觉、图像视频处理等;现...

    马上科普尚尚
  • CVPR 2019 | STGAN: 人脸高精度属性编辑模型

    classification也要训练的,和auto-encoder一起训练,介样练:

    马上科普尚尚
  • Reddit热点 | 想看被打码的羞羞图片怎么办?CNN帮你解决

    翻译 | 刘畅 编辑 | Donna,波波 超分辨重构是图像处理领域地一项非常有趣的任务。它可以通过算法将一张低分辨率的图片放大成一张高分辨率地图片。这个事情乍...

    AI科技大本营
  • 《黑色皮包》入围翠贝卡电影节,独家专访VR影像导演邵晴,探索全新镜头表达语言!

    (VRPinea4月10日电)近日,受全球性新冠病毒疫情影响,翠贝卡电影节的主办方不得不再次宣布延期其准备在4月召开的活动。

    VRPinea
  • HDR关键技术:质量评价技术(续)

    在上一篇HDR质量评价帖中,我们列举了业内常见的HDR质量评估算法,然而不同算法有不同的应用领域。本文将结合重要的HDR技术,进一步描述HDR质量评价技术。本文...

    用户1324186
  • 直击微鲸VR上海发布会——VR一体机X1正式亮相

    VRPinea
  • 开发 | 用深度学习技术,让你的眼睛可以控制电脑

    本文为 AI 研习社编译的技术博客,原标题 Use your eyes and Deep Learning to command your computer —...

    AI科技评论
  • 用深度学习技术,让你的眼睛可以控制电脑

    你有没有过这样的经历,当你在吃东西的时候,发现自己没有多余的手来调节电影的音量,或者调节屏幕的亮度?在本文,我们将看到如何使用最先进的人工智能技术来解决这个问题...

    AI研习社
  • 视频背景抠图:世界是您的绿屏

    是否希望在没有完整工作室的情况下制作专业质量的视频?还是在视频会议期间Zoom的虚拟背景功能效果更好?

    代码医生工作室

扫码关注云+社区

领取腾讯云代金券