首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >思维的碰撞:小波变换偶遇深度学习

思维的碰撞:小波变换偶遇深度学习

作者头像
AIWalker
发布2021-04-29 14:21:40
发布2021-04-29 14:21:40
2K0
举报
文章被收录于专栏:AIWalkerAIWalker

重磅干货,第一时间送达

标题&作者团队

本文是浙江大学于2019提出的一种基于小波的图像超分方案,算是比较“老”的一种方案了。不过考虑到它的创新:将小波变换与深度学习相结合,本文还是值得略读一番。不同于其他深度学习图像超分方案,本文采用小波变换提取图像的四组系数并作为网络的输入,预测残差图像的小波系数。这不同于常规方案的直接进行图像复原或者残差图像复原,小波系数的预测使得其具有更好的鲁棒性。

Abstract

现有的基于深度学习的图像超分往往采用更深、更宽的架构提升重建图像质量,这就导致了更大的计算量、更慢的推理速度。尽管也有研究员设计轻量型网络用语图像超分,但往往造成性能损失。

本文提出一种基于小波的残差注意力网络(wavelet-based residual attention network, WRAN)用于图像超分。具体来说,该网络的输入与标签是由2D小波变换生成的四组系数,通过显式地将图像拆分为高低频四个通道有助于降低训练难度。与此同时,我们提出多核卷积构建基础模块,它可以自适应集成不同感受野的特征;此外,我们还采用了残差注意力模块,它包含通道注意力与空域注意力机制。因此所提方案能够以更轻量方式从通道与空域维度聚焦于潜在纹理。

本文通过充分的实验表明:所提WRAN具有计算高效性,同时取得了SOTA超分性能。本文的主要贡献包含以下几点:

  • 我们采用2D小波变换生成的四组系数作为输入,因此低频内容与高频细节可以在训练之前进行显式分离。这种处理方式有助于缓解训练难度且不会造成信息损失。
  • 我们采用多核卷积构建基础模块,它可以字使用进行不同感受野特征汇聚与集成;
  • 我们对残差注意力模块进行了探索并用于自适应特征提炼。

Method

Wavelet Transform

wavelet

上图给出了小波变换的示意图,小波变换会将输入图像变换为四组系数

[A,V,H,D]

。本文采用Haar小波进行变换。

visual

上图给出了2D小波变换示意图,输入X将被分解为四个子带系数,它们分别对应低频、垂直、水平以及对角信息,每个子带的分辨率为输入的一半。此外需要注意的是:小波变换及其逆变换均可逆,不会造成信息损失。

Network Structure

framework

上图给出了本文所提网络架构示意图,它的输入

I_{bic}^w \in R^{\frac{h}{2} \frac{w}{2} \times 4}

bicubic图像

I_{bic} \in R^{h\times w}

经由小波变换处理后得到的四组系数。首先,我们采用卷积对其提取浅层特征:

F_0 = f_{ext}(I_{bic}^2) = \sigma(C(I_{bic}^w,5\times5,c),\alpha)

由于小波变换特性,网络的输入包含负值,因此我们采用LeakyReLU激活函数。该网络的主体部分由L个带注意力机制的多核卷积模块构成,同时引入了局部跳过连接辅助信息流动,定义如下:

F_{i+l}= H_{i+1}(i_i) = f_{spa}(f_{chn}(f_{conv}(F_i))) + F_i, i=0,1,\cdots L-1

为克服梯度消失问题,我们将不同模块的输入进行拼接:

F_{cat} = [F_1, F_2, \cdots, F_L]

在完成特征融合后,我们采用瓶颈结构进一步压缩特征,定义如下:

F_{w} = C(\sigma(C(F_{cat}, 3\times 3, c),\alpha), 3\times3, 4)

需要注意:该网络的目标是重建残差图像的小波变换系数,,此时有:

I_{HR} = idWT(F_w) + I_{bic}

Multi-kernel Convolutional layer

上图为多核卷积结构,它受启发于Inception得到,它包含四个分支,每个分支具有不同的感受野:

[1,3,5,7]

,每个卷积后接LeakyReLU激活函数。完成不同尺度特征提取后我们对其进行拼接并进行维度压缩。

Channel attention layer

layer-attention

上图为通道注意力模块,它与常规SE模块存在一些不同之处。SE采用全局均值池化提取平均特征,而这里不仅采用全局均支池化,同时还采用最大值池化。整个计算过程还是比较简单的,所以就先略过了。

Spatial attention

spatial-attention

上图给出本文所采用的空域注意力模块,类似上面的通道注意力,它同样采用联合均值池化与最大值池化。整体计算过程如下:

\begin{cases} M_{max}^s = P(F_{in}^s, 'max', axis=2) \\ M_{avg}^s = P(F_{in}^s, 'avg', axis=2) \end{cases}

然后将上述两者拼接后送入

7\times 7

卷积中计算注意力图,计算方式如下:

M^s = sig(C([M_{max}^s, M_{avg}^s], 7\times 7, 1))

最后将上述所得注意力图与输入相乘得到增强后的特征:

F_{out}^s = M^s \circ F_{in}^s

注:损失函数方面采用了常规的

L_1

损失。

Experiments

为验证所提方案的有效性,我们采用DIV2K数据进行模型训练,测试数据为Set5、Set14、B100以及Urban100。评价准则采用了最常用的PSNR与SSIM。

parameter

上图对比了模块数、通道数对于模型性能的影响对比。可以看到:

  • 提升模块数据可以显著提升模型的性能,当L>8时模型基本达到饱和;
  • 提升通道数量,模型的性能同样逐渐提升,但同时也导致更大的计算量、更多的参数量。为平衡模型大小与性能,我们默认通道数为64.

上图对比了激活函数的参数

\alpha

与通道注意力模块中的下降因子r的性能影响对比。可以看到:

  • 当参数
\alpha=0.1

时,模型取得了最佳性能;

  • 当参数
r=4

时,模型取得了最佳性能。

上表对比了本文所提三个不同模块组合时的性能对比,很明显:

  • 注意力额外引入的参数量可以忽略不计;
  • 通道注意力与空域注意力均有助于提升模型性能;
  • 卷积+通道注意力+空域注意力的组合取得最佳模型性能。

上表对比了不同结构模块组合时的性能对比,可以看到:

  • A+H+V+D的组合取得最佳性能;
  • 多核卷积取得了最佳性能;
  • max+avg的注意力组合取得了最佳性能。

上表对比了所提方法与其他超分方案的性能对比,可以看到:RCAN与WRAN取得了最佳的性能;在小尺度超分任务上WRAN性能更佳;在大尺度超分上RCAN性能更佳。此外,附上X4超分任务下不同方案的视觉效果对比图。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-04-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AIWalker 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Abstract
  • Method
    • Wavelet Transform
    • Network Structure
    • Multi-kernel Convolutional layer
    • Channel attention layer
    • Spatial attention
  • Experiments
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档