思维的碰撞：小波变换偶遇深度学习

AIWalker

发布于 2021-04-29 14:21:40

2K0

文章被收录于专栏：AIWalkerAIWalker

重磅干货，第一时间送达

标题&作者团队

本文是浙江大学于2019提出的一种基于小波的图像超分方案，算是比较“老”的一种方案了。不过考虑到它的创新：将小波变换与深度学习相结合，本文还是值得略读一番。不同于其他深度学习图像超分方案，本文采用小波变换提取图像的四组系数并作为网络的输入，预测残差图像的小波系数。这不同于常规方案的直接进行图像复原或者残差图像复原，小波系数的预测使得其具有更好的鲁棒性。

Abstract

现有的基于深度学习的图像超分往往采用更深、更宽的架构提升重建图像质量，这就导致了更大的计算量、更慢的推理速度。尽管也有研究员设计轻量型网络用语图像超分，但往往造成性能损失。

本文提出一种基于小波的残差注意力网络(wavelet-based residual attention network, WRAN)用于图像超分。具体来说，该网络的输入与标签是由2D小波变换生成的四组系数，通过显式地将图像拆分为高低频四个通道有助于降低训练难度。与此同时，我们提出多核卷积构建基础模块，它可以自适应集成不同感受野的特征；此外，我们还采用了残差注意力模块，它包含通道注意力与空域注意力机制。因此所提方案能够以更轻量方式从通道与空域维度聚焦于潜在纹理。

本文通过充分的实验表明：所提WRAN具有计算高效性，同时取得了SOTA超分性能。本文的主要贡献包含以下几点：

我们采用2D小波变换生成的四组系数作为输入，因此低频内容与高频细节可以在训练之前进行显式分离。这种处理方式有助于缓解训练难度且不会造成信息损失。
我们采用多核卷积构建基础模块，它可以字使用进行不同感受野特征汇聚与集成；
我们对残差注意力模块进行了探索并用于自适应特征提炼。

Method

Wavelet Transform

wavelet

上图给出了小波变换的示意图，小波变换会将输入图像变换为四组系数

[A,V,H,D]

。本文采用Haar小波进行变换。

visual

上图给出了2D小波变换示意图，输入X将被分解为四个子带系数，它们分别对应低频、垂直、水平以及对角信息，每个子带的分辨率为输入的一半。此外需要注意的是：小波变换及其逆变换均可逆，不会造成信息损失。

Network Structure

framework

上图给出了本文所提网络架构示意图，它的输入

I_{bic}^w \in R^{\frac{h}{2} \frac{w}{2} \times 4}

为bicubic图像

I_{bic} \in R^{h\times w}

经由小波变换处理后得到的四组系数。首先，我们采用卷积对其提取浅层特征：

F_0 = f_{ext}(I_{bic}^2) = \sigma(C(I_{bic}^w,5\times5,c),\alpha)

由于小波变换特性，网络的输入包含负值，因此我们采用LeakyReLU激活函数。该网络的主体部分由L个带注意力机制的多核卷积模块构成，同时引入了局部跳过连接辅助信息流动，定义如下：

F_{i+l}= H_{i+1}(i_i) = f_{spa}(f_{chn}(f_{conv}(F_i))) + F_i, i=0,1,\cdots L-1

为克服梯度消失问题，我们将不同模块的输入进行拼接：

F_{cat} = [F_1, F_2, \cdots, F_L]

在完成特征融合后，我们采用瓶颈结构进一步压缩特征，定义如下：

F_{w} = C(\sigma(C(F_{cat}, 3\times 3, c),\alpha), 3\times3, 4)

需要注意：该网络的目标是重建残差图像的小波变换系数，，此时有：

I_{HR} = idWT(F_w) + I_{bic}

Multi-kernel Convolutional layer

上图为多核卷积结构，它受启发于Inception得到，它包含四个分支，每个分支具有不同的感受野：

[1,3,5,7]

，每个卷积后接LeakyReLU激活函数。完成不同尺度特征提取后我们对其进行拼接并进行维度压缩。

Channel attention layer

layer-attention

上图为通道注意力模块，它与常规SE模块存在一些不同之处。SE采用全局均值池化提取平均特征，而这里不仅采用全局均支池化，同时还采用最大值池化。整个计算过程还是比较简单的，所以就先略过了。

Spatial attention

spatial-attention

上图给出本文所采用的空域注意力模块，类似上面的通道注意力，它同样采用联合均值池化与最大值池化。整体计算过程如下：

\begin{cases} M_{max}^s = P(F_{in}^s, 'max', axis=2) \\ M_{avg}^s = P(F_{in}^s, 'avg', axis=2) \end{cases}

然后将上述两者拼接后送入

7\times 7

卷积中计算注意力图，计算方式如下：

M^s = sig(C([M_{max}^s, M_{avg}^s], 7\times 7, 1))

最后将上述所得注意力图与输入相乘得到增强后的特征：

F_{out}^s = M^s \circ F_{in}^s

注：损失函数方面采用了常规的

L_1

损失。

Experiments

为验证所提方案的有效性，我们采用DIV2K数据进行模型训练，测试数据为Set5、Set14、B100以及Urban100。评价准则采用了最常用的PSNR与SSIM。

parameter

上图对比了模块数、通道数对于模型性能的影响对比。可以看到：

提升模块数据可以显著提升模型的性能，当L>8时模型基本达到饱和；
提升通道数量，模型的性能同样逐渐提升，但同时也导致更大的计算量、更多的参数量。为平衡模型大小与性能，我们默认通道数为64.

上图对比了激活函数的参数

\alpha

与通道注意力模块中的下降因子r的性能影响对比。可以看到：

当参数

\alpha=0.1

时，模型取得了最佳性能；

当参数

r=4

时，模型取得了最佳性能。

上表对比了本文所提三个不同模块组合时的性能对比，很明显：

注意力额外引入的参数量可以忽略不计；
通道注意力与空域注意力均有助于提升模型性能；
卷积+通道注意力+空域注意力的组合取得最佳模型性能。

上表对比了不同结构模块组合时的性能对比，可以看到：

A+H+V+D的组合取得最佳性能；
多核卷积取得了最佳性能；
max+avg的注意力组合取得了最佳性能。

上表对比了所提方法与其他超分方案的性能对比，可以看到：RCAN与WRAN取得了最佳的性能；在小尺度超分任务上WRAN性能更佳；在大尺度超分上RCAN性能更佳。此外，附上X4超分任务下不同方案的视觉效果对比图。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2021-04-26，如有侵权请联系 cloudcommunity@tencent.com 删除

深度学习

本文分享自 AIWalker 微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

深度学习

登录后参与评论

0 条评论

热度