前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >即插即用!视频超分中的涨点神器:iSeeBetter

即插即用!视频超分中的涨点神器:iSeeBetter

作者头像
CV君
发布2021-01-05 10:46:22
7070
发布2021-01-05 10:46:22
举报
文章被收录于专栏:我爱计算机视觉

CNN让超分结果更真实,GAN让超分结果更丰满,所以CNN+GAN=GOOD! 添加一个鉴别器组件就能使结果增加0.32dB,即插即用,涨点神器!是否在其他的CNN架构上也可行,还需实验验证。 题目:iSeeBetter:iSeeBetter: Spatio-temporal video super-resolution using recurrent generative back-projection networks 论文:https://arxiv.org/pdf/2006.11161.pdf 代码:https://github.com/amanchadha/iSeeBetter

看点

CNN在大尺度上的超分往往缺乏精细的细节纹理,生成性对抗网络能够缓解这个问题。为此,本文提出了一种基于GAN的时空视频超分方法——iSeeBetter,亮点如下:结合了SR中的SOTA技术: 使用循环反投影网络(RBPN)的作为其生成器,从当前帧和相邻帧中提取时空信息。使用SRGAN中的鉴别器,提高了超分辨率图像的“自然性”,减轻了传统算法中的伪影。优化了损失函数的架构: 本文使用了四重损失函数(MSE、感知损失、对抗损失和全变差损失(TV))来捕捉均方误差(MSE)可能无法捕捉到的图像中的精细细节,加强生成视频的感知质量。

方法

下图展示了分别由RBPN和SRGAN作为生成器和鉴别器的iSeeBetter架构。

RBPN中的投影模块有两种从不同来源提取缺失细节的方法:SISR和MISR。下图展示了使用DBPN作为SISR结构的水平流(图2中的蓝色箭头)。

下图展示了使用五个残差块作为MISR结构的垂直流(图2中的红色箭头),MISR的输入由LR帧、相邻帧以及它们之间的密集动作流图组成。

在每个投影中,RBPN观察LR中丢失的细节,并从相邻帧中提取残差特征来恢复细节。RBPN利用循环编解码机制来融合从SISR和MISR中提取的细节,并通过反投影将它们合并到SR帧中。一旦合成了SR帧,它就被到鉴别器中以验证其“真实性”,鉴别器采用SRGAN的鉴别器,结构如下图所示。

损失

生成的SR图像的感知质量取决于损失函数的选择。为了评估图像的质量,MSE是各种方法中最常用的损失函数,其目的是提高图像的PSNR。但是这可能无法捕获图像中的精细细节,从而影响感知质量。同时,MSE捕获复杂纹理细节的能力有限,生成的视频帧过于平滑。为了解决这些问题,iSeeBetter使用了四重损失,并将这些损失综合起来作为训练iSeeBetter的最终评估标准。

MSE损失

MSE损失也称内容损失,其中

G_{θ_G}(LR_t)

表示SR帧。

MSE_{t}=\frac{1}{W H} \sum_{x=0}^{W} \sum_{y=0}^{H}\left(\left(HR_{t}\right)_{x, y}-G_{\theta_{G}}\left(LR_{t}\right)_{x, y}\right)^{2}
感知损失

感知损失定义为SR帧的特征表示

G_{θ_G}(LR_t)

与真实帧HR之间的欧氏距离。它关注的是感知相似性,而不是像素空间中的相似性。依赖于从VGG-19网络中提取的特征。

\begin{aligned} &\text { Perceptual Loss }_{t}=frac{1}{W_{i, j} H_{i, j}} \sum_{x=1}^{W_{i, j}} \sum_{y=1}^{H_{i, j}}\left(\begin{array}{l} V G G_{i, j}\left(H R_{t}\right)_{x, y}- \\ V G G_{i, j}\left(G_{\theta_{G}}\left(L R_{t}\right)\right)_{x, y} \end{array}\right)^{2} \end{aligned}

其中

VGG_{i,j}

表示第

i^{th}

个池化层之前

j^{th}

卷积激活后的特征图。

对抗损失

对抗损失限制模型的“幻想”,提高了超分辨图像的“自然性”。定义如下:

\text { Adversarial } \operatorname{Loss}_{t}=-\log \left(D_{\theta_{D}}\left(G_{\theta_{G}}\left(L R_{t}\right)\right)\right.

其中,

D_{θ_D}(G_{θ_G}(LR_t))

是鉴别器认为生成图像是真实图像的输出概率。本文最小化

-log(D_{\theta D}(G_{\theta G}(LR_{t})))

去获得更佳的梯度行为。

全变差损失

全变差损失定义为水平方向和垂直方向上相邻像素之间的绝对差之和。由于TV损失测量输入中的噪声,因此将其最小化作为总体损失目标的一部分有助于去除输出SR帧中的噪声,从而提高空间平滑度。定义如下:

TV \operatorname{Loss}_{t}=\frac{1}{W H} \sum_{i=0}^{W} \sum_{j=0}^{H} \sqrt{\begin{array}{l} \left(G_{\theta_{G}}\left(L R_{t}\right)_{i, j+1, k}-G_{\theta_{G}}\left(L R_{t}\right)_{i, j, k}\right)^{2}+ \\ \left(G_{\theta_{G}}\left(L R_{t}\right)_{i+1, j, k}-G_{\theta_{G}}\left(L R_{t}\right)_{i, j, k}\right)^{2} \end{array}}
总损失

生成器的总损失为上面四个损失的加权和,如下图所示:

\operatorname{Loss}_{G_{\theta_{G}}}\left(S R_{t}\right)=\begin{aligned} \alpha & \times M S E\left(S R_{t}, H R_{t}\right) \\ +& \beta \times \text {Perceptual } \operatorname{oss}\left(S R_{t}, H R_{t}\right) \\ +& \gamma \times \text {Adversarial } \operatorname{Loss}\left(S R_{t}\right) \\ +& \delta \times T \operatorname{VLoss}\left(S R_{t}, H R_{t}\right) \end{aligned}

其中

\alpha,\beta,\gamma,\delta

是权重,值分别为1,

6×10^{-3}

10^{-3}

2×10^{-8}

。鉴别器的总损失如下:

\operatorname{Loss}_{D_{\theta_{D}}}\left(S R_{t}\right)=1-D_{\theta_{D}}\left(H R_{t}\right)+D_{\theta_{D}}\left(S R_{t}\right)

实验

数据集

为了使iSebetter更加健壮,并使其能够处理真实世界的视频,作者从YouTube收集了额外的数据,将数据集扩充到大约170000个片段,训练/验证/测试分别为其中的80%/10%/10%。训练时采用BI的降质方式,下图展示了数据集的组成。

消融实验

对所提出的架构和损失函数进行消融实验:

量化评估
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-01-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 我爱计算机视觉 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 看点
  • 方法
  • 损失
  • 实验
相关产品与服务
腾讯云 BI
腾讯云 BI(Business Intelligence,BI)提供从数据源接入、数据建模到数据可视化分析全流程的BI能力,帮助经营者快速获取决策数据依据。系统采用敏捷自助式设计,使用者仅需通过简单拖拽即可完成原本复杂的报表开发过程,并支持报表的分享、推送等企业协作场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档