首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

VRT : 视频恢复变压器

视频恢复(如视频超分辨率)旨在从低质量帧恢复高质量帧。与单个图像恢复不同,视频恢复通常需要利用多个相邻但通常不对齐的视频帧的时间信息。现有的视频恢复方法主要分为两大类:基于滑动窗口的方法和循环方法。如图 1(a) 所示,基于滑动窗口的方法通常输入多个帧来生成单个 HQ 帧,并以滑动窗口的方式处理长视频序列。在推理中,每个输入帧都要进行多次处理,导致特征利用效率低下,计算成本增加。其他一些方法是基于循环架构的。如图 1(b) 所示,循环模型主要使用之前重构的 HQ 帧进行后续的帧重构。由于循环的性质,它们有三个缺点。首先,循环方法在并行化方面受到限制,无法实现高效的分布式训练和推理。其次,虽然信息是逐帧积累的,但循环模型并不擅长长期的时间依赖性建模。一帧可能会强烈影响相邻的下一帧,但其影响会在几个时间步长后迅速消失。第三,它们在少帧视频上的性能明显下降。

01

轻量级CNN架构设计

卷积神经网络架构设计,又指backbone设计,主要是根据具体任务的数据集特点以及相关的评价指标来确定一个网络结构的输入图像分辨率,深度,每一层宽度,拓扑结构等细节。公开发表的论文大多都是基于ImageNet这种大型的公开数据集来进行的通用结构设计,早期只以其分类精度来证明设计的优劣,后来也慢慢开始对比参数量(Params)和计算量(FLOPs),由于ImageNet的数据量十分巨大且丰富,所以通常在该数据集上获得很好精度的网络结构泛化到其他任务性能也都不会差。但在很多特定任务中,这种通用的结构虽然效果还可以,却并不算最好,所以一般在实际应用时通常是基于已公开发表的优秀网络结构再根据任务特点进行适当修改得到自己需要的模型结构。

01
领券