【GiantPandaCV导语】GiantPandaCV成员做的一点小工作~目前已经CVPR 2022 Workshop接收,该工作主要的motivation如下:基于物理模型的水下图像生成方法效果并不理想,视觉效果差;在RGB图像的channel和spatial层面同时模拟水下退化不均匀分布特性;高分辨率图像的实时渲染是一个比较challenge的问题。
相关信息
论文题目:CVPRW22《Underwater Light Field Retention : Neural Rendering for Underwater Imaging》
论文链接:https://arxiv.org/abs/2203.11006
代码链接:https://github.com/Ephemeral182/UWNR
水下图像的渲染(合成)可以应用于各种实际应用,例如水下图像增强、相机滤镜和虚拟游戏,且对目前获取水下数据集的成本相对高昂,特别是水下成对数据集的ground-truth大多数都是由算法生成的,这会造成一定的偏差。因此我们旨在用干净的图像来生成逼真的水下图像,我们探讨了水下图像渲染中两个关注点不高但具有挑战性的问题,即 (1) 如何通过单个神经网络渲染不同的水下场景?(2) 如何从自然样本中自适应地学习水下光场,即真实的水下图像?我们设计了一个基于水下光场保留的水下神经渲染架构(UWNR)来解决以上问题。
文章的主要工作:
我们的UWNR架构在训练阶段采用Paired的图像进行训练,在渲染(推理)阶段从任意选择一张干净图像和一张水下图像便可以生成逼真的水下图像,总体流程图如下图所示
(a) Clean Image (b)第一行为水下图像,第二行为水下图像对应的光场图,第三行为对应的渲染结果。
#### Depth Estimation Network
获得了光场信息之后,另一个关键的因素是深度信息。考虑到RGBD获取的难度,我们并不需要配对的RGBD图像,我们运用pre-trained的深度预测模型[^1]进行协同工作,以提高了适用性。
对于网络结构的设计,我们采用ED结构来抽取特征并进行图像的重建,在下采样层后面我们添加了一个多分支混合block,考虑到水下场景的局部特征复杂多样,我们首先通过1×1和3×3卷积得到不同的感受野,进行多重特征融合。同时,我们还使用了残差连接,可以解决梯度消失的问题,并考虑到水下图像中某些区域的空间结构和颜色不受场景退化的影响。在多分支融合之后,我们应用了空间注意模块如图 (b)和通道注意模块如图(c)的组合。空间注意力机制提高了网络对水下图像中光场分布、深度信息等复杂区域的关注能力,通道注意力机制则关注网络对特征中重要通道的表达,从而提高整体模型的表达性能。我们的模型在推理渲染1024 \times 1024的图片时仅需要0.0023s,可以快速生成大量图片。
Blocks
Underwater Dark Channel Loss
对于水下图像的合成,其要符合水下的统计特性,UDCP[^2]将暗通道先验原理应用于水下。我们定义了一个水下暗通道损失,使生成的水下图像与干净图像在暗通道层面一致:
水下暗通道损失表达如下:
Light Field Consistency Loss
为了有效保持真实水下图像的光场特性,我们引入了基于自然光场图的光场一致性损失,以获得更好的渲染性能。我们利用多尺度高斯滤波器来捕获光场图:
光场一致性损失表示如下:
除此之外我们使用了感知损失和L1重建损失来进行pixel级别的监督,总的损失表达如下:
在实验部分我们采用 FID[^3] 评估度量来客观地评估我们生成的图像的效果,然后我们采用 PSNR、SSIM 和 UIQM 度量来衡量我们生成的水下图像数据集与其他水下图像生成方法相比对水下增强网络Shallow uwnet[^4]的效果。
除此之外我们还在论文和补充材料中展示了大量的Vsual Comparison:
在最后我们利用我们的UWNR方法创建了一个大型水下合成数据集包含由5000张真实水下图像合成的5w张合成水下数据集,具体数据集可以在github中找个链接,以下放几张效果图
Authors: Tian Ye†(集美大学 本科三年级), Sixiang Chen†(集美大学 本科三年级), Yun Liu(西南大学), Erkang Chen(集美大学)*, Yi Ye, Yuche Li(中国石油大学)