来源:PCS 2021 演讲者:Mohana Singh 内容整理:贾荣立 本文提出了一种基于学习的端到端光场图像压缩模型,在图像重建质量和处理速度上展示了比较好的性能。
目录
与传统的 2d 成像相比,4d 光场在我们的实际环境中捕获了更丰富的光表示。
在传统的 2D 摄影中,从物体上的一个点发出的光被镜头聚焦到传感器上的一个点上,因此我们可以获知从该点发出的光的强度,但是丢失了光线的方向信息。
而光场相机配备了微透镜阵列,有助于分离光线,因此不仅可以捕捉强度,还可以捕捉光线的方向。下图是 4d 光场的多视图表示,可以在其中看到 u 和 v 维度上的空间变化以及 s 和 t 维度上的角度变化。
4d 光场的多视图表示
由于在 4d 光场中捕获了额外的光线方向信息,导致更高的数据负载,因此要求有更先进的光场图像的压缩技术。
近些年来,学术界已经提出了多种用于光场图像压缩的解决方案,其中大多数解决方案都受到传统图像和视频压缩领域发展的启发,并利用现有的标准设计编解码器,如 HEVC 和 JPEG。
随着深度学习在诸多领域的日益普及,图像压缩领域也出现了新的发展方向。基于学习的光场压缩方法也在不断涌现。然而,这些模型中的大多数由许多独立的部分组成,并利用现有的标准设计编解码器(如 HEVC)来实现不同的比特率,然后使用基于学习的部分来增强压缩的性能,这增加了模型的复杂性,同时,模型的设计并没有真正考虑到光场的特定质量和结构。因此,本文提出了一种新的端到端模型,该模型通过优化失真和速率来学习光场图像的压缩。
将不同的视角视图进行标号,一起进行输入,使得 4d 的光场信息转换为 3d。
输入数据格式
整体结构是一个简单的自动编码器,该编码器将输入行的八个视图作为输入,执行非线性变换以将输入映射到低维表示,并进行量化和熵编码。然后在解码器端对比特流进行熵解码,然后解码器执行非线性合成变换以恢复重建。
模型的两个主要部分包括一个颜色模块和八个辅助视差模块。
颜色模块和八个辅助视差模块
顾名思义,颜色模块应该学习光场输入的光的强度信息。颜色模块将输入流的八个视图作为输入,并利用空间相关性和角度相关性,该模块由 3d 卷积层以及一些非线性组成。
另一个模块辅助视差模块学习视差信息,该视差模块的输入张量由四个切片组成,第一个切片是当前输入行的第 i 个视图 第二个切片是中心视图,另外两个切片包含第 i 个视图相对于整个 4d 光场的位置索引。
在颜色模块站点上有输出的中间表示,而在视差模块方面,得到八个视差图,每个视差图都用于提供最终的重建输出。
这里的损失是由最终重建和原始输入之间的 mse 损失给出的,分别由来自颜色模块和来自八个视差模块共同组成。率失真使用交叉熵估计。
实验中,通过在 64×64 大小的patch上进行训练,但是测试是在整个图像上完成的,测试集包括 18 个光场场景。
与 JPEG 2000, HEVC 和 VVC 这三种标准手工设计编解码器进行了比较,如图所示,本文提出的模型的性能优于其他三种。
Luminance MS-SSIM vs Bitrate
在亮度 psnr 方面,模型没有现有的视频编解码器表现得好。如图所示:
Luminance PSNR vs Bitrate
下表显示了与一些最近的基于学习的模型和 vvc 的平均处理时间比较,由于模型的固有结构,能够利用多个 GPU 来实现实际的编码和解码运行,因此平均运行时间显著低于其他基于学习的方法。
平均处理时间对比
如实例一所示,可以看到该模型很好地学习了水平和垂直视差:
实例一
不仅如此,它还学习重建了一些更棘手的区域,如实例二中突出显示的遮挡区域:
实例二
作者提出了一种基于学习的端到端模型,能够实现光场图像的压缩,无需其他手工提取特征,在图像重建和处理速度上展示了比较好的性能。
最后附上演讲视频: