Google 6DOF视频生成与编解码：身临其境

用户1324186

发布于 2020-11-02 10:49:28

1.2K0

发布于 2020-11-02 10:49:28

文章被收录于专栏：媒矿工厂

本文为媒矿工厂翻译的技术文章

原标题：Google 6DOF videos review: move inside VR videos

原文链接：https://skarredghost.com/2020/10/10/google-6dof-videos-review/amp/

翻译整理：郭帅

在SIGGRAPH 2020上，Google提出了一种新的算法[1,2]来进行6DOF VR视频的录制与编解码，对于给定空间，用户无论选择何种视角，都可以得到沉浸式的观看体验，仿佛置身其中。本文对该算法做一简介，并展示效果。

PART

背景

常见的360°视频仅能提供有限的VR体验，它只能提供一种被动式的观看效果，无法让用户完全享受所观看的场景空间，因为用户的视角是完全固定的。6DOF视频的提出就是为了解决这些问题，用户在观看时可以自由选择观看的角度和位置，但是也带来了更多的技术挑战：6DOF视频难以采集和传输。本文中Google不仅提出了拍摄6DOF视频的方式，而且发展了能够有效编解码6DOF视频的算法。

PART

采集系统

作者用46个成本较低的小蚁4K运动相机（售价约1199元）组建了一个相机阵列，每个相机都分布在半球形的三角形贴片的顶点上，如下图所示：

用水平线匹配相机方位，这样可以最大化系统在水平方向上的视野，并且保证所有相机的卷帘快门变形一致，简化配置。该系统用一个主相机和一个2线同步触发线来控制所有相机，每台相机都用一根USB2.0数据线供电并传输图像，然后用高带宽的USB3.0扩展坞并行地传输这些图像。小蚁4K相机的软件支持阵列模式，可以用来做相机之间的时钟同步，相机接收到“开始”的信号后，根据自身的时间系统进行图像采集。作者把该系统放在房间中并运行，周期性地用闪光灯照射，发现该系统中的所有相机可以在4ms内开始拍摄图像。以30Hz频率进行15分钟的拍摄时，系统内部的时间漂移始终小于1/2。系统在每次拍摄前都需要校准，在拍摄过程中认为参数稳定。作者还用采集序列中特定的4帧，以及一些其他的方法，校准相机的姿态、标度和曝光。

PART

视角插值

作者把视角合成问题归结为基于稀疏输入视角的多球体图像（Multi-sphere images，MSI）生成问题，而现有的工作多是多平面图像（Multi-plane images，MPI）生成研究。DeepView[4]是近年提出的一种视角插值网络，可以通过推理与合并各输入MPI视角，迭代地提炼MPI图像。本文的作者将DeepView中的MPI视角替换为MSI视角，用于生成本文中的MSI虚拟视角的图像，并且采用了自定义的Tensorflow操作进行CPU光线追踪，来计算弯曲区域，此外还采用了新的损失函数。作者收集了130个场景来训练集，每个场景都包含5个位置姿态下的观察结果。在训练时，用其中一个位姿作为输入图像，其他位姿作为相邻视角生成的目标图像。

PART

将MSI图像转化与传输

由于通过DeepView网络生成的MSI图像分辨率较高，层数较多——本文中6DOF视频的每一帧MSI图像包含超过100层的RGBA纹理（A表示的是alpha不透明度），这给传输和终端的渲染带来了很大挑战。作者将MSI图像根据景物深度的简化为16层RGBA纹理，每一层的纹理由各个视角的图像组合而成。而对于处于同一深度的不同景物，其边界则用不同的不透明度A来区分。作者还将每个场景分为8×8个块分别做纹理贴图。传输过程选择的编码方式是H.265，CRF取值为14。由于不支持A通道，作者将不透明度信息图和RGB图像分别作为两张图像来进行传输。最终实现的数据传输速率为124Mb/s-322Mb/s.

最终效果展示：

参考资料

[1] Broxton M, Flynn J, Overbeck R, et al. Immersive light field video with a layered mesh representation[J]. ACM Transactions on Graphics (TOG), 2020, 39(4): 86: 1-86: 15.

[2] THE GHOST HOWLS. Google 6DOF videos review: move inside VR videos! [EB/OL]. https://skarredghost.com/2020/10/10/google-6dof-videos-review/amp/, 2020.10

[3] 映维网. 谷歌将在SIGGRAPH 2020演示其最新光场视频系统 [EB/OL]. https://yivian.com/news/75849.html, 2020.6.22

[4] Flynn J, Broxton M, Debevec P, et al. Deepview: View synthesis with learned gradient descent[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 2367-2376.

[5] YouTube. Immersive Light Field Video with a Layered Mesh Representation [EB/OL]. https://www.youtube.com/watch?v=SvRgkXQZIQg&t=65s. 2020.6.23

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2020-10-16，如有侵权请联系 cloudcommunity@tencent.com 删除

https