前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Google 6DOF视频生成与编解码:身临其境

Google 6DOF视频生成与编解码:身临其境

作者头像
用户1324186
发布2020-11-02 10:49:28
1.1K0
发布2020-11-02 10:49:28
举报
文章被收录于专栏:媒矿工厂媒矿工厂

本文为媒矿工厂翻译的技术文章

原标题:Google 6DOF videos review: move inside VR videos

原文链接:https://skarredghost.com/2020/10/10/google-6dof-videos-review/amp/

翻译整理:郭帅

在SIGGRAPH 2020上,Google提出了一种新的算法[1,2]来进行6DOF VR视频的录制与编解码,对于给定空间,用户无论选择何种视角,都可以得到沉浸式的观看体验,仿佛置身其中。本文对该算法做一简介,并展示效果。

01

PART

背景

常见的360°视频仅能提供有限的VR体验,它只能提供一种被动式的观看效果,无法让用户完全享受所观看的场景空间,因为用户的视角是完全固定的。6DOF视频的提出就是为了解决这些问题,用户在观看时可以自由选择观看的角度和位置,但是也带来了更多的技术挑战:6DOF视频难以采集和传输。本文中Google不仅提出了拍摄6DOF视频的方式,而且发展了能够有效编解码6DOF视频的算法。

02

PART

采集系统

作者用46个成本较低的小蚁4K运动相机(售价约1199元)组建了一个相机阵列,每个相机都分布在半球形的三角形贴片的顶点上,如下图所示:

用水平线匹配相机方位,这样可以最大化系统在水平方向上的视野,并且保证所有相机的卷帘快门变形一致,简化配置。该系统用一个主相机和一个2线同步触发线来控制所有相机,每台相机都用一根USB2.0数据线供电并传输图像,然后用高带宽的USB3.0扩展坞并行地传输这些图像。小蚁4K相机的软件支持阵列模式,可以用来做相机之间的时钟同步,相机接收到“开始”的信号后,根据自身的时间系统进行图像采集。作者把该系统放在房间中并运行,周期性地用闪光灯照射,发现该系统中的所有相机可以在4ms内开始拍摄图像。以30Hz频率进行15分钟的拍摄时,系统内部的时间漂移始终小于1/2。系统在每次拍摄前都需要校准,在拍摄过程中认为参数稳定。作者还用采集序列中特定的4帧,以及一些其他的方法,校准相机的姿态、标度和曝光。

03

PART

视角插值

作者把视角合成问题归结为基于稀疏输入视角的多球体图像(Multi-sphere images,MSI)生成问题,而现有的工作多是多平面图像(Multi-plane images,MPI)生成研究。DeepView[4]是近年提出的一种视角插值网络,可以通过推理与合并各输入MPI视角,迭代地提炼MPI图像。本文的作者将DeepView中的MPI视角替换为MSI视角,用于生成本文中的MSI虚拟视角的图像,并且采用了自定义的Tensorflow操作进行CPU光线追踪,来计算弯曲区域,此外还采用了新的损失函数。作者收集了130个场景来训练集,每个场景都包含5个位置姿态下的观察结果。在训练时,用其中一个位姿作为输入图像,其他位姿作为相邻视角生成的目标图像。

04

PART

将MSI图像转化与传输

由于通过DeepView网络生成的MSI图像分辨率较高,层数较多——本文中6DOF视频的每一帧MSI图像包含超过100层的RGBA纹理(A表示的是alpha不透明度),这给传输和终端的渲染带来了很大挑战。作者将MSI图像根据景物深度的简化为16层RGBA纹理,每一层的纹理由各个视角的图像组合而成。而对于处于同一深度的不同景物,其边界则用不同的不透明度A来区分。作者还将每个场景分为8×8个块分别做纹理贴图。传输过程选择的编码方式是H.265,CRF取值为14。由于不支持A通道,作者将不透明度信息图和RGB图像分别作为两张图像来进行传输。最终实现的数据传输速率为124Mb/s-322Mb/s.

最终效果展示:

参 考 资 料

[1] Broxton M, Flynn J, Overbeck R, et al. Immersive light field video with a layered mesh representation[J]. ACM Transactions on Graphics (TOG), 2020, 39(4): 86: 1-86: 15.

[2] THE GHOST HOWLS. Google 6DOF videos review: move inside VR videos! [EB/OL]. https://skarredghost.com/2020/10/10/google-6dof-videos-review/amp/, 2020.10

[3] 映维网. 谷歌将在SIGGRAPH 2020演示其最新光场视频系统 [EB/OL]. https://yivian.com/news/75849.html, 2020.6.22

[4] Flynn J, Broxton M, Debevec P, et al. Deepview: View synthesis with learned gradient descent[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 2367-2376.

[5] YouTube. Immersive Light Field Video with a Layered Mesh Representation [EB/OL]. https://www.youtube.com/watch?v=SvRgkXQZIQg&t=65s. 2020.6.23

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-10-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 媒矿工厂 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档