前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >高级视频压缩和渲染的高度沉浸式8K+应用程序

高级视频压缩和渲染的高度沉浸式8K+应用程序

作者头像
用户1324186
发布2019-10-10 15:05:04
1.2K0
发布2019-10-10 15:05:04
举报
文章被收录于专栏:媒矿工厂媒矿工厂

本文为媒矿工厂编译的技术文章

原标题:ADVANCED VIDEO COMPR ESSION AND RENDERING FOR HIGHLY IMMERSIVE 8K+ APPLICATIONS

原作者:M. Alvarez-Mesa, S. Sanz-Rodríguez, C. C. Chi, M. Glowiak, R. Haring

翻译整理:Wu, Guoqing

引言

本文来自IBC2019(国际广播大会),在本文中,作者提供了一组工具,旨在简化高质量沉浸式内容的分发、回放和自适应,以满足新的沉浸式环境。这些工具基于高性能HEVC编解码器,允许使用标准计算系统对8K和16K分辨率的超高分辨率视频进行编码、解码和播放。初步结果表明,新工具支持超高分辨率的沉浸式视频回放,首次评估也显示,最终用户可以获得更好的沉浸式体验,同时使用更简单的工作流。

绪论

内容制作技术、视频压缩、渲染和显示方面的重大进步,使新一代沉浸式环境的创建成为可能,能够以前所未有的质量水平展示媒体,并提供更强的真实感。

这些类型的环境需要视频超高分辨率(包括8K以及更高),360°和3D视频,高帧速率和专业色彩格式。因此,未压缩的视频会导致巨大的数据速率,必须使用先进的分布式视频编解码器。

此外,新兴的沉浸式环境在设计上非常多样化,包括具有平面和曲面屏幕的大屏幕可视化系统、具有大视场(FoV)能力的圆顶投影。

目前,必须使用不同的工作流和回放工具为特定的目标环境生成视频内容。这使得沉浸式内容的生产不能跨不同环境重用,或者增加了多环境生产的生产成本。

为了克服这一障碍,开发了一套工具,可以使一个沉浸式视频产品的单一版本在不同的环境中使用。

工具,内容和环境,都按照图1中描述的集成方法进行了设计和改进。

图1 集成方法:工具、内容和沉浸式显示环境

新软件已经在两个沉浸式环境中进行了验证:奥地利林茨Ars电子中心(Ars Electronica Center)的深空8K和波兰波兹南超级计算和网络中心的8K 3D视频墙。

此外,为了在新的环境中测试新工具,已使用最新的媒体采集技术,例如8K 2D和3D摄像机镜头,高分辨率360°视频,延时摄影,电影渲染以及激光扫描的点云渲染

新沉浸式环境

沉浸式空间是呈现面向群体受众的沉浸式媒体的另一种方式,它们包括博物馆的多显示器设置,新的沉浸式电影院和圆顶投影。虽然这些沉浸式显示环境是高度异构的,但它们共享一组共同的需求和技术能力:

极高质量和分辨率的视频:根据定义,沉浸式环境试图让用户完全参与到内容中,因此他们往往拥有更大的屏幕和更高的分辨率,以便提供比电视或电影更高的FoV。这些要求转化为对现有电视格式(包括8K和16K)之外的分辨率的需求。

3D(立体)视频:大多数新的沉浸式环境都支持立体内容。因此,某些环境要求在120 Hz(每只眼睛60 Hz)下的分辨率和帧率高达8Kx8K。

沉浸式音频:也称为3D或空间音频,它通过使观众参与来自所有(3D)空间方向的音频来增强沉浸式体验。

下面介绍在本文中工具的设计和验证中使用的两种特定的沉浸式环境。

Ars电子中心的深空8K

深空8K是位于林茨的Ars电子中心的一个多功能演示室。它由16×9 m的墙壁和16×9 m的地面投影(见图2)组成,提供了广泛的艺术、科学和教学项目,如十亿像素摄影、延时视频、互动体验等。

图2 深空8K

8台4K投影机用于为墙壁和地板生成多达两幅8K立体图像,帧率高达120赫兹(每只眼睛60赫兹)。实际分辨率因几何校正而异。在120赫兹时,考虑到地板和墙壁投影的组合,系统的总分辨率和帧率可达8Kx8K。

PSNC新媒体实验室8K 3D墙

新媒体实验室安装的8K 3D 60p墙由12台背投Barco投影机组成,并由基于“e2”和“MCM-50单元”的Barco处理系统支持。一般架构如图3所示。装置的尺寸为6×2.8米,总分辨率为8192×4320像素(120赫兹)。

图3 PSNC公司8K三维后投影墙的总体结构

可视化系统支持3D内容,四个BARCO“e2”处理器由两个系统组成,每对处理器堆叠在一起,作为一个虚拟设备服务于8K图像。因此,每对设备处理一个8K图像,一个用于左眼,一个用于右眼。

沉浸式内容创作

目前还没有一种单一的标准方法来创建沉浸式内容,尤其是针对沉浸式环境时。内容创建者正在使用各种工具和技术,包括:

延时摄影:高分辨率相机是用来创建延时视频产生高的真实感,因为他们可以超越摄像机的分辨率。一些高质量的8K和10K分辨率延时视频的例子包括时间风暴电影公司的Martin Heck,科幻电影公司和NHK科技公司的Joe Capra的作品。

真实的8K 2D和3D素材:通过使用8K摄像机,可以创建一个更身临其境的内容体验。日本NHK率先推出了8K内容,包括波兰PSNC的8K媒体实验室在内的新制作中心也陆续出现。

3D CGI及动画:计算机生成的高分辨率内容使我们能够以更高的细节感和沉浸感探索人造世界。以极高分辨率和沉浸式格式特殊使用CGI的最新示例包括:Nohlab的Prima Materia 8K(8Kx8K 3D);和Tadej Droljc制作的《 Singing Sand》,采用8Kx4K 3D格式。

全景视频:高端摄像头可产生360°视频,与头戴式显示器(HMD)相比,其提供了更加身临其境的体验。例如,将HHI Omnicam与ARRI Alexa电影摄影机结合使用时,可以产生具有360°x120°FoV和14Kx2K分辨率的内容。

3D激光扫描和点云渲染:在这种方法中,使用扫描仪来发射激光束并收集各个方向上的测量距离。收集的数据可以表示为三维空间中的点(也称为点云),表示完整对象的3D模型。可以使用专用软件(例如CloudCompare)将点云渲染为2D和3D视频。我们扩展了该工具,以支持高分辨率360°视频渲染。用于沉浸式视频制作的点云渲染的最新示例包括:BBC Studios的3D大金字塔和12K p60 3D 360°格式的Scanlab;以及从内部– PSNC用16K p60 360°格式呈现的波兹南大教堂的不同视图。

使用上述技术的几个内容片段已经在沉浸式欧洲项目的内容中生成,并用于测试工具和评估沉浸式环境。

沉浸式媒体编码的工作流程

随着使用广泛的技术来产生沉浸式内容并且其针对广泛的异构沉浸式环境,期望的是使用一组定义的格式和工具来定义工作流,以使内容适应显示环境。提议的工作流程包含四个主要组件:视频编码,视频播放,沉浸式音频和媒体适配。

视频编码

例如,由于沉浸式媒体的分辨率和质量都很高,因此产生的未压缩文件非常庞大:120 Hz的8Kx8K的数据速率为212 Gbit / s,相当于1.6 TB / min。为了使分发和回放切实可行并具有成本效益,需要视频压缩。我们选择HEVC的软件实现作为沉浸式媒体的主要编解码器,因为它具有高压缩效率和高质量,并且具有支持各种色度格式和分辨率的灵活性。

作为基准,我们选择了由Spin Digital开发的现有HEVC编码器,该编码器已经支持HEVC范围扩展,并且与现有编解码器相比具有良好的压缩和质量性能。编解码器已通过优化的用于几何转换的预处理滤波器得到了增强:等角投影(ERP)到立方体贴图(CMP)投影,视口生成以及缩放和旋转功能。还支持视频色彩调整,包括色域映射和HDR色调映射。因此,可以处理来自高端360°工作流程(例如Omnicam)的文件,执行颜色和几何图形转换并以高质量HEVC格式进行编码。该编码器还通过支持并行图块编码和受运动限制的图块而得到增强,这对于需要部分解码的应用程序是必需的。表1总结了增强型HEVC编码器支持的格式。

表1 SpinDigital HEVC 编码器支持的格式

实验结果表明,与开源编码器x265相比,改进后的编码器在目标质量和编码速度相同的情况下,对8K视频的比特率可降低27%。

视频解码和渲染

在回放方面,已对HEVC解码器和视频渲染引擎进行了一些优化,以确保对非常高分辨率的视频进行实时回放。这些优化包括:

先进的多线程:HEVC视频软件解码器已被广泛优化,为现代CPU架构,其中有几十到数百个处理器核心。HEVC解码器并行处理与Wavefront并行处理(WPP)方法配合得最好,因为它具有很高的并行可伸缩性,允许我们减少内存使用和解码延迟。

SIMD优化:解码器已通过最新的单指令多数据(SIMD)指令(例如Intel AVX-512)进行了优化。实验结果表明,与使用AVX2指令优化的基准相比,性能提升高达20%。

有效像素格式:通常,像素或视频样本以8位的倍数存储在计算机内存中。对于10位和12位视频,样本通常以16位存储。与8位相比,实际上10位和12位使所需的内存和PCIe带宽增加了一倍。为了减轻这种情况,我们引入了位对齐格式,其中样本直接一个接一个地存储在内存中,而没有字节对齐。这些格式分别可为10位和12位节省多达37.5%的带宽需求和内存。

BC4压缩:对于某些应用程序(例如16K),即使采用位对齐格式,其主要瓶颈仍然是CPU到GPU的数据传输。为解决此问题,我们在GPU纹理格式中添加了动态压缩功能,该压缩功能是平面格式压缩的4倍。视频渲染器能够显着加快速度,性能提升与传输减少成反比。

总体而言,解码和渲染优化结果表明,可以在最新一代的双插槽工作站上解码和渲染高达16Kx8K 60 Hz的视频。这种增强的性能使沉浸式媒体播放的新应用成为可能,例如8Kx8K 120 Hz立体内容,超高分辨率360°视频和超高比特率内容(例如点云)。

表2列出了考虑中的不同沉浸式格式,以及用于高质量播放的相应未压缩和HEVC压缩比特率。可以在具有双插槽Intel Xeon Platinum 8168 CPU(2个24核)和AMD Radeon Pro WX7100 GPU的PC系统上使用优化的软件来播放内容。

表2 沉浸式格式及其未压缩和HEVC压缩的比特率

应该注意的是,HEVC并未针对点云内容进行优化,因此,高质量播放需要非常高的比特率。在MPEG下,正在为开发用于点云的特定视频编解码器进行持续的努力,这将允许直接压缩点云表示形式。

在不使用点云表示的情况下降低比特率的另一种解决方案是使用HEVC屏幕内容编码(SCC)扩展中定义的用于SCC的特定工具。

沉浸式音频

空间声音是使最终用户真正参与沉浸式媒体内容的基本组成部分。最受欢迎的空间音频格式包括:多通道,对象和混音。

与多声道或对象不同,混音格式不携带扬声器或对象信号,而是代表空间声场的声道。此属性使混音可以灵活地用于异构沉浸式空间的音频格式,因为可以将单个文件解码为不同的扬声器布局以及VR HMD的双耳声音。

关于拟议的沉浸式音频编码和播放的工作流程,在编码器方面,具有ACN / SN3D格式的多达16个通道的高阶混响(HOA)文件以高级音频编码(AAC)进行编码,然后与HEVC视频一起封装在MP4中。在播放方面,HOA AAC轨道被解码为特定的扬声器布局或耳机。此工作流程需要为每个目标扬声器布局实施歧义解码器。

适应内容显示

沉浸式内容需要适应每个沉浸式环境的细节。适应可以包括:色彩转换适应和几何适应。

色彩转换适应:随着宽色域和高动态范围(HDR)的出现,目前正在以这些格式制作新内容,包括使用BT.2020色域和HDR传递函数(PQ和HLG)。但是,几乎没有沉浸式显示系统能够支持新格式。为了具有高质量的内容到显示的适应性,我们实现了色调映射(HDR到SDR)和色域映射(BT.2020到BT.709)算法。它们可以在进行脱机编码之前用作预处理滤波器,也可以在媒体播放器的视频渲染模块中用作后处理过滤器以进行实时转换。

几何和显示适应:这些适应的目的是允许在不同的显示环境(例如高分辨率平面和曲面屏幕)上播放单个输入文件。360°视频的工作流程如下。起点是未压缩的ERP高分辨率360°视频。该文件在编码前会转换为CMP格式,以提高压缩性能并易于播放。根据目标观看环境,可以提取具有不同视点,FoV和分辨率的适应视口,然后将其投影到常规的平面或曲面显示器上。根据目标系统的要求,还可以在编码之前或回放期间应用几何转换。

图4显示了多显示器弯曲环境的示例。它由3x3超宽曲面显示器(144 Hz时为3840x1080像素),总分辨率为11520x3240像素,水平FoV为180°和5.1环绕声系统组成。此配置已用于在Marchédu Film-Festival de Cannes 2019的Cannes XR部分演示沉浸式媒体。

图4 11520x3240分辨率的多屏曲面显示器

结论

本文介绍了一套为高质量沉浸式内容回放和适应新的沉浸式环境而设计的工具。它们基于一个优化的HEVC编解码器实现,该实现允许使用标准计算平台编码和回放非常高分辨率的视频(8K和16K)。为了简化沉浸式内容对不同类型沉浸式显示器的适应,设计了一套视频处理滤波器和一个灵活的视频呈现引擎。它们包括诸如色调和色域映射、360°投影转换和几何转换等转换。初步结果表明,编码和播放包括8Kx8K 3D (120 Hz)、12Kx8K 360°和8Kx4K点云在内的超高质量视频是可能的。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-10-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 媒矿工厂 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
图像处理
图像处理基于腾讯云深度学习等人工智能技术,提供综合性的图像优化处理服务,包括图像质量评估、图像清晰度增强、图像智能裁剪等。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档