这是AIMS和VSF带来的一期夏季会议,会议主讲人是Kent Terry,他是杜比实验室声音技术的高级经理,他将与我们讨论IP音频及元数据的内容。
Kent Terry首先做了一些背景介绍,为什么要努力探讨音频元数据和IP的内容,我们从当前的生产实践中获得了什么,并探讨IP传输当前所处的位置。从大多数观众的角度来看,下一代音频将主要用于广播,而沉浸式体验、个性化和易于访问被称为下一代音频的三大支柱,而ATSC则将其定义为在他们在ATSC3.0工作中的一部分。
首先沉浸式是一个包罗万象的术语,而ATSC的方式可以实现较高的空间分辨率和增强的开放感,当前的生产或多或少限于5.1引导水平面,当谈论沉浸式时主要谈论的是增加水平面以使观众周围有更多听觉角度,或者引入诸如声音场景之类的功能,这样至少可以将身临其境的沉浸感带入比较简单的5.1系统,并添加一个沉浸式的高度通道,提供超越目前系统所能提供的功能,但是这其中很多这些功能需要音频元数据。
个性化则是另一支柱,例如:如果用户正在观看体育比赛,则可以选择想要听到的某位播音员的声音,目前有些人正在以其他的方式来做,但是广播公司还是希望能够将它们整合到他们的主要线路中,以便用户可以选择自己想听的内容,并且有机会提供更多种语言,尤其是在欧洲和其他地区许多语言支持的功能是非常重要的,并且有很多功能可供有听力障碍的人使用,或根据他们自己的播放设置调整声音,这些都是个性化的要素。这些存在许多复杂的技术可以做到这一点,但是其中很多都需要元数据,因此这些都是我们希望包含在下一代系统中的所有东西,并且都是音频系统的一部分,而音频系统是ATSC 3.0的一部分,我们想知道如何提供元数据来做到这一点。时间同步音频元数据是提供这些功能的关键组件。
实时工作流的音频元数据的种类包括:静态元数据,指在广播情况下针对给定节目或给定流的,保持不变的元数据,还有动态或时变元数据,这些元数据在音频的实际流传输期间可能会改变诸如响度之类的特性,例如当处理音频的空间位置之类的东西,这在计算机和游戏中是很常见的,在游戏中当聆听的位置发生变化时,需要知道某游戏角色在您面前的某个地方,并且他们左右的位置在不断变化,这需要元数据来描述该位置,而对话级别也在变化,因此会有很多不同的时间的元数据,但共同点是它需要与音频非常紧密地对齐。
我们正在进入具有下一代音频的世界,元数据成为是产品的一部分,也就是说:没有元数据,就不能复制音频,也不能传输音频,这就是我们在此方面所做出的努力,致力于这些新标准的采纳。
之后Kent Terry概述了当前的ST 2110标准,这些标准在基于IP的工作流程中支持NGA功能,包括与基于SDI的旧系统的无缝交换。
附上演讲视频: