IP现场直播场景下生产端延迟分析与设计

用户1324186

发布于 2018-09-21 17:08:59

1.1K0

发布于 2018-09-21 17:08:59

文章被收录于专栏：媒矿工厂

摘要：

在现场制作过程中，人们常常需要对多个几乎同时到达的音视频数据流进行实时编辑处理。如果这些数据流之间存在比较明显的延迟，就有可能影响到制作过程的效率。因此，设计这样的低延迟现场制作系统需要充分考虑各种延迟因素，以便将多个数据流之间的延迟保持在可接受的范围内。随着广播公司开始向基于IP网络接口的现场制作系统迁移，还需要在系统设计过程中将一些新的潜在延迟因素考虑在内。

本文主要参考了Michael Cronk等人的文章“A Model for the Design of IP Based Live Production Systems with Low Latency”（NAB 2017），文章首先讨论了现场生产制作中需要考虑的基本延迟要求，然后对基于IP接口的制作系统所存在的延迟量进行了建模，最后提出了一种有效控制延迟的系统性方案，可以实现与SDI制作系统相同或更低的延迟。

引言

在大多数实时性要求不是很高的广播媒体应用中（例如节目流的传输），数秒的延迟一般比较常见，数据流的接收者也不会有明显的察觉。然而，在现场制作时，对延迟的要求会非常严格。因为制作人员需要对实时接收到的同一节目的多路音视频信号进行处理，例如体育赛事实况转播等。而如果多个信号之间的延迟比较大，就可能会分散现场制作人员的注意力，并导致出现一些直播异常。为了降低这种潜在的风险，设计现场制作系统时需要充分考虑各种延迟因素，使得延迟低于人们可察觉的阈值。

人们可察觉的延迟阈值依赖于不同延迟的类型，因此需要单独考虑不同类型延迟所带来的影响。下面简要说明在现场制作系统中需要注意的三种类型的延迟。

1. 触觉到视觉延迟 Tactile to Visual Latency

这种类型的延迟定义为在人们按下按钮（或旋转旋钮）到他们看到视频中相应变化这期间的延迟。在大多数基于SDI转换器的系统中，按下按钮和视频流切换之间的延迟是两帧（1080i59.94格式）或67毫秒。从实际角度而言，67毫秒低于触觉到视觉这类延迟的可察觉阈值。

2. 听觉到视觉延迟 Audio to Visual Latency

Kanabus等人的研究表明在听觉和视觉之间的延迟大于5毫秒时是可以察觉到的[1]，这与实际中广播节目生产制作的经验值是一致的。例如，CBS推荐的端到端音频与视频（唇形同步，lip sync）的延迟是4毫秒[2]。

3. 视觉到视觉延迟 Visual to Visual Latency

视觉到视觉延迟定义为两个视觉信号之间的延迟。例如，如果两个摄像机A和B聚焦在同一个直播事件上，但是A具有较长的传输路径，则B可能比A更快地到达信号转换器的端口。因此，到达信号转换器的时间差可以用来定义两个信号之间的相对延迟。Kanabus等人还测量了人类可以感知到的两个视觉刺激之间的延迟阈值，大约在80毫秒左右。这与基于SDI接口的现场制作系统具有较高的一致性，实际经验表明该系统需要将延迟保持在100毫秒或三帧以内（1080i59.94格式）。

为了使现场制作人员不会察觉到明显的延迟并对按钮切换指令做出及时的响应，需要将各类延迟保持在上述参考值以下。需要说明的是，这些延迟阈值与视频格式和系统使用的传输技术无关，几乎完全取决于人类大脑检测不同信号到达时间差异的能力。

系统延迟建模

为了设计整体延迟低于上述阈值的基于IP的现场制作系统，需要对产生延迟的各类因素进行建模。在对系统延迟进行建模时，会特别关注两个视觉信号之间的延迟，因此系统设计的目标是确保不同视频信号之间的延迟在100毫秒以内。在基于IP的系统中主要考虑以下延迟因素：

Jitter Buffering

基于IP的制作系统本身会存在一定程度的抖动（数据包通过IP网络传输，到达时序与预期可能不同）。通常，缓冲能够解决数据包抖动问题，但缓冲会引入延迟。一般将抖动分为两个部分，这两部分可以分别建模。第一部分是由发送端造成的抖动，记为

。第二部分是“分组可变延迟”（packet variable delay），发生在IP交换机的输入端口，数据包在交换之前会先进入缓冲区等待，这部分抖动记为

。基于这两部分抖动以及系统中IP交换的次数

，可以使用下式对因IP系统抖动所带来的延迟进行建模：

Redundancy Buffering (SMPTE ST 2022-7)

在许多IP应用中，通常采用双网络路径（dual network paths）和RTP分组级冗余（RTP packet level redundancy）技术。在实际广播传输应用中实现分组级冗余的一种常用方法是基于SMPTE ST 2022-7:2013标准方案。在该方案中，必须对数据包进行缓冲以解决双网络路径之间的偏差。由于此标准在设计时考虑了（较长时间）视频传输过程，因此在当前兼容SMPTE ST 2022-7:2013标准的具体实现中可接受的缓冲区大小为10毫秒。在现场制作工作室（或移动卡车）内，可以设计较小的双网络路径偏差以实现高效的分组级冗余。但是，严格来讲，这样的设计会违反ST 2022-7:2013缓冲规范。因此在设计缓冲区时，必须考虑最大的缓冲区延迟（记为R）。如果用nR表示信号传输路径中采用分组级冗余的设备数，则因在现场制作系统中引入冗余而产生的延迟可以表示为R x nR。

Codec Delay

在实际应用中，存在一些将编解码技术引入现场制作流程的场景。例如，如果希望通过10Gbps以太网链路传输12Gbps UHD信号，则必须采用编解码技术。在信号传输链路中每次进行编码或解码时，编码/解码过程就会引入延迟。如果将一个编码/解码周期引入的延迟记为C，将信号链路中编码/解码周期的数量记为nC，则因在信号链路中使用编解码器而产生的总的延迟为C x nC。

Other Processing Delay

除了上述延迟外，诸如上/下交叉转换（up/down cross conversion）和帧同步（frame synchronization）等处理操作也会引入额外的延迟。实际上，通过处理操作所引入的延迟量会随操作类型的变化而变化。然而，这里为了简化模型，将处理延迟记为P，并且用nP表示信号链路中处理操作的数量。因此，由处理操作而引入的总的延迟可以表示为P x nP。

Multiviewer Delay

创建Multiviewer Tile所产生的延迟也是处理延迟的一种，但由于Multiviewer Tile的创建和显示是现场制作的基本环节，因此这里将其单独作为一种延迟类型，并将Multiviewer Delay记为M。该延迟量一般出现在网络终点处，而不会出现在网络中的各个阶段。

LCD Display Delay

最后，在操作员可以看到信号并做出反应之前，必须考虑控制室中使用的LCD监视器本身的延迟。尽管基于CRT的监视器延迟非常低，但是由于LCD监视器存在一定的响应时间以及一些处理操作（包括缩放、时间重影消除和其他图像增强技术），LCD监视器可能具有显著的延迟，有时多达数帧。一般用D来表示LCD监视器的显示延迟。

虽然上述这些延迟量模型经过了一定的简化，但是仍然可以用来表示现场制作系统的整体延迟，模型如下所示：

在为专业的现场制作系统提供最大可接受的“视觉到视觉延迟”阈值后，基于上述模型的系统延迟设计必须满足：

延迟量的具体设计

上述系统延迟模型中涉及到11个变量，可以对这些变量作进一步的设计，即主要基于当前可用的产品和技术来量化分析，最后达到降低系统整体延迟的目的。完成这些之后，可以对其中某些变量进行特殊的优化处理，以实现更佳的效果。接下来，作为示例，将使用上述模型来单独求解编解码器延迟C。需要说明的是，可以使用同样的方法求解这11个变量中的任何一个。

在该示例中，为了便于分析，首先对除C以外的10个变量做出一些假设，这些假设主要源于一些实际的经验和多个AIMS（Alliance for IP Media Solutions）技术文档：

M（multiviewer delay）

虽然Multiviewer的显示结果可能因制造商而异，但通常具有一些共同的特征。根据Multiviewer类型的不同，延迟可以短至一场（1080i59.94为16ms），也可以长达3到4帧（超过100ms）。因此，在低延迟系统设计中选择哪种Multiviewer是比较严格的。在现场制作系统中使用的大多数Multiviewer通常具有一帧的延迟。因此，在这里假定使用的是经过调优的Multiviewer，延迟M确定为一帧。此时M就与视频格式的帧率有关。对于某些格式如1080i59.94，M等于33毫秒，但却占用了100毫秒延迟预算的三分之一。不过，由于现场制作系统中大多数Multiviewer的延迟为一帧，因此随着帧率的提高，Multiviewer延迟的占比将减小。

D（LCD display delay )

由于许多LCD监视器都内置有自动缩放和其他一些图像处理操作，延迟一般在3到4帧左右（1080i59.94）。虽然目前专业监视器的最低延迟大约为8到10毫秒[3]，但通常情况下，用于广播的LCD监视器的延迟大约为一帧。基于此分析，这里将显示延迟D确定为一帧。因此，对于1080i59.94格式而言，显示延迟为33毫秒。而对于1080p60格式，显示延迟为17毫秒。

JT（jitter based on transmitter profile）

通常，数据包发送端的配置会对抖动缓冲量产生较大的影响。例如，对于没有流量控制的基于CPU的IP发送端，发送到网络的数据量会在短时间内激增。在这里，假设选用的IP发送端已经有了较为合理的配置，并且适合应用在现场制作系统中（系统延迟预算限制为100毫秒）。具体而言，假设创建IP数据包的发送端使用最小的缓冲区。在这种情况下，JT定义为以视频流速率产生一个数据包的时间减去以以太网速率传输一个MTU（数据包或分组）的时间。在给定1.5 Gbps HD的情况下，将10比特视频流映射到1540字节大小的MTU并通过10 Gbps以太网链路传输的JT大约为5.5微秒。

JPVD（jitter due to packet variable delay）

如上所述，抖动的第二部分是由数据包（或分组）在网络传输时引入的，有时称为PVD（packet variable delay）。数据流进入IP交换机各个端口时，一般会出现PVD。具体地，当数据包在到达交换机的输入端口后会先进入缓冲区，而数据包进入和离开缓冲区时的时间和顺序是影响PVD大小的关键因素。因此，单个数据流不同分组之间的时序存在较大的可变性。在设计较为良好的网络中，由PVD引起的抖动可能很小，但是一个比较保守的估计是，在输入端口通常会出现10个左右的属于同一数据流的分组[4]。由于10G链路上1540字节大小的分组的延迟约为1.2微秒，根据10个分组的延迟假设，每个网段的JPVD延迟为1.2微秒每分组乘以分组数量10，也就是12微秒。

R（redundancy）

如上所述，为了使SMPTE ST 2022-7:2013标准支持RTP分组级冗余，所需的最小缓冲区大小为10毫秒。但是，此规范是针对WAN应用而设计的，而在LAN环境中，不同数据流之间的偏差可能会相对小一些。对于停放在体育场外的OB（outside broadcast，外部广播）现场制作车而言，所有摄像机的信号都是在本地环境中。因此，可以使用更小的缓冲区大小，从而最小化延迟。根据实际经验和IP交换机供应商的建议，对于此类LAN环境，100微秒的缓冲大小已经足够，因此，在这里将假设为R的值为100微秒。

P（processing）

处理操作的延迟因设备而异，因此很难使用单个变量进行建模。不过可以先确定某个信号路径中所有设备的延迟并将这些延迟求和来作为整体处理操作的延迟。在这里，假设第一个处理阶段需要一整帧的延迟，而系统中其他处理阶段每个阶段的总延迟约为四行像素。因此，在处理1080i59.94视频的三阶段制作系统中，处理延迟P约为33.06毫秒。

根据模型求解特定延迟量的大小

一旦确定了除某个延迟量之外所有延迟量的大小，就可以使用上述模型来求解剩余延迟量所允许的最大值。上节详述了在求解编解码器延迟C之前所做出的一系列假设。通常，除远程制作以外，压缩视频一般不会用在现场制作中，主要有以下两个原因：图像质量问题和延迟问题。本文提出的延迟模型不涉及有关图像质量的问题，主要用于确定最大可接受的编解码器延迟C，如下式所示：

接下来需要确定视频格式，因为上面许多假设中都用到了视频的帧数和行数，并需要将帧数和行数转换为时间单位。便于分析，这里使用帧率为50Hz的UHD格式，2160p50。该帧率在实际的现场制作系统中比较常用[5]。需要注意的是，可以将相同求解的方法应用于其他帧率值。此外，还假定以太网速率为10 Gbps，该速率会影响到JT和JPVD的计算。不过，与其他因素相比，不同的以太网速率（如10 Gbps和25 Gbps）其差异所带来的影响比较小。

在确定了视频格式如帧速率和以太网速率后，可以将这些值应用于上一节中的假设中：

M（multiviewer latency）= 1帧 = 20毫秒
D（LCD Display latency）= 1帧 = 20毫秒
JT（latency due to jitter at transmitter，2160p50）= 2微秒
JPVD（latency due to jitter from packet variable delay）= 12微秒
nJ = 5
R（latency due to 2022-7 redundancy with buffering，LAN applications）= 100微秒
nR = 5
P x np ：这里采用上一节中的假设，即其中一个阶段延迟为一整帧，而其余（nP - 1）个阶段每个阶段延迟为四行，总共加起来为20.47毫秒。
nC = 5（encode-decode）

将上述值代入模型后可得到C ≤ 7.8毫秒。也就是说，根据该模型和上述假设，在使用10Gbps以太网传输2160p50视频时，只要每个编解码器周期的延迟低于7.8毫秒，基于IP的五阶段现场制作系统就可以提供可接受的视觉到视觉（visual-to-visual）系统延迟。虽然这仅仅是上述模型的一个应用示例，但它说明了如何使用该模型进行系统延迟设计。作为对模型的进一步验证，本文作者和他的同事已经使用该模型成功设计了基于IP的现场制作系统，其视觉到视觉系统延迟性能与基于SDI的系统在感知上是相同的。

结论

现场制作的基本延迟要求不会随着网络速率和视频帧速率的变化而变化，这些要求主要取决于人的一些因素（human factors）。本文主要建立了一个基于IP的现场制作系统的延迟模型。通过仔细设计模型中的延迟量，可以构建出比较实用的基于IP技术的现场制作系统。

参考文献

[1] Kanabus et. al., "Temporal order judgment for auditory and visual stimuli," Acta Neurbiol. Exp., vol. 62, pp. 263-270, 2002.

[2] B. Seidel, Interviewee, CBS VP of Engineering and Advanced Technology. [Interview]. 2016.

[3] A. Soomro, "DisplayLag," [Online]. Available: http://www.displaylag.com/display-database/. [Accessed 21 July 2016].

[4] J. Mailhot, Time Stamps and Timing Models, Broomfield, CO: VSF October Meeting Series, 2016.

[5] Arena Television Limited, "OBX," [Online]. Available: http://www.arena-tv.com/obx.html. [Accessed 21 December 2016].

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2018-08-22，如有侵权请联系 cloudcommunity@tencent.com 删除

其他

本文分享自媒矿工厂微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

其他

登录后参与评论

0 条评论

热度

IP现场直播场景下生产端延迟分析与设计

IP现场直播场景下生产端延迟分析与设计

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐