【视频编码】 Content Aware ABR技术（六）

用户1324186

发布于 2018-03-06 09:32:32

1.4K0

发布于 2018-03-06 09:32:32

文章被收录于专栏：媒矿工厂

在本系列前面的帖子中，我们连续梳理了Netflix、YouTube、Beamr、EuclidIQ及Bitmovin在ABR方面的一些进展，本文将简要介绍一下编码优化领域的另一位成员—Harmonic的技术动态。

OTT视频流传输通常消耗较多的带宽资源，随着在线视频观看需求的增加，对现有的传输网络带来了较大的压力。2016年，全美平均家庭互联网下载速度峰值达到了54.97Mbps，相比2015年增加了40%。此外，Netflix目前推荐的HD视频流最小连接带宽为5Mbps，UHD为25Mbps。如果在这个速度下，当一个家庭在高峰时段连接多路HD视频流时，网速会急剧下降，导致视频播放出现卡顿，同时视频清晰度也会下降。与此同时，目前市场上对大屏及超大屏电视的需求不断增加，随之而来的是更大的视频分辨率以及更高的码率，因此运营商的视频存储开销也在持续增加。同样对于移动用户而言，全美2016年的下载速度峰值相比2015年增加了30%，达到了19.27Mbps。一般情况下美国蜂窝移动用户平均月流量为2.5GB，而Netflix的时长1小时的HD视频会消耗3GB流量，早已超过了普通用户的流量预算并带来额外费用，所以如何在保持原有视频质量的同时传输更低码率的视频流仍是一个不小的挑战。逐渐成熟的OTT市场带动了更高的QoE需求，为了在降低CDN传输和存储开销的同时为用户提供较好的适配绝大多数类型设备的视频流观看体验，需要使用更加高效的视频编码技术，虽然可以直接采用目前最新的HEVC编解码器，但根据目前市场的情况在H.264的应用体系上进行优化却是一个更好的选择。

Harmonic的EyeQTM视频编码优化技术（尚未获得技术细节资料），无需对现有的H.264传输框架以及各类解码器进行任何改动，宣称在提供较好的视觉体验的同时能降低50%的码率。基于Harmonic优化的编码器PURE Compression EngineTM，EyeQTM充分挖掘利用了HVS特性，可以更加精确地度量视频质量并反馈至编码决策过程中，能够有效改善现有ABR Streaming的性能。

图1 Harmonic编码优化框架

其中，Harmonic PURE Compression EngineTM集成了Harmonic近年来研发的多种先进压缩算法与处理技术，包括多种高效的运动估计算法模块，能够根据视频内容自适应选择，并且支持多种视频格式、编码器平台以及流传输应用，如图2所示。

图2 PURE Compression Engine支持各类视频格式和Codec

在讨论Harmonic EyeQTM技术优化OTT视频流之前，首先简单介绍一下两种传统的ABR Streaming编码模式，CBR和VBR。

通过HTTP等方式进行OTT视频流传输的ABR Steaming通常采用多个CBR编码配置方案。一个完整的视频被分割为多个分块chunk，每一个chunk使用不同的分辨率和码率组合进行编码，如图3所示。客户端则依据网络的动态变化状况向CDN服务端请求合适的chunk。这种流传输方式在ABR应用最开始的时候就被Microsoft、Adobe、Google以及Apple等公司采用，并沿用至今。但是一段CBR流的码率通常是最复杂场景编码的码率决定的，这个码率对于其他较低复杂度的场景而言超过了实际所需，因此在很大程度上增加了OTT视频内容提供商的CDN开销。

图3 Apple技术文档TN2224中的bitrate ladder

VBR通过为视频中不同场景或片段分配满足其质量要求的比特数来达到码率节省的目的。简单场景编码使用的码率要远低于复杂场景的编码，并使得编码后的视频流具有一致的质量水平。传统VBR Streaming主要的不足在于，复杂场景的码率有时会特别高，使得OTT流传输的码率远超目前网络的承载能力。因此，一般VBR Streaming要基于网络带宽上限以及复杂场景的质量水平选择一个最大码率，这种设定码率上限的VBR称为capped VBR(CVBR)，能够缓解带宽溢出的矛盾。但CVBR并非一劳永逸，因为一般很难准确得到任意给定场景的压缩量级，所以CVBR的处理相对粗糙。

为了提供更好的ABR Streaming服务，需要有效地度量编码视频质量进而确定每一个视频场景的压缩量级。下面先来回顾一下目前常用的视频质量评价指标PSNR和SSIM。

尽管已经有不少新提出的或改进的指标，PSNR依然是这些年来使用最为广泛的视频质量评价指标。PSNR计算简单，PSNR值越高，则压缩图像相对原图像的保真度越高。但PSNR存在的问题在于，忽略了周围像素、图像整体、以及帧间的信息。PSNR没有考虑周围像素带来的掩盖效应，计算失真时有一定的误差。例如，PNSR会对低复杂度区域的失真估计不足，而对高复杂度区域的失真过度估计，如图4所示，左右两幅图的PSNR值相同，但视觉质量明显不一样，很明显PSNR对天空区域的失真估计不足。

图4 相同PSNR下视觉质量不同

SSIM自2004年提出之后，为视频质量的评估提供了一个更好的度量方式。SSIM的计算从图像的三个方面入手：亮度，对比度以及结构或质地相似度。由于HVS对图像结构自身的细节比较敏感，而对像素的细节不敏感。基于这个特性，SSIM着眼于图像结构信息，分别估计结构和非结构上的失真，提供比PSNR更加精确的视觉质量度量。虽然SSIM要比PSNR更加精确，但仍然存在许多不足，如图5所示，从左到右从上到下SSIM的值依次是：1, 0.576, 0.641以及0.580。虽然后两幅图的SSIM更高一些，但很明显第二幅的视觉质量却比它们好。

图5 SSIM越高视觉质量未必越高

Harmonic的EyeQ内容自适应编码优化技术利用多种人眼视觉特性（包括HVS对比度敏感函数CSF等等。例如，人眼对对比度变化的敏感度高于亮度变化，人眼具有辨识视频图像中物体形状结构的能力，人眼具有辨识不同面孔的能力，人眼对运动图像的感知比对质地区域的识别更灵敏），通过在同一视频帧内对人眼更为敏感的元素和不那么敏感的元素进行区分，将这些更为敏感的视觉特性加权，可以更加精确地度量视频质量并根据视频内容自适应调整，能够在几乎没有引入延时的情况下动态评估并调整编码参数。通过高效的人工智能算法实时度量和调节视频质量（在重要的地方增加比特，在不重要的地方减少比特），EyeQ技术在降低码率的同时使得编码质量更佳，在视频质量和码率之间取得了较好的平衡。这个过程可以应用到现有的各类视频编解码器中，也无需对目前的H.264传输框架做任何改动，与H.264编码体系完全兼容，减少了迁移到最新编码标准HEVC的风险、工程复杂度以及专利开销。相比CBR和VBR，基于多种HVS特性的EyeQ内容自适应编码优化技术能够有效降低播放延时、减少缓冲次数，显著改善终端用户的视频观看体验，同时有效降低传输码率，特别是在大流量直播时段能够大幅降低网络负载。

为了比较EyeQ的效果，Harmonic使用工业界标准的x264编码器（CRF模式）以及Harmonic ElectraTM（EyeQ技术）进行测试。X264的编码命令如下：

图6和图7给出了两者编码后文件大小以及码率波动情况，可以看出EyeQ技术能够有效降低码流的码率以及存储开销。

图6 编码后的文件大小对比

图7 编码的比特率对比

下图是一个提供体育赛事直播的电信运营商采用Harmonic内容自适应编码技术的应用框架。其中在源端编码视频流时采用的是基于EyeQ技术的Harmonic多媒体处理平台ElectraTM X。这套系统能够通过各类网络为超过150,000的终端用户提供高质量的HD直播视频流，适配各类终端平台，包括电视机顶盒，Apple TV，LG TV以及iOS和Android流媒体应用平台。在提高终端视觉质量的同时，能显著降低运营商高达50%的带宽和CDN开销。此外，还有效提高了该运营商订阅用户对OTT服务的满意度，带动了相关业务增长。

图8 OTT流传输框架

下面四幅图给出了分别使用EyeQ和CBR两种ABR技术通过该运营商的移动网络传输视频流的多个指标对比，依次是：视频缓冲时间、播放启动延时、视频清晰度以及不同配置的切换频率。从中可以看出，采用EyeQ技术后，有效减少了视频缓冲时间、播放启动延时以及不同配置的切换频率，提高了码流的清晰度，极大改善了用户的观看体验。