应用需求
一方面,大多数国家网络带宽不足以支持传送高质量的OTT视频内容。即使在美国,欧洲和日本等发达国家,3Mbps以上用户只有不到10%,2Mbps和3Mbps之间的比例为15-20%,1Mbps和2Mbps之间的比例为40-50%,低于1Mbps的比例超过30%。另一方面,H.264/AVC编解码设备已广泛部署,消费电子设备的更换周期长,难以短时间内升级到更高性能的方案,尽管存在多种新编码替代方案(例如,HEVC,SHVC,VP9,AV1和VVC)。
据此,MPEG近期着手研究此类问题,开始征集低复杂度视频编码增强的潜在解决方案,希望实现与现有系统兼容(无需升级或更改现有硬件组件)的条件下,适配网络带宽和终端处理能力的不同能力,获得增强的质量(如高分辨率、高动态等)。具体应用包括受限OTT带宽下的直播电视/多媒体流(例如体育,电子竞技,新闻等),社交网络移动视频,SD到HD、HD到UHD的演进等。
技术思路
MPEG的初步方案是开发由两个流定义的数据流结构,一个是可由硬件解码器解码的基本流,另一个用于更高处理能力的软件处理的增强流。增强流将提供对现有编解码器的压缩功能扩展,且保持低的编解码复杂度,用于点播和实时流应用,图1为MPEG所建议的解码器解决方案。同时MPEG对视频编码解决方案提出了一些建议与要求:
MPEG已邀请开发出符合要求的视频压缩技术的公司和组织提交建议与解决方案,会对方案从压缩性能和复杂度两方面评估提议的视频压缩技术。
图 1 MPEG建议的解码器方案
实现案例
V-Nova:PERSEUES
上述方案的积极倡导者,V-Nova,在收购视频影像专家Faroudja Enterprises的专利后,将相关视频增强的技术,例如多维视频处理,并行处理等与Codec技术结合,形成PERSEUES方案。该方案利用已经在芯片中可用的现有通用硬件能力,在H.264和HEVC等行业标准编解码器上增加了细节层次,包括分层(“多尺度”),基于机器学习和并行处理的后处理等。它将视频分为多层结构,并与CNN预测网络相联合形成视频重建,从而降低视频传输带宽。
图 2 PERSEUES分层结构与AI重建图像
PERSEUES可与现有编解码器(H.264,HEVC,VP9,AV1)结合使用,将视频源分为高清层HD与超高清层UHD,HD与传统解码器/ STB重新兼容,UHD作为增强功能发送到具有4K功能解码的设备,如图3所示。
图 3 PERSEUES基础层与增强层
PERSEUES采用专利技术用于确定压缩级别,实现与原始未压缩视频的每帧内的质量变化精确匹配。PERSEUES不采用MPEG线性宏块方法对视频序列中的每个帧进行分段和编码,而是使用微处理器的并行处理和缩放功能的分层技术,逐帧应用专利压缩技术,其方式类似于人类视觉系统视网膜的核心在注意力转移时将场景聚焦来保持广阔视野。
PERSEUES根据给定帧的规定所需要的细节的层次结构,同时在微处理器处理流水线上进行协调和实时操作,处理与任何图形元素相关联的信息的要点,然后添加附加信息metadata来逼近未压缩帧中的质量,也添加诸如从一帧到另一帧的头部转动变化等辅助信息用于解码端增强处理。
V-Nova声称其PERSEUES方案能显著降低处理负荷,缩短编码时间,且重建质量更高如图4和图5所示。图6总结了V-Nova验证的其他编码方案的对比结果。
图 4 V-Nova测试对比
图5 来自V-Nova官网的对比图
图 6 PERSEUES与其他编码对比
从其官方资料获知,视频解决方案供应商Imagine Communications已将PERSEUES Plus与其Selenio Flex和Selenio One编码平台结合使用;NTT Data提供的编码支持服务HYPER转码技术,使用PERSEUES Plus部署了NTT数据解决方案;亚洲卫星运营商Thaicom PLC正在利用PERSEUES Plus推出通过现有带宽分配提供UHD服务;机顶盒中间件公司Wyplay将PERSEUES Plus预先集成到其产品线中;Sky Italia2016年底就部署了PERSEUES,在其地面IPTV运营中提供全高清服务,据称通过对现有基于硬件的AVC编码平台的简单集成以及下载到现场STB的软件升级,Sky Italia将HD比特率从8 Mbps降至2.5-4 Mbps。
SJTU:动态元数据辅助的编码增强方案
我们前期工作中也提出过一种兼容现有编解码标准的增强方案(注:并未将低复杂度作为主要特征),如图7所示。基本思路是:通过对视频帧的做低复杂度分析,获得内容复杂度的辅助信息,然后将此信息和编码过程获得的关键信息(如帧级QP)组合成动态元数据,通过带外方式和常规码流一起传送;解码端在正常解码后,如果有额外的计算资源(如GPU或CNN加速指令),就可以根据此元数据进行额外的后处理(这里是SR滤波),获得更高的重建质量。
图7 一种动态元数据辅助的编码增强方案
初步方案中采用了20层的CNN前向网络来辅助图像重建,预先依据时空复杂度等统计信息对视频图像进行分类,对每一类图像进行针对性处理。框架中主要包含镜头检测,分类以及后处理增强模块。镜头检测顾名思义是将输入的视频划分为多个连续的镜头,因为每个镜头中不同帧具有相似的内容,所以选择以镜头为单位进行复杂度分类。分类指标采用时间复杂度、空间复杂度这种统计信息,考虑到CNN在图像重建上的应用本质上是对图像底层统计特征提取并且重组的过程,这种分类方法是合理的。同时视频增强的性能也与视频压缩的参数紧密相关,因此量化参数(QP)也作为一项指标对视频进一步分类。在此每一帧的类别将编为长度不超过1字节的二进制数据,作为辅助信息添加到正常编码码流之中。在解码器,解码器从码流中重建视频,同时也从中提取编码端添加的辅助信息。通过解析编码分类来选择相应的CNN模型进行增强。这种方法在一定程度上提升了编码性能,最高实现4.91%,平均实现2.92% BD-rate增益。并且也显著提升了视觉质量,缓解了失真效应,令一些细节更加清晰。
参考文献
[1]https://mpeg.chiariglione.org/standards/exploration/low-complexity-video-coding-enhancements/call-proposals-low-complexity-video
[2]https://www.v-nova.com/PERSEUES-2-royalty-free/
[3]https://www.v-nova.com/guido-meardi-demystifies-ai-in-video-compression-at-the-iabm-international-conference/
[4]https://www.ibc.org/industry-trends/new-forces-enter-the-codec-arena/3496.article
[5]http://www.faroudja-inc.com/faroudja-enterprises-granted-de-blocking-patent/
[6] C. Li, L. Song, R. Xie, W. Zhang, “CNN Based Post-Processing to Improve HEVC, ” IEEE International Conference on Image Processing(ICIP), Beijing, China, Sep.17-20, 2017.