基于权重图模型的VR视频比特分配方案

背景介绍

近两年来,随着视频技术的快速发展,多种视频的新型载体孕育而生。VR视频,也称作是360视频,是一种新一代的视频显示技术。用户置于球形区域的中央,可以任意地选择观看周围360度的视频场景,而不受空间和时间的限制,有着沉浸式的感觉。下图为全景视频的流程图,全景视频是由两个鱼眼相机或多个广角相机进行拍摄后,根据各个相机视频之间的重叠部分拼接在一起而形成的一个360度的视频。在此过程中,一个全景场景可以用一个球面上图案来描述。但在编码传输或存储之前,需要将这个球面视频投影映射到二维平面上。然后再经过解码,逆映射成球面的全景视频,最后在VR的头部显示设备上呈现出来。

然而,常见的全景VR视频的分辨率一般都在4K 以上,其巨大的数据量对网络带宽提出了相当高的技术要求,如果不加一定的压缩处理,目前的网络基础配置根本不足以传输如此庞大的信息量。因此我们要解决的首要问题就是对VR视频进行压缩,有效的视频压缩编码技术是视频广泛、高效应用的保证。目前最常用的视频编码标准是HEVC标准,它有着压缩性能好,码率稳定等特点。

图1 VR流程示意图

VR视频编码优化方法

基于VR视频的编码优化途径主要有三种。

其一是研究VR视频的曲面映射方案,因为VR视频是360度的球面视频,而HEVC编码软件是用于平面视频编码的,所以找到一个合适的球面到平面的映射方案使得编码质量有效的提高是个值得研究的课题。

其二是动态流的传输技术,一般是基于视角的自适应比特流技术,在视觉感兴趣区域提供最高质量的视频,同时降低外围背景的视频质量,这样一来可以在缩小码率的同时保证了视角区域的视频质量,从而达到节省带宽的作用。

其三是通过改变编码器内部结构,比如调整QP和码率控制模块来优化编码。我们的算法就是在码率控制模块上做优化的。在传统的码率控制算法中,目标码率主要是通过计算视频信息的复杂程度来实现的。比如在目前的广泛应用的高性能视频编码标准(HEVC)中,其中目标的码率控制理论主要是围绕着R和λ之间的关系确立,在目标比特分配步骤中,每个CTU的权重是通过MAD来计算的,而MAD是原始图像与预测图像的误差。这种编码方式考虑了视频内容的复杂程度,但是却没有考虑到VR视频的特殊性。VR视频的编码通常是先映射成平面视频的格式,在映射的过程中,视频的不同区域会有不同程度的失真,所以在码率分配的过程中,应当将这种失真的程度考虑进去。

最新进展

上海交通大学图像所研究团队提出了一种基于权重图模型的比特分配方案,在一定程度上优化了全景视频编码的质量,这个方案主要包含两个步骤。

第一步是权重图模型的建立。本算法的权重图模型沿用了WS-PSNR计算过程中所使用的权重图模型。在标准的ERP映射格式下,每个单位面积矩形小块区域所对应的球面面积是不一样的。在靠近两极处,对应的球面面积几乎为零,而在赤道处,所对应的球面面积几乎与矩形面积相等。所以我们可以把平面视频中的采样点所覆盖的球面面积当作该采样点的权重,权重的大小可以反映ERP格式的失真程度。

假设平面视频是分辨率为MxN的ERP格式的视频,由球面到平面的映射函数关系可知,每个采样点的权重为:

下图为一帧图像的权重示意图。黑色区域的权重较小,白色区域的权重较大。

图2 权重图

第二步是CTU级比特分配方案,计算公式如下

其中分母是所有CTU权重的总和, 是当前CTU的权重,由CTU中所有像素点的权重求和得到。

最终的CTU级比特分配方案是:

其中μ是权重因子,大小范围为0-1之间,代表着纹理复杂度所占的权重大小。T'CTU是原始HEVC框架中的比特,T"CTU是基于权重图模型的比特。这个CTU级比特方案权衡了基于图像复杂度的比特分配和权重图模型的比特分配,既考虑到VR视频的失真权重,又考虑到了视频本身的纹理程度。

下表是提出的方法相对于HEVC原始方法的BD-RATE。可以看出在S-PSNR、WS-PSNR、CPP-PSNR评价指标下分别有2.1%、4.3%和1.5%的码率节省。

表1 BD-RATE实验结果

下图给出了DrivingInCountry序列中各个帧的客观质量的改善情况对比,蓝色线为原始算法,红色线为改进后的算法

图3 DrivingInCountry序列的码率和WS-PSNR的波动情况

在DrivingInCIty序列中,虽然RD性能有所亏损,但是主观质量相比于原始方法还是有提升的。图3是该序列中的第7帧图片的对比图。

(a) HM

(b) Proposed

图4 DrivingInCity序列的第7帧图片

更多论文细节和实验分析详见论文:

B. Li, Li Song, R. Xie, W. Zhang, Weight-Based Bit Allocation Scheme for VR Videos in HEVC[C]. IEEE International Conference on Visual Communications and Image Processing (VCIP), St. Petersberg, Florida, US, Dec 10-13, 2017.

下载链接:

http://medialab.sjtu.edu.cn/publications/2017/VCIP2017_BJLi_Weight-Based%20Bit%20Allocation%20Scheme%20for%20VR%20Videos%20in%20HEVC.pdf

原文发布于微信公众号 - 媒矿工厂(media_tech)

原文发表时间:2017-12-18

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技大本营的专栏

如何让摄像头变成“暗夜之眼”?英特尔开发了一套基于FCN的成像系统

【AI科技大本营导读】手机拍照的重要性不必多说,不论是国外的苹果、三星,还是国内的华为、小米,都在提升拍照性能上下足了功夫,目前的手机摄像头已经逐渐从单摄走向双...

783
来自专栏机器人网

工业机器人总体结构有什么类型?

  工业机器人的结构形式主要有直角坐标结构,圆柱坐标结构,球坐标结构,关节型结构四种。各结构形式及其相应的特点,分别介绍如下。

673
来自专栏AI科技评论

ICML论文精选:无监督学习的研究和应用

深度学习的类型按照数据是否有标记来区别可以分为三种:监督学习、半监督学习和无监督学习。事实上人类不可能把每件事都手把手的教给AI。无监督学习应该才是未来的趋势。...

37016
来自专栏机器之心

学界 | 人工智能如何更好的辅助医生?Petuum研究自动生成医疗图像报告

3579
来自专栏量子位

用DensePose,教照片里的人学跳舞,系群体鬼畜 | ECCV 2018

Facebook团队,把负责感知的多人姿势识别模型DensePose,与负责生成的深度生成网络结合起来。

1363
来自专栏企鹅号快讯

人工智能如何更好的辅助医生?Petuum研究自动生成医疗图像报告

Petuum 专栏 作者:Baoyu Jing、Pengtao Xie、Eric Xing 机器之心编译 在过去一年中,我们看到了很多某种人工智能算法在某个医疗...

1936
来自专栏CDA数据分析师

MIT公开课-机器学习导论(附视频中字)

MIT6.0002课程《计算机科学与用Python编程》(Computer Science and Programming in Python)针对没有或有少量...

22510
来自专栏人工智能头条

格灵深瞳:人脸识别最新进展以及工业级大规模人脸识别实践探讨 | 公开课笔记

3653
来自专栏大数据挖掘DT机器学习

通俗易懂的机器学习入门指导

机器学习,也叫数据挖掘、模式识别;其定义很多。但大白话的说,机器学习要做的就是,现在有一些数据(比如你人人网好友和他们的发言),我们要对数据进行...

3467
来自专栏机器之心

深度 | 一文概述2017年深度学习NLP重大进展与趋势

3557

扫码关注云+社区