基于权重图模型的VR视频比特分配方案

背景介绍

近两年来,随着视频技术的快速发展,多种视频的新型载体孕育而生。VR视频,也称作是360视频,是一种新一代的视频显示技术。用户置于球形区域的中央,可以任意地选择观看周围360度的视频场景,而不受空间和时间的限制,有着沉浸式的感觉。下图为全景视频的流程图,全景视频是由两个鱼眼相机或多个广角相机进行拍摄后,根据各个相机视频之间的重叠部分拼接在一起而形成的一个360度的视频。在此过程中,一个全景场景可以用一个球面上图案来描述。但在编码传输或存储之前,需要将这个球面视频投影映射到二维平面上。然后再经过解码,逆映射成球面的全景视频,最后在VR的头部显示设备上呈现出来。

然而,常见的全景VR视频的分辨率一般都在4K 以上,其巨大的数据量对网络带宽提出了相当高的技术要求,如果不加一定的压缩处理,目前的网络基础配置根本不足以传输如此庞大的信息量。因此我们要解决的首要问题就是对VR视频进行压缩,有效的视频压缩编码技术是视频广泛、高效应用的保证。目前最常用的视频编码标准是HEVC标准,它有着压缩性能好,码率稳定等特点。

图1 VR流程示意图

VR视频编码优化方法

基于VR视频的编码优化途径主要有三种。

其一是研究VR视频的曲面映射方案,因为VR视频是360度的球面视频,而HEVC编码软件是用于平面视频编码的,所以找到一个合适的球面到平面的映射方案使得编码质量有效的提高是个值得研究的课题。

其二是动态流的传输技术,一般是基于视角的自适应比特流技术,在视觉感兴趣区域提供最高质量的视频,同时降低外围背景的视频质量,这样一来可以在缩小码率的同时保证了视角区域的视频质量,从而达到节省带宽的作用。

其三是通过改变编码器内部结构,比如调整QP和码率控制模块来优化编码。我们的算法就是在码率控制模块上做优化的。在传统的码率控制算法中,目标码率主要是通过计算视频信息的复杂程度来实现的。比如在目前的广泛应用的高性能视频编码标准(HEVC)中,其中目标的码率控制理论主要是围绕着R和λ之间的关系确立,在目标比特分配步骤中,每个CTU的权重是通过MAD来计算的,而MAD是原始图像与预测图像的误差。这种编码方式考虑了视频内容的复杂程度,但是却没有考虑到VR视频的特殊性。VR视频的编码通常是先映射成平面视频的格式,在映射的过程中,视频的不同区域会有不同程度的失真,所以在码率分配的过程中,应当将这种失真的程度考虑进去。

最新进展

上海交通大学图像所研究团队提出了一种基于权重图模型的比特分配方案,在一定程度上优化了全景视频编码的质量,这个方案主要包含两个步骤。

第一步是权重图模型的建立。本算法的权重图模型沿用了WS-PSNR计算过程中所使用的权重图模型。在标准的ERP映射格式下,每个单位面积矩形小块区域所对应的球面面积是不一样的。在靠近两极处,对应的球面面积几乎为零,而在赤道处,所对应的球面面积几乎与矩形面积相等。所以我们可以把平面视频中的采样点所覆盖的球面面积当作该采样点的权重,权重的大小可以反映ERP格式的失真程度。

假设平面视频是分辨率为MxN的ERP格式的视频,由球面到平面的映射函数关系可知,每个采样点的权重为:

下图为一帧图像的权重示意图。黑色区域的权重较小,白色区域的权重较大。

图2 权重图

第二步是CTU级比特分配方案,计算公式如下

其中分母是所有CTU权重的总和, 是当前CTU的权重,由CTU中所有像素点的权重求和得到。

最终的CTU级比特分配方案是:

其中μ是权重因子,大小范围为0-1之间,代表着纹理复杂度所占的权重大小。T'CTU是原始HEVC框架中的比特,T"CTU是基于权重图模型的比特。这个CTU级比特方案权衡了基于图像复杂度的比特分配和权重图模型的比特分配,既考虑到VR视频的失真权重,又考虑到了视频本身的纹理程度。

下表是提出的方法相对于HEVC原始方法的BD-RATE。可以看出在S-PSNR、WS-PSNR、CPP-PSNR评价指标下分别有2.1%、4.3%和1.5%的码率节省。

表1 BD-RATE实验结果

下图给出了DrivingInCountry序列中各个帧的客观质量的改善情况对比,蓝色线为原始算法,红色线为改进后的算法

图3 DrivingInCountry序列的码率和WS-PSNR的波动情况

在DrivingInCIty序列中,虽然RD性能有所亏损,但是主观质量相比于原始方法还是有提升的。图3是该序列中的第7帧图片的对比图。

(a) HM

(b) Proposed

图4 DrivingInCity序列的第7帧图片

更多论文细节和实验分析详见论文:

B. Li, Li Song, R. Xie, W. Zhang, Weight-Based Bit Allocation Scheme for VR Videos in HEVC[C]. IEEE International Conference on Visual Communications and Image Processing (VCIP), St. Petersberg, Florida, US, Dec 10-13, 2017.

下载链接:

http://medialab.sjtu.edu.cn/publications/2017/VCIP2017_BJLi_Weight-Based%20Bit%20Allocation%20Scheme%20for%20VR%20Videos%20in%20HEVC.pdf

原文发布于微信公众号 - 媒矿工厂(media_tech)

原文发表时间:2017-12-18

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI传送门

股票预测,自动翻译,你想要的它都能做——RNN算法探索之旅(1)

1336
来自专栏前沿技墅

“机器学习”三重门,“中庸之道”趋若人

博士毕业于电子科技大学,美国西北大学访问学者,现执教于河南工业大学。中国计算机协会(CCF)会员,CCF YOCSEF郑州2018—2019年度副主席,ACM/...

1254
来自专栏大数据挖掘DT机器学习

机器学习与数据挖掘的学习路线图

CSDN:白马负金羁 说起机器学习和数据挖掘,当然两者并不完全等同。如果想简单的理清二者的关系,不妨这样来理解,机器学习应用在数据分析领域 = 数据挖掘。同理...

2714
来自专栏ATYUN订阅号

使用python中的Numpy进行t检验

虽然像SciPy和PyMC3这样的流行的统计数据库有预定义的函数来计算不同的测试,但是为了了解这个过程的数学原理,必须了解后台的运行。本系列将帮助你了解不同的统...

6285
来自专栏人工智能

用神经模块网络学习推理

(与 Ronghang Hu, Marcus Rohrbach, Trevor Darrell, Dan Klein and Kate Saenko合作)

3106
来自专栏企鹅号快讯

数字电影技术术语普及

1 1K/2K/4K 在数字技术领域,通常采用二进制运算,而且用构成图像的像素数来描述数字图像的大小。由于构成数字图像的像素数量巨大,通常以K来表示210即10...

1995
来自专栏AI科技评论

京东 AI Fashion-Challenge 挑战赛冠军方案详解(风格识别+时尚单品搜索)

AI 科技评论按:随着消费升级时代的来临,中国时尚消费市场正渐渐变得更加个性化、精致化和多样化,服饰的时尚风格对消费动机的影响愈渐加深,而随着 AI 技术的发展...

472
来自专栏武培轩的专栏

三维重建方法

最近在看三维重建方面的论文,进行一下知识总结。 三维重建技术 三维重建技术就是要在计算机中真实地重建出该物体表面的三维虚拟模型,构建一个物体完整的三维模型,大致...

2817
来自专栏大数据挖掘DT机器学习

通俗易懂的机器学习入门指导

机器学习,也叫数据挖掘、模式识别;其定义很多。但大白话的说,机器学习要做的就是,现在有一些数据(比如你人人网好友和他们的发言),我们要对数据进...

3016
来自专栏量化投资与机器学习

神经网络算法交易:波动预测与定制损失函数

编辑部翻译:mchoi 【系列1】用于算法交易的神经网络基于多变量时间序列(点击标题阅读) 本次推文中我们会考虑回归预测问题,为它设计和检验一个新的损失函数,...

2089

扫码关注云+社区