基于权重图模型的VR视频比特分配方案

背景介绍

近两年来,随着视频技术的快速发展,多种视频的新型载体孕育而生。VR视频,也称作是360视频,是一种新一代的视频显示技术。用户置于球形区域的中央,可以任意地选择观看周围360度的视频场景,而不受空间和时间的限制,有着沉浸式的感觉。下图为全景视频的流程图,全景视频是由两个鱼眼相机或多个广角相机进行拍摄后,根据各个相机视频之间的重叠部分拼接在一起而形成的一个360度的视频。在此过程中,一个全景场景可以用一个球面上图案来描述。但在编码传输或存储之前,需要将这个球面视频投影映射到二维平面上。然后再经过解码,逆映射成球面的全景视频,最后在VR的头部显示设备上呈现出来。

然而,常见的全景VR视频的分辨率一般都在4K 以上,其巨大的数据量对网络带宽提出了相当高的技术要求,如果不加一定的压缩处理,目前的网络基础配置根本不足以传输如此庞大的信息量。因此我们要解决的首要问题就是对VR视频进行压缩,有效的视频压缩编码技术是视频广泛、高效应用的保证。目前最常用的视频编码标准是HEVC标准,它有着压缩性能好,码率稳定等特点。

图1 VR流程示意图

VR视频编码优化方法

基于VR视频的编码优化途径主要有三种。

其一是研究VR视频的曲面映射方案,因为VR视频是360度的球面视频,而HEVC编码软件是用于平面视频编码的,所以找到一个合适的球面到平面的映射方案使得编码质量有效的提高是个值得研究的课题。

其二是动态流的传输技术,一般是基于视角的自适应比特流技术,在视觉感兴趣区域提供最高质量的视频,同时降低外围背景的视频质量,这样一来可以在缩小码率的同时保证了视角区域的视频质量,从而达到节省带宽的作用。

其三是通过改变编码器内部结构,比如调整QP和码率控制模块来优化编码。我们的算法就是在码率控制模块上做优化的。在传统的码率控制算法中,目标码率主要是通过计算视频信息的复杂程度来实现的。比如在目前的广泛应用的高性能视频编码标准(HEVC)中,其中目标的码率控制理论主要是围绕着R和λ之间的关系确立,在目标比特分配步骤中,每个CTU的权重是通过MAD来计算的,而MAD是原始图像与预测图像的误差。这种编码方式考虑了视频内容的复杂程度,但是却没有考虑到VR视频的特殊性。VR视频的编码通常是先映射成平面视频的格式,在映射的过程中,视频的不同区域会有不同程度的失真,所以在码率分配的过程中,应当将这种失真的程度考虑进去。

最新进展

上海交通大学图像所研究团队提出了一种基于权重图模型的比特分配方案,在一定程度上优化了全景视频编码的质量,这个方案主要包含两个步骤。

第一步是权重图模型的建立。本算法的权重图模型沿用了WS-PSNR计算过程中所使用的权重图模型。在标准的ERP映射格式下,每个单位面积矩形小块区域所对应的球面面积是不一样的。在靠近两极处,对应的球面面积几乎为零,而在赤道处,所对应的球面面积几乎与矩形面积相等。所以我们可以把平面视频中的采样点所覆盖的球面面积当作该采样点的权重,权重的大小可以反映ERP格式的失真程度。

假设平面视频是分辨率为MxN的ERP格式的视频,由球面到平面的映射函数关系可知,每个采样点的权重为:

下图为一帧图像的权重示意图。黑色区域的权重较小,白色区域的权重较大。

图2 权重图

第二步是CTU级比特分配方案,计算公式如下

其中分母是所有CTU权重的总和, 是当前CTU的权重,由CTU中所有像素点的权重求和得到。

最终的CTU级比特分配方案是:

其中μ是权重因子,大小范围为0-1之间,代表着纹理复杂度所占的权重大小。T'CTU是原始HEVC框架中的比特,T"CTU是基于权重图模型的比特。这个CTU级比特方案权衡了基于图像复杂度的比特分配和权重图模型的比特分配,既考虑到VR视频的失真权重,又考虑到了视频本身的纹理程度。

下表是提出的方法相对于HEVC原始方法的BD-RATE。可以看出在S-PSNR、WS-PSNR、CPP-PSNR评价指标下分别有2.1%、4.3%和1.5%的码率节省。

表1 BD-RATE实验结果

下图给出了DrivingInCountry序列中各个帧的客观质量的改善情况对比,蓝色线为原始算法,红色线为改进后的算法

图3 DrivingInCountry序列的码率和WS-PSNR的波动情况

在DrivingInCIty序列中,虽然RD性能有所亏损,但是主观质量相比于原始方法还是有提升的。图3是该序列中的第7帧图片的对比图。

(a) HM

(b) Proposed

图4 DrivingInCity序列的第7帧图片

更多论文细节和实验分析详见论文:

B. Li, Li Song, R. Xie, W. Zhang, Weight-Based Bit Allocation Scheme for VR Videos in HEVC[C]. IEEE International Conference on Visual Communications and Image Processing (VCIP), St. Petersberg, Florida, US, Dec 10-13, 2017.

下载链接:

http://medialab.sjtu.edu.cn/publications/2017/VCIP2017_BJLi_Weight-Based%20Bit%20Allocation%20Scheme%20for%20VR%20Videos%20in%20HEVC.pdf

原文发布于微信公众号 - 媒矿工厂(media_tech)

原文发表时间:2017-12-18

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

ECCV18:谷歌普林斯顿提出首个端到端立体双目系统深度学习方案

【新智元导读】本文是计算机视觉顶会ECCV 2018录取论文中备受关注的一篇,来自谷歌&普林斯顿大学的研究人员提出了第一个主动双目立体成像系统的深度学习解决方案...

501
来自专栏量子位

“众矢之的”马库斯回应14个问题,将深度学习质疑到底

安妮 维金 李杉 编译自 Medium 量子位 出品 | 公众号 QbitAI 深度学习的质疑者中有位战士。 他有底气与大牛Yann LeCun激辩AI是否需要...

34810
来自专栏大数据挖掘DT机器学习

【Python】爬虫+ K-means 聚类分析电影海报主色

作者:Amy 译者:Fibears 原文链接:http://blog.nycdatascience.com/students-work/using-py...

3185
来自专栏数据科学与人工智能

【大规模机器学习】大规模机器学习流程的构建与部署

大规模机器学习流程的构建与部署 现在有许多的机器学习算法实现是可以扩展到大数据集上的(其中包括矩阵分解、SVM、逻辑回归、LASSO 等等)。实际上,机器学习专...

27610
来自专栏鸿的学习笔记

The Brain vs Deep Learning(五)

Estimation of cerebellar input/output dimensions

562
来自专栏AI启蒙研究院

别人都在晒18岁照片,而我却在学习~

653
来自专栏知晓程序

如何靠拍照找到女朋友?这个小程序教你怎样给女神拍大片

手机里虽然已经有各种修图软件,但是要想图片好看,除了修图之外,更重要的是拍照时的结构。

1183
来自专栏AI研习社

关于模型可解释性的深入思考:从哪里来,到哪里去?

AI 研习社:本文作者 Cody Marie Wild,不仅是一位机器学习领域的数据科学家(目前任职 phos 公司),在生活中还是名不折不扣的猫咪铲屎官,她钟...

1132
来自专栏量子位

DeepMind发Nature子刊:通过元强化学习重新理解多巴胺

据昨天DeepMind在Nature Neuroscience刊出的新论文Prefrontal cortex as a meta-reinforcement l...

534
来自专栏新智元

计算机视觉中,目前有哪些经典的目标跟踪算法?

【新智元导读】这篇文章将非常详细地介绍计算机视觉领域中的目标跟踪,尤其是相关滤波类方法,分享一些作者认为比较好的算法。 相信很多来这里的人和我第一次到这里一样,...

46510

扫描关注云+社区