首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >自由视视频的主观和客观质量评价

自由视视频的主观和客观质量评价

作者头像
用户1324186
发布2022-11-07 15:12:38
9880
发布2022-11-07 15:12:38
举报
文章被收录于专栏:媒矿工厂媒矿工厂

作者:Jiebin Yan等 来源:TIP2022 论文题目:Subjective and Objective Quality of Experience of Free Viewpoint Videos 论文链接:https://ieexplore.ieee.org/abstract/document/9784402/ 内容整理:贾荣立

目录

  • 引言
  • 主观实验及其分析
    • 数据集构建
    • 主观实验及结果分析
  • 方法
    • 空间特征提取
    • 时空特征融合
    • QoE 预测模块
  • 结果

引言

随着新型媒体的发展,观众渐渐不再只满足于传统的 2D、3D 视频,对于其他新形势视频的需求也在不断发展,其中自由视视频(FVV)就是近些年来消费者关注的热点之一。如下图所示,相比于传统的 2D、3D和全景视频,自由视视频包含了一部分虚拟视角,用以填补真实相机之间的空缺,从而给观众以视角连续的观看体验。

黑色的相机代表真实的相机,红色的表示虚拟的相机

FVV 的视频体验质量可能同时受到内部和外部因素的影响。前者主要因素涉及 FVV 制作阶段,后者涉及到 FVV 的播放设置。如下图所示,在 FVV 视频的生成制作过程中,合成视角可能出现一些伪影、空洞等,影响画面的质量;另外,导航扫描方式和不同密度的帧填充方式也会对 FVV 的 QoE 产生一定的影响。

(a) 伪影, (b) 拉伸和空洞

FVV 的质量直接影响到视频用户的体验感受,因此,对 FVV 进行质量评价,对于指导视频的生成,提高视频用户的体验具有重大意义。本文基于这一目标,构建 FVV 数据集,并对其进行主观和客观的质量评价实验。

主观实验及其分析

在本节中,首先介绍数据集的构建,然后进行主观实验得到主观质量分数,最后,对主观数据进行分析。

数据集构建

影响FVV视频质量的因素

本文主要关注两个复杂的真实场景:综艺节目(《这!就是街舞》)和体育赛事转播(CBA)。考虑到影响 FVV 视频的质量因素包括内部因素——深度信息和物体的聚集程度,和外部因素——导航扫描路径方式和视角切换速度。在这里,通过选择不同内部因素的场景,改变外部因素,得到全面且多样的FVV数据集。

首先,我们选择不同深度信息和不同聚集程度的代表性场景,最终选择18个场景作为构建视频数据集的基础场景。之后选用压缩方案为H.264压缩和H.265压缩,每种压缩方法都与从22到47的6个量化参数(QP)值相关联。

最后,设置了三种导航扫描方案和三种视图切换速度。为了清晰地表示,这三种导航方案分别用nav1、nav3和nav2表示,如下图所示。而预定义的三种视图切换速度(即缓慢、中间和快速)是通过合成不同数量的视图(150、120和100)来实现的。

用于生成fvv的三种导航扫描路径。(a)nav1 (b)nav2 (c)nav3。红点和蓝星分别表示导航扫描路径的起点和终点

最后,我们获得了包含1944个(18×12×3×3)视频的FVV QoE数据库。帧速率设置为25,FVV的最小帧数超过190。

主观实验及结果分析

通过一定规模的主观实验,和数据异常值处理后,得到FVV视频的主观分数。接下来,对主观分数的分布进行可视化,如下图所示:

FVV质量评价数据集分数分布和不同因素的关系,(a) 导航扫描方案(top) 和 视角切换速度 (bottom). (b) CBA场景深度 (top) 和《这!就是街舞》场景深度 (bottom). (c) CBA场景物体聚集程度 (top) 和 《这!就是街舞》场景物体聚集程度 (bottom)

观察各个因素对应的分数分布,可以得到以下结论:

  • 由图(a)可知,受试者对导航扫描路径不敏感,且视图切换速度对 FVV 的QoE没有明显的影响。通过进行95%置信度的统计显著性检验,导航扫描路径和视图切换速度的p值分别为0.658和0.378,说明这两个外部因素对FVV QoE没有显著影响
  • 从图(b)和(c)中,我们可以观察到,参与者(近64%)倾向于对《这!就是街舞》中低聚集程度的 FVV 视频给予较高的分数(不低于2),而这种模式在CBA场景中并不存在。除此之外,深度信息范围较小的fvv更有可能得到更高的分数,具体来说,超过72%的参与者认为这类 FVV的QoE得分不低于2分。这可能是由于男女演员和镜头之间的短距离所带来的真实的沉浸感。

方法

我们提出的baseline模型的结构框架如图所示。它由空间特征提取模块、时空特征融合模块和QoE回归预测模块组成。

模型framework

空间特征提取

以前很多的 VQA 工作已经证实,ResNet-50 具有质量感知能力,从而捕捉视频帧的失真,在这里我们同样使用 ResNet-50 作为空间特征提取模块的backbone。假设

x^{(n)}

是 FVV 视频

\mathcal{F}=\left\{x^{(n)}\right\}_{n=1}^N

的第 n 帧,将其输入网络并得到特征图

M_{n} = \left\{\mathbf{M}_c^n\right\}_{c=1}^C

。然后进行全局平均池化和全局标准差池化,得到的特征向量分别记为

\bar{v}^n

\widetilde{v}^n

。然后将这两个特征向量进行拼接,从而得到该视频帧的特征向量为:

v^n=\bar{v}^n \oplus \widetilde{v}^n

时空特征融合

现有的VQA方法要么将所有的视频帧或几组连续帧作为输入,要么从视频中截取部分帧,前者可能导致预测速度太慢,而后者则可能会出现long-term的特征表征不足。我们希望预测性能和预测效率之间能够有所权衡,从而在实际应用中发挥作用,具体做法如下:

我们从 FVV 中稀疏的采样一定数量的视频帧

\mathcal{F}^{\prime} = \left\{x^i \mid i \in \mathcal{I}\right\}

,然后利用上文介绍的空间提取模块提取相应的空间特征,得到一个特征向量集合

\mathcal{V}=\left\{v^i \mid i \in \mathcal{I}\right\}

。之后,我们使用两个全连接层来降低特征向量的维数。再之后,通过使用门控循环单元(GRU)来捕捉这些序列帧之间的时间关系:

h^i=G R U\left(v_{+}^i, h^{i-1}\right)
h^i

h^{i-1}

分别代表当前时刻和前一个时刻的隐藏状态。

QoE 预测模块

将某一帧的时空特征进行整合后,再通过一个全连接层,得到帧

x^i

的预测分数

q_i

。考虑到时间记忆对于视频 QoE 的影响,我们使用主观启发的时间池化来融合所有帧的分数,从而得到最终的视频分数:

Q=\frac{1}{N^{\prime}} \sum_{i \in \mathcal{I}} \bar{q}_i

其中,

\bar{q}_i

表示采样帧中第

i

帧的加权QoE得分,

N^{\prime}

为采样帧集

I

的大小,

Q

表示最终QoE得分。

结果

我们选用了七种质量评价方法与本文提出的方法进行对比,七种前五个方法是图像质量评价方法,而后两种是视频质量评价方法。模型/方法性能由SRCC/PLCC进行表征,结果如下:

不同质量评价方法在本文提出的数据集上的表现

可以看到 VSFA 和本文提出的方法在相应指标上取得了较好的结果。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-10-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 媒矿工厂 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 引言
  • 主观实验及其分析
    • 数据集构建
      • 主观实验及结果分析
      • 方法
        • 空间特征提取
          • 时空特征融合
            • QoE 预测模块
            • 结果
            领券
            问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档