前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >TMM 2022 | 基于深度特征融合和概率估计的高效 VVC 帧内预测

TMM 2022 | 基于深度特征融合和概率估计的高效 VVC 帧内预测

作者头像
用户1324186
发布于 2023-10-24 02:46:15
发布于 2023-10-24 02:46:15
40701
代码可运行
举报
文章被收录于专栏:媒矿工厂媒矿工厂
运行总次数:1
代码可运行

引言

VVC 作为最新的有损视频编码标准,一直受到视频编码界的关注。与其前身相比,该标准的压缩效率有了显著提高,然而,VVC 的增益是以显著的编码复杂度为代价:VVC 继承了早期标准中基于块的混合编码结构。在 VVC 中,输入视频帧被分成称为编码树单元 (CTU) 的块。CTU 由不同级别的编码单元 (CU) 组成,这些编码单元共享相同的预测风格(即帧内或帧间)。CU 分区过程是通过计算和比较所有分区的 RD 成本来实现的,这是一项非常耗时的任务。

到目前为止,在流行的视频编解码器(如 H.264/AVC 和 H.265/HEVC)上实现的高效 CU 分区方面已经做出了巨大的贡献。然而,由于编码结构的复杂变化,这些方法不能直接移植到新开发的 VVC 编解码器中。目前仍缺乏适合最新版本 VVC 的低复杂度编码算法。在现有的 VVC 算法中,低复杂度的帧内预测算法受到的关注较少。为了解决这个问题,本文提出了一个两阶段的框架。

提出的算法

VVC 的帧内预测包含两个步骤。首先,将 CTU 迭代分解为多个编码深度不同的 CU。其次,在每个编码深度中,对不同方向和模式的分区模式进行彻底检查,找出 RD 成本最小的分割模式。

因此,本文设计了一种两阶段复杂度优化策略:基于深度特征融合的帧内深度预测模型 (D-DFF) 确定最优深度,基于概率估计的分区模式预测模型 (P-PBE) 选择候选分区。最后利用所选择的深度和分区来加快 VVC 内编码中 CU 分区的速度。

基于深度特征融合的帧内深度预测

参考信息

VVC 与 HEVC 相比,采用了更大的 CTU 尺寸和深度。本文将 CTU 划分为 8×8 块,并尝试预测每个块的最佳深度(块大小 8×8 的选择是基于预测精度和编码复杂性之间的权衡)。因此,大小为 128×128 的 CTU 被划分为16×16块。

为了准确地预测最佳深度值,本文参考了时空相邻 CU 的深度信息。对于位于(x, y, t)的每个 8×8 块(其中 x, y, t 分别表示空间坐标和时间顺序),收集以下块的深度值:

S_D=\left\{ \begin{matrix} B(x + ∆x, y + ∆y, t),if ∆x < 0|| ∆x = 0\&∆y < 0, \\ B(x + ∆x, y + ∆y, t − 1), otherwise, \end{matrix} \right.\quad(1)

其中 ∆x 和 ∆y 表示从 -2 到 2 的整数。如果相邻块已经编码,则收集它的深度,否则在之前编码的帧处收集其同址块的深度。最后得到 5×5 的深度图作为 D-DFF 网络的输入。

D-DFF 网络结构

图1 D-DFF 网络结构

D-DFF 网络包括三个步骤:特征提取、特征拼接和分类。

深度图特征提取有两条路径:一条是先利用 1×1 卷积核进行维度提升,然后用 3×3 卷积核结合 ReLU 进行尺度特征提取;另一个只使用 1×1 内核。这两条路径分别输出 8 个和 4 个 5×5 的特征映射。所有提取的特征输入到下一步进行特征融合。

特征拼接步骤将第一步的所有特征映射组合在一起,并将它们平展成一个向量。在这一步之后,12 张 5×5 特征图被拉伸成一个长度为 300 的向量。

最后,分类步骤接收特征向量并输出预测深度。使用具有 2 个隐藏层和一个 softmax 层的神经网络来完成该任务。由于帧内预测是在 CU 深度 1 或以上进行的,因此只有从 1 到 6 这 6 种输出深度。选择概率最大的深度值作为预测深度。

图2 不同 3×3 卷积层数下的模型精度和计算开销

为了在模型精度和复杂性之间取得平衡,本文对该 D-DFF 模型的所有超参数进行了优化。该模型的一个重要设计是其双路径特征提取,以获得多尺度特征。在这一步中,最大卷积层数会影响模型的预测精度和计算开销。在上图中,给出了模型在不同 3×3 卷积层数下的平均精度和开销。可以看出,具有一个 3×3 卷积层的模型在模型精度和计算复杂度之间取得了很好的平衡。因此,本文在第一条路径中使用一个 1×1 和一个 3×3 卷积层。最大卷积层数为 2。

模型训练

本文从 LIVE 数据集、UVG 数据集和 AVS2/AVS3 的标准序列中收集了 58 个视频序列。这些序列覆盖了很大范围的分辨率,具有不同的帧率和位深度,还涵盖了广泛的空间信息 (SI) 和时间信息 (TI)。

表1 用于模型训练和测试的视频序列

图3 序列的 SI 和 TI 分布

利用 VTM 12.0 对这些序列进行进一步压缩,量化参数 (Qps) 分别为 22、27、32 和 37。在压缩过程中,收集所有 CU 的深度值,并将其重组为预测深度和相应参考深度图对。这些数据对构成了一个大数据集,以 4:1 的比例分为训练集和测试集。

该深度模型在测试集中显示出较高的预测性能,平均精密度、召回率、特异性和正确率分别为 0.914、0.917、0.983 和 0.971。这些结果证明了 D-DFF 模型的有效性。

表2 深度预测模型的分类性能

深度预测

虽然预测深度时选择了最可能的深度,但仍然可能存在一小部分不正确的预测。这些错误的预测可能在视频编码过程中累积到相当大的数量,并进一步导致 RD 成本增加。为了避免这种错误传播,采用了如下保守策略:

\begin{aligned} \hat{D}(x, y)= & \tilde{D}(x, y)+max \left\{\left\lfloor\frac{1}{K_D} \sum_{k=1}^{K_D}\left(D_k(x, y)-\tilde{D}_k(x, y)\right)+\frac{1}{2}\right\rfloor, 0\right\} \end{aligned} \quad(2)

其中,

\hat{D}(x, y)

表示调整后的深度。

K_D

表示预测当前深度的参考区块数。

D_k(x, y)

\stackrel{\sim}{D}_k(x, y)

分别表示第 k 个参考块的最终深度和预测深度。通过该方法,能够估计其邻近块的深度偏移,有效地减少了由于累积预测误差造成的 RD 损失,进一步提高了 D-DFF 模型的鲁棒性。

最终,对于包含多个 8×8 块的 CU,其最优编码深度估计为:

\begin{aligned} D_o=\max _{\{x, y\} \in \mathrm{CU}}\{\hat{D}(x, y)\} \end{aligned} \quad(3)

在编码过程中,当前的 CU 被迭代地分割,直到它的最佳深度。为节省编码时间,跳过大于最优深度的编码。

基于概率估计的帧内分区模式预测

在 CTU 编码中,迭代执行分割过程,直到每个 CU 的最优深度 Do。对于每一个小于 Do 的深度,CU 遍历 5 种可能的分区模式,包括四叉树 (QT) 分区、垂直二叉树 (BTV) 分区、水平二叉树 (BTH) 分区、垂直三叉树 (TTV) 分区和水平三叉树 (TTH) 分区。为了进一步跳过不必要的编码模式,需要预测所有分区模式的概率。

参考信息

记位于 (x, y, t) 处的 CU为 U(x, y, t),其大小在 VVC 中大于 4×4。设它的参考集为

S_P=\left\{ \begin{matrix} U(x + ∆x, y + ∆y, t||t − 1),if ∆x < 0||∆x = 0\&∆y < 0, \\ U(x + ∆x, y + ∆y, t − 1), otherwise, \end{matrix} \right. \quad(4)

其中 ∆x 和 ∆y 的取值范围为 -1 至 1。该参考集与深度预测的参考集相似,但有两点不同:

  • 在当前帧和左侧帧中收集顶部和左侧 CU 的分区。前人的研究表明,这些 CU 与当前 CU 具有较高的分区相关性。
  • 降低了 ∆x 和 ∆y 的取值范围。没有卷积操作时,一个小而有效的参考集更实用。

概率估计

令 R 表示 CU 参考集

S_P

中所有最佳分区模式的集合。一个分区模式 M,其被选为最佳分区模式的概率可估计为:

P(bm = M) = P(bm = M|M ∈ R)P(M ∈ R)+P(bm = M|M ∉ R)P(M ∉ R) \quad(5)

表3 最佳划分模式的平均概率

由于

P (bm = M|M∈R)

P (bm = M|M ∉ R)

要高得多,可以认为

P(bm=M|M∉R) ≈ 0

。该概率估计化简为

P(bm = M|M ∈ R) = \frac{\displaystyle \sum_{U∈S_P}N(bm_U = M)}{\displaystyle \sum_{m∈R}\sum_{U∈S_P}N(bm_U = m)} \quad(6)

P-PBE 方法

在得到每个划分模式的概率后,对属于 R 的划分模式根据其概率进行降序排序,并将其他不在 R 中的划分模式加在最后。当当前分区模式的 RD 成本大于迄今为止获得的最小 RD 成本时,跳过未测试的分区,以节省总编码时间。

图4 分区模式预测流程图

实验

实验配置

本文在 JVET 通用测试条件 (CTC) 下的 VTM-12.0 平台上使用 ALL-INTRA 配置实现了该算法。CTC 提供 6 组视频序列,分别是 A1 (3840×2160)、A2 (3840×2160)、B (1920×1080)、C (832×480)、D (416×240) 和 E (1280×720)。这些序列具有不同的空间信息 (SI) 和时间信息 (TI) 值。

图5 所有 CTC 序列的 SI 和 TI 分布

本文将所提出的算法与 C-TTD、Fu、CSD-SL、Tang、DeepQTMT 和Li 等最先进的算法进行了比较。评价标准包括四种 QPs(22、27、32 和 37)下的 BDBR(%) 和平均节省时间 (ATS)(%)。

实验结果

所有方法都增加了可以忽略不计的 BDBR 值,这证明了它们在降低计算复杂性的同时保持压缩视觉质量方面的高效率。相比之下,C-TTD、Fu、CSD-SL、Tang、DeepQTMT 和 Li 算法的平均 ATS 值分别为 30.95%、44.29%、50.99%、36.01%、45.82% 和 43.25%,RD 损失较小。与它们相比,本文的方案具有更好的计算复杂度降低,平均 ATS 为 55.59%。

表4 比较结果

展望

将该框架应用于帧间预测时,可以用最接近的预测帧来预测当前帧的深度图。通过对该模型进行简单的迁移,结果显示,在没有明显 RD 损失的情况下,随机存取和低延迟的平均时间分别减少了 32.88% 和 32.40%。考虑到帧内和帧间预测的不同分区分布,还可以进一步完善该模型以提高 RD 性能。

表5 算法在随机接入和低时延配置下的结果

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-10-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 媒矿工厂 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
基于SVM的VVC帧内快速CU划分算法
论文标题:SVM Based Fast CU Partitioning Algorithm for VVC Intra Coding
用户1324186
2021/07/06
1.7K0
基于SVM的VVC帧内快速CU划分算法
基于多尺度神经网络和特征融合的SOTA单目深度估计
论文: https://arxiv.org/pdf/2009.09934.pdf 代码: https://github.com/abhinavsagar/msnnff
McGL
2021/07/07
2.5K2
基于深度学习的单目深度估计综述
深度估计是计算机视觉领域的一个基础性问题,其可以应用在机器人导航、增强现实、三维重建、自动驾驶等领域。而目前大部分深度估计都是基于二维RGB图像到RBG-D图像的转化估计,主要包括从图像明暗、不同视角、光度、纹理信息等获取场景深度形状的Shape from X方法,还有结合SFM(Structure from motion)和SLAM(Simultaneous Localization And Mapping)等方式预测相机位姿的算法。其中虽然有很多设备可以直接获取深度,但是设备造价昂贵。也可以利用双目进行深度估计,但是由于双目图像需要利用立体匹配进行像素点对应和视差计算,所以计算复杂度也较高,尤其是对于低纹理场景的匹配效果不好。而单目深度估计则相对成本更低,更容易普及。
计算机视觉
2021/03/17
1.9K0
基于深度学习的单目深度估计综述
使用CNN (VVC滤波)提高VVC的预测感知质量( VCIP 2020)
这是2020年VCIP的一篇论文:灵感来自EDSR,以帧内预测信号作为附加输入,Y,U和V分量的平均BD速率增益分别为6.7%,12.6%和14.5%。
deephub
2021/03/24
6350
从HEVC到VVC:帧内预测技术的演进(2) – 多划分及多参考行帧内预测
当前主流的视频编码标准(如H.264/AVC,VP9,AVS1,HEVC等)均使用当前预测单元最邻近的已重构像素对当前预测单元进行帧内预测。因为当前预测单元与其临近的像素之间有很强的相关性,该帧内预测技术可以有效地降低信号间的空间冗余。然而,如果当前预测单元内的像素与其周围临近的像素之间的相关性较弱时,该预测技术并不能很好的发挥作用。近几年的研究结果表明,多划分(sub-partition)和多参考行(Multiple reference line)帧内预测技术可以进一步提高帧内预测的性能。 本文分别
腾讯多媒体实验室
2019/06/05
2.8K0
从HEVC到VVC:帧内预测技术的演进(2) – 多划分及多参考行帧内预测
PCS2018:下一代视频编码标准——Versatile Video Coding (VVC)【附PPT全文】
做为图像/视频编码领域的顶级会议之一,第33届图像编码研讨会(PCS,Picture Coding Symposium)于2018年6月24号至6月27号在加州旧金山召开。本次会议旨在为视觉压缩领域提供一些突破性的先进技术以及提供高水平的学术报告。在会上,JVET的两位联合主席Jens-Rainer Ohm和Gary J. Sullivan做了关于下一代视频编码标准VVC的主题报告,介绍了上一轮提案征集结束后的测试结果、当前VVC测试软件的情况以及后续的工作计划。
用户1324186
2018/07/26
3.9K1
PCS2018:下一代视频编码标准——Versatile Video Coding (VVC)【附PPT全文】
nuscenes再创新高!EA-LSS:高效优化LSS方案,即插即用~
大家好,很开心能够受邀来到自动驾驶之心分享我们最近针对多模态BEV 3D目标检测的改进方案——EA-LSS。下面将会给大家详细介绍EA-LSS的设计思路与实验。
公众号-arXiv每日学术速递
2023/09/11
1K0
nuscenes再创新高!EA-LSS:高效优化LSS方案,即插即用~
VVC视频编码标准化过程即将完成
原文 https://bitmovin.com/compression-standards-vvc-2020/
LiveVideoStack
2020/02/28
1.1K0
VVC视频编码标准化过程即将完成
[强基固本-视频压缩] 第三章:HEVC中的空间(帧内)预测
HEVC标准所实现的视频编码系统被分类为基于块的混合编解码器。“基于块”在这里意味着每个视频帧在编码过程中被划分为块,然后应用压缩算法。那么“混合”是什么意思呢?在很大程度上,编码过程中视频数据的压缩是通过从视频图像序列中消除冗余信息来实现的。显然,在时间上相邻的视频帧中的图像极有可能看起来彼此相似。为了消除时间冗余,在先前编码的帧中搜索与当前帧中要编码的每个块最相似的图像。一旦找到,该图像就被用作正在被编码的区域的估计(预测),然后从当前块的像素值中减去预测的像素值。在预测良好的情况下,差分(残差)信号包含的信息明显少于原始图像,这为压缩提供了保障。然而,这只是消除冗余的一种方法。HEVC提供了另一个选择,使用与当前块相同的视频帧中的像素值进行预测。这种预测被称为空间或帧内预测(intra)。因此,“混合”一词所指的是同时使用两种可能的方法来消除视频图像中的时间或空间冗余。还应当注意,帧内预测效率在很大程度上决定了整个编码系统的效率。现在让我们更详细地考虑HEVC标准提供的帧内预测的方法和算法的主要思想。
用户1324186
2024/02/29
3090
[强基固本-视频压缩] 第三章:HEVC中的空间(帧内)预测
IEEE Transactions on Multimedia | 实时自由视角视频生成系统
随着5G网络和边缘计算技术的普及,实时自由视角视频合成方法在自由视角视频直播、3D电视、快速自由视角视频渲染以及许多其他场景中的应用越来越广泛。一般来说,实时自由视角视频合成方法可以分为五类:密集相机布置、基于3D模型重建的合成、基于神经渲染的合成、帧插值,以及基于深度图像的渲染(DIBR)。在这五类中,DIBR是在自由视角视频系统中最有效和广泛使用的方法。 为了开发基于DIBR的自由视角视频渲染方法,已经做出了巨大努力,因为它们提供了几个优点:
用户1324186
2024/04/26
4660
IEEE Transactions on Multimedia | 实时自由视角视频生成系统
VVC视频编码标准化过程即将完成
原文 https://bitmovin.com/compression-standards-vvc-2020/
LiveVideoStack
2020/03/04
9470
VVC视频编码标准化过程即将完成
活体检测新文解读:利用多帧人脸来预测更精确的深度
京东金融和中科院联合发表的“Exploiting temporal and depth information for multi-frame face anti-spoofing”[1]
SIGAI学习与实践平台
2018/12/17
1.5K1
活体检测新文解读:利用多帧人脸来预测更精确的深度
基于深度学习的RGBD深度图补全算法文章鉴赏
【GiantPandaCV导语】本文针对3维视觉中的深度图补全问题,介绍了一下近年基于深度学习的RGB-D深度图补全算法进展。深度图的质量对3维视觉至关重要,深度图的优劣极大地影响了后续的3d识别等工作,但目前较多研究聚焦于自动驾驶领域的Lidar深度图的补全,而对RGB-D相机涉猎较少,故本文介绍几篇基于consumer RGB-D cameras深度图补全的深度学习方法,以此来看看近期该领域的发展现状。
BBuf
2021/07/01
2.2K0
基于深度学习的RGBD深度图补全算法文章鉴赏
腾讯发布全球首个面向移动端的VVC标准视频解码器,手机即可看4K超高清VVC视频
腾讯发布全球首个面向移动端的H.266/VVC标准视频解码器,即其自研的O266移动端版本,手机可看4K超高清VVC视频。O266已成为世界领先的全平台VVC解码器,支持main10 profile,包括高分辨率、高动态范围、屏幕内容编码等重要功能。
量子位
2021/02/26
1.4K0
腾讯发布全球首个面向移动端的VVC标准视频解码器,手机即可看4K超高清VVC视频
新一代视频编码标准VVC的芯片设计思考
 点击上方“LiveVideoStack”关注我们 ▲扫描图中二维码或点击阅读原文▲ 了解音视频技术大会更多信息   //   编者按:VVC是新一代刚发布的视频编码标准,其中集成了当前最先进的视频压缩技术,相比上一代标准HEVC,可以提升将近50%的视频压缩率。但同时,VVC也带来了更复杂的预测方式、块划分等,其编码计算量暴增10倍以上。LiveVideoStackCon 2022 上海站大会邀请到了复旦大学微电子学院的范益波老师和和大家一同探讨了针对新一代视频编码标准VVC的芯片设计和思考。 文/范益
LiveVideoStack
2023/04/04
6010
新一代视频编码标准VVC的芯片设计思考
面向视频编解码后处理的深度学习方法进展
接前一帖(适用于视频编码帧间预测分数像素插值的卷积神经网络方法简介),今天继续介绍一类基于人工智能的视频处理技术——深度学习在视频后处理中的应用。 1 背景介绍 视频以及图像的有损压缩算法会造成较为严重的失真以及效应,比如,基于块的编码策略将会引起块效应;高频分量的缺失会造成压缩后的图像会更加模糊,还有振铃效应,颜色偏移等等。特别是在编码是在较差的编码配置下(低比特率)尤为明显。这些效应会严重降低用户体验,所以如何去除这些效应或者削弱这些效应的影响也就成为一个重要的问题。 在新一代视频编码标准HEVC(Hi
用户1324186
2018/03/06
2.6K0
面向视频编解码后处理的深度学习方法进展
8 篇论文深入学习深度估计:深度预测;自我运动学习;观看冰雪奇缘了解移动人物深度
原文标题:Research Guide for Depth Estimation with Deep Learning
AI科技评论
2019/10/31
2.3K0
8 篇论文深入学习深度估计:深度预测;自我运动学习;观看冰雪奇缘了解移动人物深度
基于深度学习的单目深度估计综述
文章:Monocular Depth Estimation Based On Deep Learning: An Overview
3D视觉工坊
2020/12/11
2.7K0
基于深度学习的单目深度估计综述
CodeVIO:基于可学习优化密集深度的视觉惯性里程计(ICRA2021)
(Xingxing Zuo, Nate Merrill, Wei Li, Yong Liu, Marc Pollefeys, and GuoquanHuang.CodeVIO: Visual-Inertial Odometry with Learned Optimizable DenseDepth.IEEE International Conference on Robotics and Automation (ICRA) 2021.)
3D视觉工坊
2021/07/28
1K0
CodeVIO:基于可学习优化密集深度的视觉惯性里程计(ICRA2021)
对 HEVC CU深度快速选择方法的思考和实践
本文介绍了如何将机器学习引入到编码器优化中,通过实验证明,该方法能够有效提升编码速度,降低压缩性能损失。
张宏顺
2017/07/17
2.5K0
对 HEVC CU深度快速选择方法的思考和实践
推荐阅读
相关推荐
基于SVM的VVC帧内快速CU划分算法
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验