前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >从HEVC到VVC:帧内预测技术的演进(2) – 多划分及多参考行帧内预测

从HEVC到VVC:帧内预测技术的演进(2) – 多划分及多参考行帧内预测

作者头像
腾讯多媒体实验室
发布2019-06-05 15:10:26
2.6K0
发布2019-06-05 15:10:26
举报

当前主流的视频编码标准(如H.264/AVC,VP9,AVS1,HEVC等)均使用当前预测单元最邻近的已重构像素对当前预测单元进行帧内预测。因为当前预测单元与其临近的像素之间有很强的相关性,该帧内预测技术可以有效地降低信号间的空间冗余。然而,如果当前预测单元内的像素与其周围临近的像素之间的相关性较弱时,该预测技术并不能很好的发挥作用。近几年的研究结果表明,多划分(sub-partition)和多参考行(Multiple reference line)帧内预测技术可以进一步提高帧内预测的性能。

本文分别以国际视频编码标准HEVC(High-Efficiency Video Coding)和正在制定过程中的VVC(Versatile Video Coding)标准为例,阐述了多划分和多参考行帧内预测技术在这两代国际视频压缩标准之间的技术演进。

一、 HEVC中的帧内预测单元

与H.264/AVC相比,HEVC采用更加灵活的四叉树划分结构,其编码单元的尺寸可以从8x8到64x64,预测单元的尺寸可以从4x4到64x64。这种划分结构使得当前预测单元右方,右上方,左方以及左下方的已重构像素都有可能被用来预测当前预测单元的像素值。如图1所示,当前预测单元C的尺寸是8x8,其左方预测单元L和上方预测单元A的尺寸都是16x16,在编码当前预测单元C之前,其右方,右上方,左方以及左下方的参考像素都已经编码重构 [1]。

图 1

HEVC的帧内编码单元有两种类型的预测单元,分别是2Nx2N和NxN。如图2所示, 2Nx2N是指当前预测单元的尺寸和编码单元的尺寸相同,NxN是指当前编码单元被划分成4个大小相等的预测单元,每个预测单元的宽和高的尺寸都是其编码单元的一半,且每个预测单元可以有不同的帧内预测方向。当编码单元的尺寸大于8x8时,其预测单元的类型只能是2Nx2N;当编码单元的尺寸等于8x8时,其预测单元的类型可以是2Nx2N或者NxN。这种设计是为了减少预测单元的划分与编码单元的四叉树划分之间的相互重叠。

图 2

二、 HEVC标准制定前后多划分及多参考行帧内预测技术的演进

在HEVC标准制定的初期阶段, JCTVC-A111 [2] 以及JCTVC-A118 [3] 提出了基于行或列的帧内预测技术。该技术将每一行或列作为预测、变换以及熵编码的基本单元。每一行(或列)编码及重构之后,其重构像素值可以用来预测下一行(或列)的像素值。对于采用该技术的预测单元,其需要编码一个比特位来标记当前预测单元采用的是逐行的帧内预测技术还是逐列的帧内预测技术。由于该技术大大减小了预测像素和参考像素之间的距离,编码性能得到显著提高。

经过三个会议周期的研究和讨论, JCTVC-D299 [4] 提出了基于子块的短距离帧内预测技术(Short Distance Intra Prediction,简称SDIP),该技术提出了两种新的预测单元类型——2NxhN以及hNx2N。这两种预测单元类型分别是将当前预测单元划分成水平方向或者垂直方向的四个子块,并且划分的子块可以进一步再划分。与NxN划分类型相同, 2NxhN以及hNx2N划分类型中的每个预测单元可以有不同的帧内预测方向。如图3所示,在SDIP模式中,16x16的编码单元可以划分成四个16x4或者4x16的预测单元,8x8的编码单元可以划分成四个8x2或者2x8的预测单元,并且4x16的预测单元可以进一步划分成四个1x16的子块。

图 3

又经过多轮的改进和简化, JCTVC-G135 [5] 中将SDIP模式中的预测单元划分类型简化为2NxN以及Nx2N,在这两种预测单元类型中,当前编码单元被划分成水平或者垂直方向的两个子块。虽然SDIP在简化后仍然有较高的编码增益,但是由于其较高的编码复杂度,最终没有被HEVC标准所采纳。

在HEVC标准定稿之后的2016年5月份的JVET(Joint Video Exploration Team)会议中, JVET-C043 [6] JVET-C071 [7] 同时提出了多参考行帧内预测技术(Multiple reference line intra prediction,简称MRLP)。如图4所示,MRLP技术将当前预测单元允许使用的参考像素的行数从1增加到N (N > 1)。编码端可以从N个参考像素行中任意的选择一行对当前预测单元中的像素进行编码,并将选定的参考像素行的索引传递到解码端,解码端则根据接收到的参考像素行索引对当前预测单元进行预测。因为MRLP技术给编码端提供了更多的选择,其带来了接近1%的编码性能增益,但由于其较高的编码复杂度,在之后的几次会议中都没有被标准采纳。

图 4

三、VVC中的多划分及多参考行预测技术

在VVC标准的制定过程中,多划分及多参考行预测技术不断进步。多划分预测ISP(Intra sub-partition)技术提案JVET-M0102 [8]在 2017年1月份的Marrakech会议被采纳。与SDIP技术相比,ISP主要有以下几项改进:

(1)只有最有可能预测模式列表(Most probable mode list,简称MPM list)中的帧内预测模式能被ISP模式使用。MPM列表中的预测模式是由当前预测单元左方和上方的预测单元中的预测模式推导得出的。由于当前预测模式与其周围的预测模式之间有很强的相关性,MPM列表中的预测模式有很高的选中概率。如果当前预测模式是ISP,则其MPM 标识符号始终为真,并不再传递到解码端。该改进的主要目的是为了降低ISP模式的编码端时间复杂度。

(2)根据预测单元的尺寸,ISP预测模式将当前的预测单元划分成2个或者4个子块 (sub-partition)。具体来讲,如果当前预测单元的尺寸为4x4,那么ISP预测模式被禁止;如果当前预测单元的尺寸是4x8或者8x4,如图5所示,该预测单元可以被划分为2个水平方向或者垂直方向的子块;否则,如图6所示,该预测单元可以被划分为4个水平方向或者垂直方向的子块。该改进主要是出于硬件复杂度的考虑。

图 5

图 6

(3)对于ISP预测模式,参考像素在使用之前不再经过平滑滤波器(intra smoothing filter)滤波处理。

对于多参考行预测技术,VVC 编码标准最终采纳了提案JVET-L0283 [9]。该提案中的算法将MRLP技术的编码端时间从原先的180%降低了到104%,与提案JVET-C043及JVET-C071的MRLP技术相比,JVET-L0283提案中的算法主要有以下几项改进:

(1)对于非临近的参考行,只有MPM列表中的预测模式能被使用。根据实验统计分析,对于非临近的参考行, MPM列中的预测模式的选中概率接近70%~80%。因此,对于非临近的参考行,禁止非MPM列表中的 预测模式,可以有效地降低编码端的复杂度。

(2) 当前预测单元可以使用的参考像素行的索引分别是0,1以及3。这是因为在索引号为0~3的参考行中,索引号为0和1的参考像素行与当前预测单元中的像素距离相对较近,有较高的相关性,因此需要保留。索引为3的参考像素行与当前预测单元的距离相对较远,可以提供较为不同的参考像素,而索引为2的参考像素行,很难提供额外的参考像素信息。

(3)对于非临近的参考行,参考像素在使用之前不再经过平滑滤波器(intra smoothing filter)滤波处理。该改进给编码器提供了不同参考像素行之间平滑滤波器on/off的选项,增加了编码器的选择。

(4)对于非临近的参考行,在预测过程中,其采用的插值滤波器不再进行高斯平滑滤波器(Gaussian interpolation filter)和三次插值滤波器(Cubic interpolation filter)的切换,而是始终使用三次插值滤波器。该改进是为了更好的保留图像的边缘信息,因为实验统计发现,当非临近的参考行被选中时,当前预测单元内部通常有比较复杂的纹理信息。

四、 总结

本文总结了从HEVC到VVC标准的过程中多参考行预测技术和子块预测技术的演进。与HEVC相比,新一代VVC标准采纳了改进后的多参考行预测技术以及子块预测技术。腾讯音视频实验室深度参与了多参考行预测技术在VVC标准中的研制工作,贡献了多项技术提案并有一项技术提案被采纳,该提案显著地降低了多参考行帧内预测技术的编码复杂度并首次将其成功推向视频标准。

参考文献

[1] J. Lainema, F. Bossen, W-J Han, J. Min, and K. Ugur, “Intra Coding of the HEVC Standard,” IEEE Trans. Circuits Syst. Video Technol., vol. 22, no. 12, pp. 1792–1801, Dec. 2012.

[2] H. Yang, J. Fu, S. Lin, J. Song, D. Wang, M. Yang, J. Zhou, H. Yu, C. Lai, Y. Lin, L. Liu, J. Zheng, X. Zheng “Description of video coding technology proposal by Huawei Technologies & Hisilicon Technologies,” Joint Collaborative Team on Video Coding (JCT-VC) of ITU-T VCEG and ISO/IEC MPEG, JCTVC-A111, Dresden, DE, 15-23 April 2010.

[3] F. Wu, X. Sun, J. Xu, Y. Zhou, W. Ding, X. Peng, and Z. Xiong, “Description of video coding technology proposal by Microsoft,” Joint Collaborative Team on Video Coding (JCT-VC) of ITU-T VCEG and ISO/IEC MPEG, JCTVC-A118, Dresden, DE, 15-23 April 2010.

[4] X. Cao, X. Peng, C. Lai, Y. Wang, Y. Lin, J. Xu, L. Liu, J. Zheng, Y. He, H. Yu, and F. Wu, “CE6.b Report on Short Distance Intra Prediction Method,” Joint Collaborative Team on Video Coding (JCT-VC) of ITU-T VCEG and ISO/IEC MPEG, JCTVC-D299, Daegu, KR, 20-28 January 2011.

[5] S. Liu, X. Zhang, S. Lei, “Rectangular (2NxN and Nx2N) Intra Prediction,” Joint Collaborative Team on Video Coding (JCT-VC) of ITU-T VCEG and ISO/IEC MPEG, JCTVC-G135, Geneva, Switzerland, November 2011.

[6] Y.-J. Chang, P.-H. Lin, C.-L. Lin, J.-S. Tu, and C.-C. Lin, “Arbitrary reference tier for intra directional modes,” Joint Video Exploration Team (JVET) of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11, JVET-C0043, Geneva, CH, May 2016.

[7] J. Li, B. Li, J. Xu, R. Xiong, and G. J. Sullivan, “Multiple line-based intra prediction,” Joint Video Exploration Team (JVET) of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11, JVET-C0071, Geneva, CH, May 2016.

 [8] S. De-Luxán-Hernández, V. George, J. Ma, T. Nguyen, H. Schwarz, D. Marpe, and T. Wiegand, “CE3: Intra Sub-Partitions Coding ModeJoint Video Exploration Team (JVET) of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11,” JVET-M0102, Marrakech, MA, 9–18 Jan. 2019.

[9] B. Bross, P. Keydel, H. Schwarz, D. Marpe, T. Wiegand, L. Zhao, X. Zhao, X. Li, S. Liu, Y.-J. Chang, H.-Y. Jiang, P.-H. Lin, C.-C. Kuo, C.-C. Lin, and C.-L. Lin “CE3: Multiple reference line intra prediction,” Joint Video Exploration Team (JVET) of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11, JVET-L0283, Macao, CN, 3–12 Oct. 2018.

———— / END / ————

最新资讯 丨 技术干货

就在腾讯音视频实验室

长按二维码关注我们

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-06-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯音视频实验室 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
图像处理
图像处理基于腾讯云深度学习等人工智能技术,提供综合性的图像优化处理服务,包括图像质量评估、图像清晰度增强、图像智能裁剪等。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档