前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >针对 YUV420 颜色空间的深度图像压缩研究

针对 YUV420 颜色空间的深度图像压缩研究

作者头像
用户1324186
发布2022-02-18 11:07:12
1.2K0
发布2022-02-18 11:07:12
举报
文章被收录于专栏:媒矿工厂

来源:SPIE Optical Engineering + Applications, 2021 主讲人:Changyue Ma 内容整理:冯冬辉 在这篇论文中,作者提出了两种方法来调整为 RGB 图像设计的深度图像压缩框架来压缩 YUV420 图像;基于轻量级框架,进一步研究了调整 YUV 通道的训练失真权重时对编码性能的影响。

目录

  • 简介
  • 提出的方法
  • 训练和测试细节
  • 实验结果
  • 结论

简介

目前,大多数深度图像压缩方法被设计用来压缩 RGB 颜色空间的图像。然而传统的视频编码标准,则主要设计来压缩 YUV420 色彩空间的图像。在这个研究中,作者首先研究如何调整 RGB 图像的深度压缩框架,以压缩 YUV420 图像。然后研究了调整 YUV 通道的训练失真权重时对编码性能的影响,并将实验结果与 HEVC 和 VVC AI 配置进行比较。提出的方法适用于图像压缩和视频压缩的帧内编码。

图像压缩在图像存储和传输系统中起着关键作用。在过去的几十年里,世界上大量的公司和机构一直致力于图像压缩,并发布了几个著名的图像编码标准,如广泛使用的 JPEG1 和 JPEG20002 标准,视频编码标准的 Main Still Picture profiles,如 H.265/HEVC3 和最近定稿的 H.266/VVC4,以支持高效的图像压缩。在所有这些标准中,一个包括内部预测、变换、量化和熵编码的混合编码框架被用来利用图像中的各种冗余来实现高效压缩。然而,由于混合编码框架中的模块通常是单独设计的,要在基本框架的基础上进一步提高编码性能变得越来越困难。

最近,深度图像压缩呈现出快速发展的趋势,并取得了可喜的成果。与传统的图像压缩方法相比,深度图像压缩能够以端到端的方式优化其压缩框架中的所有模块。目前,在所有的深度图像压缩方法中,变换编码与上下文自适应熵模型是最具代表性的方法,可以实现最佳的编码性能。然而,大多数深度压缩框架只设计用于压缩 RGB 颜色空间的图像,而没有关注 YUV 颜色空间的图像压缩。

考虑到 YUV 色彩空间的图像内容很多,而且 H.265/HEVC 和 H.266/VVC 等视频编码标准在其 Main Still Picture 配置文件中支持压缩 YUV 色彩空间的图像,已经有一些工作试图应用深度压缩框架来压缩 YUV 色彩空间的图像。提案 JVET-T0122 研究了在应用相同的深度压缩框架来压缩 RGB 色彩空间和 YUV444 色彩空间的图像时,与 VVC AI 配置相比,编码性能的变化。此外,提案 JVET-T0123 研究了如何将为 RGB 图像设计的深度压缩框架用于压缩 YUV420 色彩空间的图像,并提出了三种不同的深度图像压缩框架,以比较与 HEVC 和 VVC AI 配置的编码性能。

在这篇论文中,作者研究如何调整为 RGB 图像设计的深度压缩框架来压缩 YUV420 颜色空间的图像。基于深度图像压缩平台 CompressAI 中的 cheng2020-attn 模型,作者提出了两个深度图像压缩框架来编码 YUV420 色彩空间的图像。此外,作者研究了与 VVC 和 HEVC AI 配置相比,当调整 Y、U 和 V 通道的训练失真权重时,编码性能的影响。

提出的方法

基于深度图像压缩平台 CompressAI 中的 mbt2018 模型,提案 JVET-T0123 提出了三种不同的框架来压缩 YUV420 颜色空间的视频。在他们的第一种方法中,亮度和色度通道经过单独的卷积层和 GDN 层,并在第二个卷积层之前进行合并。在他们的第二种方法中,使用基于 mbt2018 的独立的神经网络编解码器对亮度和色度通道分别进行编码。在他们的第三种方法中,亮度通道在每个维度被下采样 2 倍,从而得到 4 个亮度通道。亮度通道与 2 个色度通道(6 个通道输入)叠加,并由 mbt2018 编解码器处理。

实验结果表明,在三种方法中,第一种方法可以达到最好的编码性能。原因可能是对于他们的第二种方法,Y 和 UV 通道之间的相关性不能被利用,因为 Y 和 UV 是单独优化的;而对于他们的第三种方法,由于下采样操作,亮度通道中相邻像素之间的相关性被降低。

在这篇论文中,作者在一个深度图像压缩框架中联合优化 Y 和 UV 通道,并保持 Y 和 UV 通道的分辨率不变。图 1 展示了提出的两个深度压缩框架,用于在深度图像压缩平台 CompressAI 中基于 cheng2020-attn 模型压缩 YUV420 颜色空间的图像。在提出的第一个框架中,亮度和色度通道经过单独的卷积和激活层,并在下采样之前进行组合。在提出的第二个框架中,色度通道首先通过一个简单的卷积层进行升采样,然后与亮度通道合并。

图 1:提出的两个 YUV420 深度图像压缩框架。

对于训练深度图像压缩框架,训练目标是使失真和比特率的加权和最小化。对于失真,作者尝试对 YUV 通道使用不同的失真权重,如 1:1:1、2:1:1、4:1:1、6:1:1 和 8:1:1。如下所示:

YUV 通道加权失真。

训练和测试细节

DIV2K 数据集和 UCID 数据集作为训练集,在训练时随机裁剪为 256×256 的图像块。网络使用 Adam 进行训练,批量大小设置为 16。最初的学习率被设置为 1e-4 并迭代大约 7e5 次,然后学习率被降低到 5e-5,最后迭代大约 3e5 次。网络的训练采用失真度量 MSE。训练了 4 个模型,λ值设置为 0.005、0.01、0.025、0.1,相应的潜变量通道数为 128、128、192、192。

Kodak 数据集包含 24 张未压缩的 768×512 图像,被转换为 YUV420 格式并作为测试集。为了评估率失真性能,用每像素比特数(bpp)来衡量码率,用 PSNR 来衡量失真。码率-失真(RD)曲线被用来比较不同方法的编码性能。此外还用 BD-rate 降低来评估具体的编码性能值。

实验结果

首先,作者比较了提出的两个深度压缩框架在 YUV420 图像上的编码性能。两个深度图像压缩框架都是以 YUV 失真权重 8:1:1 进行训练的。如下图所示,这两个框架在所有通道中的编码性能都很相似。与第二个框架相比,第一个框架在 Y、U 和 V 通道中实现了 0.7%、1.24% 和-0.36% 的 BD-rate 增益。然而,第一个框架的微小编码性能改进是以增加 17% 的网络参数和 28% 的测试时间为代价的。因此,这里选择第二个框架作为研究 YUV 通道不同失真权重的基准。

图 2:提出的两个框架在 Kodak 数据集上的 RD 曲线。

图 3 是提出的第二种深度图像压缩框架在 YUV 通道不同失真权重下的 RD 曲线,与 VVC 测试软件 VTM-11.0 和 HEVC 测试软件 HM-16.22 在 YUV 通道的对比。从图 3 可以看出,当逐渐增加 Y 通道的失真权重时,所提出的深度图像压缩框架在 Y 通道的编码性能得到改善,而在 U 和 V 通道的编码性能则有所下降,这与直觉一致。此外,表 1 和表 2 给出了所提出的深度图像压缩框架在 YUV 通道中相比 VTM11.0 和 HM16.22 的 BD-rate 增益,其中负数代表编码增益。从表 1 和表 2 可以看出,在 YUV420 色彩空间中,深度图像压缩框架与 VTM-11.0 在编码性能上仍有差距,但在所有 YUV 通道中,深度图像压缩框架的编码性能已经超过了 HM-16.22。

图 3:Kodak 数据集上 YUV 通道的不同失真权重的 RD 曲线。

表 1:在不同的 YUV 失真指标下,Framework2 相比 VTM-11.0 的整体性能。

表 2:在不同的 YUV 失真指标下,Framework2 相比 HM-16.22 的整体性能。

此外,可以用不同的 YUV 失真权重处理不同的码率点。从图 3 可以看出,Framework2-611 与 VTM-11.0 在 U 和 V 通道的两个最低码率点上存在较大的编码性能差距。可以用 Framework2-211 的最低码率点、Framework2-411 的第二低码率点与 Framework2-611 的两个最高码率点相结合,与 VTM11.0 和 HM16.22 进行比较,相应的 RD 曲线和 BD-rate 增益见图 4 和表 3。

图 4:Kodak 数据集上的包络曲线。

表 3:包络曲线相比 VTM-11.0 和 HM-16.22 的总体性能。

结论

在这篇论文中,作者提出了两种方法来调整为 RGB 图像设计的深度图像压缩框架来压缩 YUV420 图像,所提出的方法适用于图像压缩和视频压缩中的帧内编码。基于轻量级框架,进一步研究了调整 YUV 通道的训练失真权重时对编码性能的影响。实验结果表明,最新的深度图像压缩框架与 H.265/HEVC 测试模型相比,在 YUV420 色彩空间中可以实现更优越的编码性能,但与 H.266/VVC 测试模型相比,仍然存在编码性能的差距,深度图像压缩需要更先进的技术来进一步超越 YUV420 色彩空间的最新视频编码标准 VVC。

最后附上演讲视频:

http://mpvideo.qpic.cn/0bc3qeab6aaaieahftqdw5rfbaodd6aqahya.f10002.mp4?dis_k=9831d5787faa089145ae4db57f15fb7e&dis_t=1645153536&vid=wxv_2261562038395289603&format_id=10002&support_redirect=0&mmversion=false

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-02-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 媒矿工厂 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 简介
  • 提出的方法
  • 训练和测试细节
  • 实验结果
  • 结论
相关产品与服务
图像处理
图像处理基于腾讯云深度学习等人工智能技术,提供综合性的图像优化处理服务,包括图像质量评估、图像清晰度增强、图像智能裁剪等。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档