前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >DSCT:一种数据驱动的图像编码框架

DSCT:一种数据驱动的图像编码框架

作者头像
用户1324186
发布2022-02-18 10:42:15
发布2022-02-18 10:42:15
1.3K0
举报
文章被收录于专栏:媒矿工厂媒矿工厂

来源:SPIE Optical Engineering + Applications, 2021, San Diego, California, United States 作者:Yifan Wang, Zhanxuan Mei, Ioannis Katsavounidis, C.-C. Jay Kuo 内容整理:赵研 基于块的 DCT 变换和量化在 JPEG 等众多图像编码标准中起着重要作用。本文提出了一种名为 'DSCT' 的图像编码框架,它采用数据驱动的机器学习方法,基于像素的统计特性进行色彩变换和空间变换。为了与这种变换方式匹配,作者提出了一种基于人眼视觉系统 (Human Visual System, HVS) 的量化方式。此外,为了有效地补偿量化误差,文中采用了基于机器学习的策略对反变换过程进行优化。该方法的有效性在 Kodak 图像数据集上使用 libjpeg 库得到验证:在 0.2-3 bpp 的码率区间内,相对 JPEG 标准有 0.5738 的 BD-PSNR 提升 (或者说在 BD-rate 指标下,有 9.5713 的码率节省)。

目录

  • 介绍
  • 方法
    • PQR 色彩空间
    • 双向的 2D PCA 块变换
    • 基于 HVS 的量化方法
    • 基于机器学习的 PCA 反变换
  • 实验
    • 色彩空间的影响
    • 最优的 (2D)^2\;PCA 反变换核
  • 总结
  • 参考文献

介绍

近三十年来发布了很多图像和视频编码标准,如 JPEG, JPEG2000, BPG, MPEG, H.264/AVC, HEVC 等。YCbCr 色彩系统因其各通道间较低的相关性而被大多数编码标准采用。然而从图像整体层面这并不是最优策略,因此产生了许多基于亮度对色度进行预测的方法。此外,一些基于 PCA 的颜色变换方式可以进一步去除通道间相关性,进而降低编码码率,然而这需要为每幅图像保存一个 PCA kernel 并进行计算,复杂度高,因而没有得到广泛应用。

块变换作为一种高效的能量压缩方法,被广泛用于图像视频编码标准中。该方法将图像内容分块后,分别进行空域-频域的变换操作,只有少数的变换系数具有较大数值,而其他大量系数会在量化后变为零,提升了编码压缩效率。JPEG 图像编码标准中使用了块大小为 8x8 的 DCT 变换,随着编码标准的发展,不同块大小的 DCT 变换以及 Hadamard 变换也被引入,在这些变换核中进行 RDO 模式选择增加了编码整体算法的复杂度。

关于 IDCT 的研究主要集中在用新的计算方法和高效的软硬件实现来降低复杂度,如已知零系数的蝶形 IDCT 变换,FPGA 上的高速乘法器实现等。量化是有损数据压缩的重要组成部分,JPEG 标准中使用了 HVS 的量化方法,而近年来的标准为了降低复杂度,选择采用均匀量化方式。

鲜有工作对量化带来的影响进行分析,在图像/视频编码中,DCT 系数要先经过量化和反量化才会进行逆变换,当码率较高时,反量化得到的系数非常接近原始值,因而 IDCT 可以较好地重建图像块。而在码率较低时,量化带来的损失不可忽略,传统的 IDCT 变换核是直接由 DCT 取反得到的,很可能不是最优策略。

本文提出了一种基于机器学习的图像编码方法: "DCST",并基于图像像素的统计特性设计 JPEG 中的三个模块:1) PCA 色彩变换; 2) 正变换; 3) 反变换。此外,文中还提出了一种新的基于变换核的量化方法。

方法

文中方法是基于 JPEG 编码标准改进而来的,其整体框架如图 1 所示。

图1. 提出的 DCST 整体编码框架

PQR 色彩空间

对输入的 RGB 图像使用 PCA (主成分分析) 方法来去除通道间相关性,得到的新的色彩空间被称为 "PQR"。在编码时对每张图像使用 PCA 色彩变换,可以得到比 YCbCr 格式更高的压缩效率。P 通道占用了总体能量的 90% 以上,而 R 通道的能量只有不到 2%。与 JPEG 中对色度分量的处理类似,这里将 Q 分量和 R 分量进行二倍下采样,以此来适应 JPEG 420 框架。

双向的 2D PCA 块变换

使用 DCT 变换时,频域系数间仍保有微弱的相关性,如图 2 (a) 所示,前 16 个 AC 系数间保留了较高的相关性,而基于 PCA 的方法可以有效地去除这些相关性,如图 2 (b) 所示。

图2. 在 8x8 块中使用 DCT 和 PCA 方法时,前 16 个 DC/AC 系数之间的相关性

文中选用 (2D)^2 \;PCA 方法进行块变换,(2D)^2 \;PCA 使用水平方向 (2D) \;PCA 和可选的垂直方向 (2D) \;PCA ,与 2D \;PCA 方法相比,它能以少得多的参数需求,取得相同甚至更好的识别准确性。对于 NxN 大小的块,2D \;PCA 需要 N^4 级别的核参数量,而 (2D)^2 \;PCA 只需要 2N^2 的参数量。编码过程中会对每幅图像进行 (2D)^2 \;PCA 训练得到变换核,可以实现比 DCT 更好的压缩性能,该过程中计算的水平和垂直协方差矩阵是额外开销。

基于 HVS 的量化方法

这里将 "Model-based digital halftoning" 一文中的调制传递函数 (Modulation Transfer Function, MTF) 进行了一些修改,并由 (2D)^2 \;PCA 方法生成量化矩阵。

表 1 为使用本文方法生成的一个 8x8 量化表,在 Kodak 数据集上,该表对水平和垂直方向的 PCA 核具有很好的自适应性,性能优于 JPEG 中使用的量化矩阵。由于该量化矩阵可以由上一节中的水平和垂直变换核计算得到,因此量化部分没有额外开销。

基于机器学习的 PCA 反变换

为了使模型规模尽可能小,作者选用线性回归方法来寻找最优的反变换核,该过程可以对量化噪声进行建模,并得到更好的解码效果。为了与文中两阶段的 PCA 过程相匹配,这里将训练学习过程分为两部分,分别学习水平和垂直方向的最优反变换核,这样可以大大减少模型的权值数量,提升训练速度。

原始图像可用时,训练过程会在编码时进行:

  • 第一步是对反量化后的图像块 B^{dQ} 和经过垂直变换后(未经量化)的系数块 B^{vertical-T} 进行回归,进而找到水平方向最优的反变换矩阵。具体来说,B^{dQ}B^{vertical-T} 都包括 N 个 8x8 的图像块,对于每一组 B^{vertical-T}_i \in B^{vertical-T} , B^{dQ}_i \in B^{dQ} ,可以表示为以下形式:B^{vertical-T}_i = B^{dQ}_i \cdot X^* 通过求解这 N 个方程,就可以找到水平方向的最优反变换核 X^*
  • 第二步是在 B^{dQ}_i \cdot X^* 和输入图像块 B_i 之间进行线性回归,以找到垂直方向最优反变换核 Z^* ,如下式所示。 B_i = Z^* \cdot (B_i^{dQ} \cdot X^*) 两个反变换核 X^*Z^* 的尺寸都为 8x8。每当对一张图像进行编码时,都会根据亮度 (y ) 通道数据找到一组最优的反变换核,并将它们保存。此处设置色度 (C_b,C_r ) 通道的最优反变换核与亮度通道相同,以降低码率和复杂度。

此外,图像是在 PQR / YC_bC_r 空间中编码的,而查看图像多数是在 RGB 空间中进行。由于色彩值的分布会在量化后略有改变,因此简单地使用 PQR / YC_bC_r

反变换核得到的结果并不是最优的。为了解决这个问题,对于每幅图像,这里将计算一个大小为 3x3 的颜色空间最优反变换核,并将其保存在码流中。

综上各个算法带来的码字开销主要有:水平和垂直方向的协方差矩阵和最优反变换核,以及最优的颜色空间反变换核。在 Kodak 数据集上,整体的码率增长小于 0.007 bpp,这是可以接受的。

实验

文中使用 Kodak, Multiband Texture (MBT) 和 DIV2K 数据集,并使用 PSNR, SSIM 和 Bjontegaard 指标对性能进行评价。文中方法是基于 libjpeg 库实现的,并将其作为基准参照。

色彩空间的影响

为了验证提出的 PQR 颜色空间的作用,这里分别将 YC_bC_rPQR 格式的图片输入到文中框架,结果如表 3 所示,可以看出 PQR 输入的 BD-PSNR 和 BD-rate 性能都要比 YC_bC_r 更优。

最优的 (2D)^2\;PCA

反变换核

文中使用机器学习的方法,训练得到 (2D)^2\;PCA 的最优反变换核。为了测试其有效性,作者在固定 QF (Quality Factor, 量化因子) 值下与标准DCT 方法进行了比较(输入信号为 YC_bC_r 格式),性能增益如表 2 所示。

表2. 文中方法得到的最优反变换核相较于标准 DCT 变换的性能提升

QF (Quality Factor, 质量因子) 的匹配问题

变换核训练中 QF 值错误匹配可能带来一些影响,图 3 中展示了不同 QF 值下学到变换核之间的 L2 距离。由图中可以看出,除了很小的 QF 值 (e.g. <20) 以外,某个 QF 值与其邻域区间内学到的变换核非常接近。当 QF 值很小时,量化后的 DCT 系数会有很多零点,特别是在高频区域,这使得线性回归的效果较差。根据这些量化值学到的反变换核各列包含更多零点,使其与可用于图像处理的其他变换核不同。

图3. 不同 QF 值下雪耳道的变换核差异(L2距离)

纹理影响

如表 2 所示,在 MBT 数据集上的 PSNR 增益比 DIV2K 和 Kodak 更强。图像纹理包含了高频分量,当 QF 值较小时,这些分量被量化为 0,因此很难学到一个较好的变换核;而对于一个较大的 QF 值,更多的高频分量被保留,因此学到的核可以更好地补偿量化误差,从而获得更高的 PSNR 增益。

整体性能

由表 3 和图 4 可以看出,当在色彩空间转换、块变换和最优反变换核选择中都使用 PCA 时,文中方法将比 JPEG 有大幅提升。

图4. 在 Kodak 数据集上与 JPEG 比较结果

图 5、6、7 是将部分图像的代表性区域进行放大观察。由图中可以看出,文中方法可以达到更好的色彩重建,更高质量的平滑区域、纹理区域和边缘细节。在使用 JPEG 编码后,红色会变为灰色,这会严重影响视觉体验。而文中方法可以更好地保留原始色彩。此外,使用学习到的变换核,物体边缘受到吉布斯现象影响较小。所有量化造成的失真都会在一定程度上降低,整体的编解码复杂度也保持在了合理水平。

图 5. 与JPEG对比,QF=70

图 6. 与JPEG对比,QF=70

图 7. 与JPEG对比,QF=70

总结

文中提出了一些有助于提升 JPEG 编码性能的方法。通过使用 PQR 色彩空间,各通道的相关性进一步降低,这意味着今后可以使用步长更大的色彩下采样,此外,使用机器学习的方法可以更好地模拟量化噪声。未来工作中,需要进一步研究如何有效保存最优反变换核,以便将变换操作变为整数运算。而这些已被证明在 JPEG 上有效的组件,仍需要在其他图像压缩标准和视频编码标准中进行测试。

附上演讲视频:http://mpvideo.qpic.cn/0bc3myaagaaa24anctxpubqvazwdantaaaya.f10002.mp4?dis_k=ade2495952ff16367fa5a15f6b21cdea&dis_t=1645151372&vid=wxv_2240005339721187330&format_id=10002&support_redirect=0&mmversion=false

参考文献

[1] G. K. Wallace, “The jpeg still picture compression standard,” IEEE transactions on consumer electronics, 38 (1), xviii –xxxiv (1992). https://doi.org/10.1109/30.125072 Google Scholar SFX@SJTU [2] M. Rabbani, “Jpeg2000: Image compression fundamentals, standards and practice,” Journal of Electronic Imaging, 11 (2), 286 (2002). https://doi.org/10.1117/1.1469618 Google Scholar SFX@SJTU [3] . [Online]. Available:Better Portable Graphics, https://bellard.org/bpg/ Google Scholar [4] K. Brandenburg and G. Stoll, “Iso/mpeg-1 audio: A generic standard for coding of high-quality digital audio,” Journal of the Audio Engineering Society, 42 (10), 780 –792 (1994). Google Scholar [5] B. G. Haskell, A. Puri, and A. N. Netravali, “Digital video: an introduction to MPEG-2.,” Springer Science & Business Media,1996). Google Scholar [6] F. C. Pereira, F. M. B. Pereira, F. C. Pereira, F. Pereira, and T. Ebrahimi, The MPEG-4 book., Prentice Hall Professional,2002). Google Scholar [7] T. Wiegand, G. J. Sullivan, G. Bjontegaard, and A. Luthra, “Overview of the h. 264/avc video coding standard,” IEEE Transactions on circuits and systems for video technology, 13 (7), 560 –576 (2003). https://doi.org/10.1109/TCSVT.76 Google Scholar SFX@SJTU [8] G. J. Sullivan, J.-R. Ohm, W.-J. Han, and T. Wiegand, “Overview of the high efficiency video coding (hevc) standard,” IEEE Transactions on circuits and systems for video technology, 22 (12), 1649 –1668 (2012). https://doi.org/10.1109/TCSVT.2012.2221191 Google Scholar SFX@SJTU [9] F. Bossen, B. Bross, K. Suhring, and D. Flynn, “Hevc complexity and implementation analysis,” IEEE Transactions on Circuits and Systems for Video Technology, 22 (12), 1685 –1696 (2012). https://doi.org/10.1109/TCSVT.76 Google Scholar SFX@SJTU [10] D. P. Kingma and M. Welling, “An introduction to variational autoencoders,” (2019). https://doi.org/10.1561/9781680836233 Google Scholar SFX@SJTU [11] J. Ballé, D. Minnen, S. Singh, S. J. Hwang, and N. Johnston, “Variational image compression with a scale hyperprior,” Google Scholar [12] L. Trudeau, N. Egge, and D. Barr, “Predicting chroma from luma in av1,” in 2018 Data Compression Conference. IEEE, 374 –382 (2018). Google Scholar [13] X. Zhang, C. Gisquet, E. Francois, F. Zou, and O. C. Au, “Chroma intra prediction based on inter-channel correlation for hevc,” IEEE Transactions on Image Processing, 23 (1), 274 –286 (2013). https://doi.org/10.1109/TIP.2013.2288007 Google Scholar SFX@SJTU [14] C. Clausen and H. Wechsler, “Color image compression using pca and backpropagation learning,” pattern recognition, 33 (9), 1555 –1560 (2000). https://doi.org/10.1016/S0031-3203(99)00126-0 Google Scholar SFX@SJTU [15] M. Li, “A better color space conversion based on learned variances for image compression,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, 0 –0 (2019). Google Scholar [16] N. Ahmed, T. Natarajan, and K. R. Rao, “Discrete cosine transform,” IEEE transactions on Computers, 100 (1), 90 –93 (1974). https://doi.org/10.1109/T-C.1974.223784 Google Scholar SFX@SJTU [17] W. K. Pratt, J. Kane, and H. C. Andrews, “Hadamard transform image coding,” in Proceedings of the IEEE, 58 –68 (1969). Google Scholar [18] S. Wold, K. Esbensen, and P. Geladi, “Principal component analysis,” Chemometrics and intelligent laboratory systems, 2 (1-3), 37 –52 (1987). https://doi.org/10.1016/0169-7439(87)80084-9 Google Scholar SFX@SJTU [19] C.-Y. Wang, S.-M. Lee, and L.-W. Chang, “Designing jpeg quantization tables based on human visual system,” Signal Processing: Image Communication, 16 (5), 501 –506 (2001). Google Scholar [20] J. Mannos and D. Sakrison, “The effects of a visual fidelity criterion of the encoding of images,” IEEE transactions on Information Theory, 20 (4), 525 –536 (1974). https://doi.org/10.1109/TIT.1974.1055250 Google Scholar SFX@SJTU [21] I.-M. Pao and M.-T. Sun, “Modeling dct coefficients for fast video encoding,” IEEE Transactions on Circuits and Systems for Video Technology, 9 (4), 608 –616 (1999). https://doi.org/10.1109/76.767126 Google Scholar SFX@SJTU [22] S.-h. Park, K. Choi, and E. S. Jang, “Zero coefficient-aware fast butterfly-based inverse discrete cosine transform algorithm,” IET Image Processing, 10 (2), 89 –100 (2016). https://doi.org/10.1049/ipr2.v10.2 Google Scholar SFX@SJTU [23] A. B. Atitallah, P. Kadionik, F. Ghozzi, P. Nouel, N. Masmoudi, and P. Marchegay, “Optimization and implementation on fpga of the dct/idct algorithm,” in 2006 IEEE International Conference on Acoustics Speech and Signal Processing Proceedings, III –III (2006). Google Scholar [24] D. Zhang and Z.-H. Zhou, “(2d) 2pca: Two-directional two-dimensional pca for efficient face representation and recognition,” Neurocomputing, 69 (1-3), 224 –231 (2005). https://doi.org/10.1016/j.neucom.2005.06.004 Google Scholar SFX@SJTU [25] J. Yang, D. Zhang, A. F. Frangi, and J.-y. Yang, “Two-dimensional pca: a new approach to appearance-based face representation and recognition,” IEEE transactions on pattern analysis and machine intelligence, 26 (1), 131 –137 (2004). https://doi.org/10.1109/TPAMI.2004.1261097 Google Scholar SFX@SJTU [26] S. Daly, “Subroutine for the generation of a two dimensional human visual contrast sensitivity function,” 233203 1987 Eastman Kodak, Rochester, NY (1987). Google Scholar [27] K. Veeraswamy, S. Srinivaskumar, and B. Chatterji, “Designing quantization table for hadamard transform based on human visual system for image compression,” ICGST-GVIP Journal, 7 (3), 31 –38 (2007). Google Scholar [28] T. N. Pappas, J. P. Allebach, and D. Neuhoff, “Model-based digital halftoning,” IEEE Signal processing magazine, 20 (4), 14 –27 (2003). https://doi.org/10.1109/MSP.2003.1215228 Google Scholar SFX@SJTU [29] . [Online]. Available:Kodak images, http://r0k.us/graphics/kodak/ Google Scholar [30] S. Abdelmounaime and H. Dong-Chen, “New brodatz-based image databases for grayscale color and multiband texture analysis,” ISRN Machine Vision, 2013 2013 Google Scholar [31] E. Agustsson and R. Timofte, “Ntire 2017 challenge on single image super-resolution: Dataset and study,” in The IEEE Conference on Computer Vision and Pattern Recognition (CVPR) Workshops, (2017). https://doi.org/10.1109/CVPRW.2017.150 Google Scholar SFX@SJTU [32] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. P. Simoncelli, “Image quality assessment: from error visibility to structural similarity,” IEEE transactions on image processing, 13 (4), 600 –612 (2004). https://doi.org/10.1109/TIP.2003.819861 Google Scholar SFX@SJTU [33] G. Bjontegaard, “Calculation of average psnr differences between rd-curves,” (2001). Google Scholar [34] . [Online]. Available:libjpeg, http://libjpeg.sourceforge.net Google Scholar

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-01-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 媒矿工厂 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 介绍
  • 方法
    • PQR 色彩空间
    • 双向的 2D PCA 块变换
    • 基于 HVS 的量化方法
    • 基于机器学习的 PCA 反变换
  • 实验
    • 色彩空间的影响
    • 最优的
      • QF (Quality Factor, 质量因子) 的匹配问题
      • 纹理影响
      • 整体性能
  • 总结
  • 参考文献
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档