前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >[强基固本-视频压缩] 第十一章:离散余弦(正弦)变换

[强基固本-视频压缩] 第十一章:离散余弦(正弦)变换

作者头像
用户1324186
发布2024-03-20 14:25:11
1090
发布2024-03-20 14:25:11
举报
文章被收录于专栏:媒矿工厂

题目: DCT: brief overview 作者: Oleg Ponomarev 论文地址: https://www.elecard.com/page/article_dct_overview 内容整理:杜君豪 离散余弦(正弦)变换概览。它主要用于有损(视频)图像压缩系统。

引言

让我们回顾一下使用 H.265/HEVC 系统编码时处理视频帧的主要步骤(图 1)。第一步通常称为 "块划分",将帧划分为称为 CU(编码单元)的块。第二步是使用空间预测(Intra)或时间预测(Inter)对每个块内的图像进行预测。在进行时间预测时,CU 块可被划分为称为 PU(预测单元)的子块,每个子块都有自己的运动矢量。然后,从正在编码的图像的样本值中减去预测的样本值。因此,每个 CU 都会形成一个二维(2D)差分信号或残差信号。第三步,将残差信号样本的二维阵列划分为所谓的 TU(变换单元),进行二维离散余弦傅里叶变换(包含内部预测强度样本的 4×4 大小的 TU 除外,对其采用离散正弦傅里叶变换)。

图 1.H.265/HEVC 系统中视频帧编码的主要阶段

然后对残差信号的频谱傅里叶系数进行逐级量化。最后,将四个阶段中每个阶段所执行的所有操作的数据发送到熵编码器的输入端。这些数据稍后可用于还原编码图像。熵编码器使用上下文自适应二进制算术编码 (CABAC) 算法对输入数据进行额外的无损压缩。

本文旨在解释视频图像在第三步压缩时的情况。为什么要使用离散(余弦)变换?为什么离散余弦变换 (DCT) 主要用于有损(视频)图像压缩系统?(有损压缩系统是指压缩阶段会产生失真,因此解码后的图像总是与原始图像不同)。我们将尝试回答这些问题。

为什么 DCT 主要用于有损(视频)图像压缩系统?

要回答这个问题,我们需要引用霍特林(Hotelling)最初于 1933 年发表的随机过程理论中的一些结果。Hotelling 提出了一种将时间离散随机过程表示为一组不相关随机系数的方法。20 世纪 40 年代,Karhunen 和 Loève 发表论文,为时间连续的随机过程提出了类似的表示方法。现在,离散变换和连续变换在大多数数字信号处理文献中都被称为卡尔胡宁-洛夫变换或特征向量分解。在此,让我们针对二维离散随机过程(图像)的具体情况总结一下这些结果。

卡尔胡宁-洛埃夫变换的计算公式为

\begin{array}{l}Y( u,v) =\sum ^{N-1}_{j=0} \ \ \sum ^{M-1}_{k=0} \ \ X( j,k) \ \ W( j,k,u,v),\\\end{array} \quad(1)

表示数字图像的离散样本,为变换核。

\begin{array}{l} \lambda ( u,v) W( j,k,u,v) \ =\ \sum ^{N-1}_{i=0} \ \sum ^{M-1}_{l=0} \ K( j,k,i,l) W( i,l,u,v), \quad(2)\\\end{array}

是数字图像的协方差函数,而对于固定的是常数,一般认为,数字图像的协方差函数是可分离的,也就是说,它可以表示为一个乘积

\begin{array}{l}K(j,k,i,l) =K_{C}(j,k)K_{R}(i,l),\quad(3)\\\end{array}

是垂直图像协方差,j 和 k 是像素行索引,是水平图像协方差,i 和 l 是像素列索引。如果协方差是可分离的,那么卡胡宁-洛埃夫变换核也是可分离的,变换可以先应用于列,然后再应用于行(反之亦然)。在这种情况下,卡胡宁-洛埃夫变换核可以表示为

\begin{array}{l}W\ ( j,k,u,v) \ =\ \ W_{C}( j,k) W_{R}( u,v),\quad(4)\\\end{array}

而乘积中的每项都满足各自的等式:

\begin{array}{l}\lambda _{R}( v) W_{R}( i,v) =\sum ^{M-1}_{l=0} \ K_{R}( i,l) W_{R}( l,v),\quad(5)\\\end{array}

\begin{array}{l}\lambda _{C}( u) W_{C}( j,u) =\sum ^{N-1}_{k=0} \ K_{R}( j,k) W_{R}( k,u).\quad(6)\\\end{array}

因此,卡胡宁-洛埃夫变换可以将数字图像表示为一组不相关的随机变量。但这有什么用呢?这种表示有什么特别之处?K.R. Rao 和 P.C. Yip 编著的《变换和数据压缩手册》。(Boca Raton, CRC Press LLC, 2001)以最易懂的方式回答了这个问题。在有关卡尔胡宁-洛夫变换的章节中,作者考虑了以下实验。他们建议将图像划分为非重叠块,如图 2 所示(摘自该书)。

图 2.H.265/HEVC 系统中视频帧编码的主要阶段

这两组区块完全定义了正在处理的图像。因此,图像被表示为一组二维矢量整个矢量集的散点图(其中点的位置由矢量的坐标定义)如图 3 所示(摘自本书)。

图 3.向量的散点图

从图 3 中可以看出,相邻像素的值具有很强的相关性(一条 45 度的直线清晰可见)。图 4(摘自本书)显示了和值的直方图。

图 4. 和 像素值的直方图

卡尔胡宁-洛埃夫变换将向量转化为向量坐标为 图 5 所示向量的散点图(摘自本书)显示向量的坐标之间没有相关性。

图 5.卡尔胡宁-洛埃夫变换后的散点图

图 6(摘自本书)显示了和值的直方图。

图 6.

从直方图中可以看出,值的动态范围与初始值几乎相同(即值的范围)。然而,第二个分量的动态范围却大不相同。该坐标的直方图宽度只有直方图宽度的一小部分。显然,给定数量的动态范围越小,用数字表示该数量所需的比特数就越少。因此,即使是简单的二维矢量变换(相当于将矢量旋转 45 度),卡胡宁-勒夫变换也会压缩图像。

在向量长度较大的一般情况下(如上所述,图像处理中使用的一般假设是二维卡胡宁-洛埃夫变换是可分离的,并可在水平和垂直方向上连续进行),将其变换为坐标不相关的向量可获得更高的压缩比。此外,向量的坐标对量化的影响更大。也就是说,如果我们对卡尔胡宁-洛埃夫分解的系数进行量化,然后去量化并进行反向变换,在所有可能的线性变换中,量化步骤引入的误差将是最小的(均方根意义上)。舍弃一定数量的最终系数(即向量的最终坐标)也会使均方根误差最小。因此,卡胡宁-洛埃夫变换能以最紧凑的方式将向量放置在第一坐标上,从而获得 向量中包含的最大信息量。当然,所有这些使得卡尔胡宁-洛埃夫变换几乎成为数字数据压缩系统(包括图像压缩系统)的理想选择。

卡胡宁-勒夫变换有一个明显的缺点。这种变换的内核是由所处理数据的统计性质定义的,需要对每组向量求解上述方程. 这些方程的解析解仅适用于某些特殊情况。数值解法虽然可行,但计算量非常大,因此在视频图像处理中使用卡胡宁-洛埃夫变换实际上是不切实际的。

随机过程的一个特例是 I 型马尔可夫过程,已知卡尔胡宁-洛埃夫变换核方程的解析解。当这些过程的值呈正态(高斯)分布时,其相关函数呈指数形式。对于离散的一维随机过程,相关函数的形式为

\begin{array}{l}K( i,j) \ = σ^{2} ρ ^{|i-j|},\quad(7)\\\end{array}

其中ρ在论文《卡尔胡宁洛韦变换和余弦变换之间的关系》(RJ.Clarke,B.Tech.,M.Sc,C.Eng.,Mem.I.E.E.E、 M.I.E.E.IEEPROC,Vol.128,Pt.F,No.6,November 1981),对于 ρ,马尔可夫过程的解与第二类离散余弦傅里叶变换或 DCT-II 相吻合(众所周知,这种变换总共有八种类型)。另一方面,对数字图像统计特性的大量研究表明,图像的水平和垂直相关函数是指数形式的。ρ的值都接近 1(从 0.95 到 0.98 不等)。这意味着,对于大多数图像来说,DCT-II 是卡尔霍恩-洛埃夫变换的一个非常好的近似值,而且水平和垂直变换核的形式完全相同:

\begin{array}{l}W(i,k)=\begin{cases} \frac{1}{\sqrt{N}} & i=0,\ 0\leq k\leqslant N-1\\ \sqrt{\frac{2}{N}}\cos\left(\frac{i\pi ( 2k+1)}{2N}\right) & 0< i\leqslant N-1,\ 0\leqslant k\leqslant N-1 \end{cases}\quad(8)\\\end{array}

为什么在第三步使用离散(余)正弦变换?

使用 DCT 的原因显而易见:对于大多数图像,包括通过相互预测获得的图像,即对于残留信号,这种变换是卡尔胡宁-洛埃夫变换的良好近似值。但正弦变换从何而来?

在 HEVC 标准制定之初,来自新加坡的一个研究小组(文件:JCTVC-B024)就发现,通过内部预测获得的残差信号的相关特性与常规图像和通过内部预测获得的残差信号的相关特性有很大不同。这一点很容易理解:事实上,与用于内部预测的参考样本最接近的残留信号样本的方差显然最小。残留信号样本离参考样本越远,方差就越大。新加坡的研究人员提出了水平和垂直内部预测残留信号相关函数的分析表达式。他们还表明,在这些情况下,卡胡宁-洛埃夫变换的核函数为

\begin{array}{l}W( i,j) =\frac{2}{\sqrt{2N+1}}\sin\frac{\pi ( 2i+1)( j+1)}{2N+1} ,\ 0\leq i,j\leq N-1 \quad(9)\\\end{array}

与离散正弦傅里叶变换的核重合。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-03-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 媒矿工厂 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 引言
  • 为什么 DCT 主要用于有损(视频)图像压缩系统?
  • 为什么在第三步使用离散(余)正弦变换?
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档