首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

[强基固本-视频压缩] 第十章:上下文自适应二进制算术编码 第五部分

现在我们对算术编解码算法进行了简要的分析,并讨论了将编码流中描述视频帧内容的语法元素的值转换为二进制 bin 流的过程,这才是实际进行二进制算术的过程编码。然而,有一些重要的事情我们还没有讨论。首先,在迄今为止所考虑的算法中,编码和解码都是通过分割当前区间来完成的。区间长度始终小于 1,因此必须使用非整数算术执行计算。其次,编码和解码需要有关被编码符号出现概率的信息,即最不可能出现的符号 的概率 以及该符号的值。编码器和解码器从哪里获取这些信息?最后,我们仍然没有解决 CABAC 术语中“上下文自适应”的实际含义。现在让我们来解决这些剩下的问题。

01
您找到你想要的搜索结果了吗?
是的
没有找到

视频压缩编码技术(H.264) 之算术编码

早在1948年,香农就提出将信源符号依其出现的概率降序排序,用符号序列累计概率的二进值作为对芯源的编码,并从理论上论证了它的优越性。1960年, Peter Elias发现无需排序,只要编、解码端使用相同的符号顺序即可,提出了算术编码的概念。Elias没有公布他的发现,因为他知道算术编码在数学上虽然成 立,但不可能在实际中实现。1976年,R. Pasco和J. Rissanen分别用定长的寄存器实现了有限精度的算术编码。1979年Rissanen和G. G. Langdon一起将算术编码系统化,并于1981年实现了二进制编码。1987年Witten等人发表了一个实用的算术编码程序,即CACM87(后用 于ITU-T的H.263视频压缩标准)。同期,IBM公司发表了著名的Q-编码器(后用于JPEG和JBIG图像压缩标准)。从此,算术编码迅速得到了 广泛的注意。

03

高吞吐量JPEG 2000(HTJ2K):新的算法和机会

本文参考D. S. Taubman等人发表在SMPTE Motion Imaging Journal上的文章High Throughput JPEG 2000 (HTJ2K): New Algorithms and Opportunities,描述了一种联合图像专家组(JPEG)2000(J2K)块编码器的直接替代品,它提供了极高的吞吐量,编码效率略有降低,但同时保留了除质量可拓展性之外J2K的所有功能。相对于J2K,它可以实现大约10倍或更多的吞吐量。我们使用优化截取FAST码块编码(FBCOT)的术语来表示本文提出的算法。而由于J2K和FBCOT比特流之间的真正可逆转码在逐块的基础上得到支持,使得J2K的效率和可扩展性与FBCOT的高吞吐量优势相结合的系统成为可能。该算法构成了新标准的基础,该标准将是J2K Part-15(也称为高吞吐量J2K),目前处于国际标准化组织(ISO)工作组(称为JPEG)的委员会草案状态。

03

[强基固本-视频压缩] 第六~七章: 上下文自适应二进制算术编码

让我们回顾一下使用 H.265/HEVC 系统编码视频帧的主要步骤(图1)。第一步,通常称为“块分割”,将帧分割成称为 CUs (编码单元)的块。第二步涉及使用空间(帧内)或时间(帧间)预测来预测每个块内的图像。当执行时间预测时,CU 块可以被分割成称为 PUs (预测单元)的子块,每个子块都有自己的运动向量。然后,预测的样本值从正在编码的图像的样本值中减去。结果,每个 CU 形成一个二维(2D)差异信号,或称为残差信号。第三步,2D 残差信号样本的数组被分割成所谓的 TUs (变换单元),每个 TU 都会经历离散的 2D 余弦傅里叶变换(对于包含帧内预测强度样本的 4×4 大小的 TUs 除外,这些 TUs 使用离散正弦傅里叶变换)。

01

实现一个h264编码器前期准备

H264是新一代的编码标准,以高压缩高质量和支持多种网络的流媒体传输著称,在编码方面,我理解的他的理论依据是:参照一段时间内图像的统计结果表明,在相邻几幅图像画面中,一般有差别的像素只有10%以内的点,亮度差值变化不超过2%,而色度差值的变化只有1%以内。所以对于一段变化不大图像画面,我们可以先编码出一个完整的图像帧A,随后的B帧就不编码全部图像,只写入与A帧的差别,这样B帧的大小就只有完整帧的1/10或更小!B帧之后的C帧如果变化不大,我们可以继续以参考B的方式编码C帧,这样循环下去。这段图像我们称为一个序列(序列就是有相同特点的一段数据),当某个图像与之前的图像变化很大,无法参考前面的帧来生成,那我们就结束上一个序列,开始下一段序列,也就是对这个图像生成一个完整帧A1,随后的图像就参考A1生成,只写入与A1的差别内容。

04

[强基固本-视频压缩] 第九章:上下文自适应二进制算术编码 第4部分

在继续探讨标题中提到的上下文自适应这个概念之前,我们需要对熵编码器中的二进制这个概念有一定的了解。第六章给出的编码算法的流程图告诉我们,在熵编码之前,每个块在编码期间做出的所有决策的信息会作为输入传输到熵编码器。这些信息中的大多数的数值是整数,而不是表示为0和1的二进制数。当然了,任何整数都可以用二进制数表示,这些信息会在熵编码前二值化为相应的二进制流。如果直接按照整数对应的二进制数值将其转换为码流,则意味着在二进制消息中遇到0和1的概率将几乎相等,因此算术编码器中的数据压缩比将接近零。换言之,算术编码后编码消息中的比特数将不小于编码器输入处的比特数。正因为如此,HEVC中有一个称为二进制化的特殊过程,它适用于发送到熵编码器输入端的所有数字信息。此过程将把某个图像块进行编码的过程中的所有数值转换为一组二进制比特流。接下来仅针对使用帧内预测编码的特殊情况来详细考虑这种二进制化过程。

01

每日论文速递 | 一次编码平行解码:高效Transformer解码

摘要:基于Transformer的 NLP 模型功能强大,但计算成本较高,限制了应用场景。经过微调的编码器-解码器模型在专业领域很受欢迎,其性能优于 GPT-4 等大型通用解码器模型。我们为编码器-解码器模型引入了一种新的配置,它能提高结构化输出和问题解答任务的效率,在这些任务中,一个输入需要多个输出。我们的方法,即提示中解码器(PiD),对输入进行一次编码,对输出进行并行解码,通过避免重复输入编码来提高训练和推理效率,从而减少解码器的内存占用。在对话状态跟踪、总结和问题解答任务方面,我们实现了与子任务数量大致成比例的计算量减少,与性能相当或更好的一流模型相比,速度提高了 4.6 倍。

01

从2151篇论文精选80篇,最新综述《图神经网络社会推荐系统》来啦

社会化推荐系统(SocialRS)同时利用用户到项目的交互和用户到用户的社会关系来为用户生成项目推荐。此外,由于同质性和社会影响的作用,利用社会关系显然可以有效地理解用户的品味。因此,SocialRS越来越受到关注。特别是,随着图神经网络(GNN)的发展,最近发展了许多基于GNN的社交方法。对基于GNN的SocialRS文献进行了全面和系统的回顾。在遵循PRISMA框架(系统评审和元分析的首选报告项目)注释了2151篇论文后,确定了80篇关于基于GNN的社交网络的论文。然后,从输入和体系结构两个方面对它们进行了全面的综述,提出了一个新的分类方法:(1)输入分类方法包括5组输入类型符号和7组输入表示符号;(2)架构分类包括8组GNN编码器符号,2组解码器符号和12组损失函数符号。本文根据分类法将基于GNN的SocialRS方法分为几个类别,并描述了它们的细节。总结了广泛用于评估基于GNN的SocialRS方法的基准数据集和指标。最后,展望了未来的研究方向。

03
领券