题目:Conditional and Residual Methods in Scalable Coding for Humans and Machines作者:Anderson de Andrade, Alon Harell, Yalda Foroutan, and Ivan V. Bajić 来源:ICMEW 2023 文章地址:https://ieeexplore.ieee.org/abstract/document/10222456 内容整理:令潇越 作者在人类和机器可扩展编码的背景下提出了条件编码和残差编码的方法,重点是使用计算机视觉任务中可用的信息来优化重建任务的率失真性能。作者对这两种方法进行了信息分析以提供基线,并提出了一种适合条件编码的熵模型,该模型具有增强的建模能力和与以前的工作类似的易处理性。作者将这些方法应用于图像重建,在一种情况下,使用为 Cityscapes 数据集上的语义分割创建的表示,在另一种情况下,使用为 COCO 数据集上的对象检测创建的表示。在这两个实验中,条件方法和残差方法获得了相似的性能,所得的率失真曲线包含在所提出的基线内。
目前,数字内容不仅被人类消费,也被计算机程序消费。通常为每个任务子集创建表示并不能随着任务数量的增加而很好地扩展,此外如果某些任务的信息已经被传输,并且现在相同的输入需要原始任务的超集,则传输新的相应表示将导致冗余信息的开销。因此,作者希望以可扩展的方式组合任务所需的信息,其中基本表示在多个任务之间共享,并且更具体的任务只需要增量信息。
条件编码和残差编码作为将辅助信息合并到可学习压缩设置中的两种不同方法而流行,这些方法可以利用专用的可学习转换来显式地将信息传输到目标域。作者将他们的发现限制在一个共同的环境中,其中有图像重建任务和计算机视觉任务,其表示与前者共享,这种配置被称为人类和机器的可扩展图像编码。作者提出了用于可扩展可学习压缩的条件和残差方法,其中转换表示以共享公共特征空间。作者得出这些方法的基线并根据经验对它们进行比较,实验使用语义图像分割和对象检测的表示来重建不同的数据集。作者还提出了一种熵模型,具有增强的建模潜力,适合条件编码。
图 1 整体架构
图 1 是作者所提出的条件方法和残差方法的整体架构。对于输入图像 ,学习有损压缩的基本表示 以最小化相对于给定的计算机视觉目标 的失真 , T )] ,使用任务失真函数 和可学习的解码函数 。
在条件设置中,学习有损压缩的增强表示 以最小化失真 ,使用图像重建失真函数 和可学习解码器 。用于重建任务的所有信息都包含在 中,并且 中包含的信息被用来有效地编码 。条件编码有效地模拟了 ,其中 是 的可学习变换,直观地具有与增强表示 相似的特征空间,因此可以利用它们的相似性。任何减少条件熵的信息都应保留在 中,因为其速率没有速率惩罚。
在残差方法中,类似的表示 ;创建 是为了最小化 。这里, 是 的可学习变换,它隐式地重建图像,预测 在重建过程结束时添加。
作者的理论分析是在无损情况下进行的,以激发有损方法的拟议基线。在条件编码中,对 进行建模,以 作为下界:
由于数据处理不等式,可得 。当 且 时,或者等效地,当 时,此界限是紧的。这对应于 的 中信息的减少。上限通过以下方式获得:
当 时,该界限是紧的,这对应于 和 是独立的。通过使用不依赖任何辅助信息生成的独立增强表示 来为条件方法提供上基线,并测量 ,其中 是熵估计。作为较低的基线,作者使用 ,这是因为考虑到 作为任务表示比 更有效,并且受 (1) 和 (2) 中的界限限制。
已经证明,条件编码是残差编码的上限:
由于作者提出的方法的先前考虑,发现 可以更容易实现,因此将 与条件方法中使用相同的基线进行比较。
图 2 条件编码方法的熵模型
为了有条件地编码表示 以利用来自 的尽可能多的信息,作者提出的熵模型将通道分组为固定大小 K,每个组内并行处理跨通道的相同位置,使用前一组中的所有位置以及当前组的所有通道中的所有先前位置作为上下文。图 2 (a) 显示了层的单个输出通道的内核掩码。
与之前的工作不同,作者的熵模型的 CNN 架构具有可扩展的残差连接和更深的层,其自回归卷积核大小大于 1。 CNN 架构具有三层块,其中输入通道被放大、转换到更高维空间,然后缩小回原始通道数。在这些块之间引入残差连接,以便可以在通道维度上以不同的方式重新缩放输入。为了在通道数量变化时保持马尔可夫特性,组大小会相应地重新缩放,并且通道只能以 M 的倍数变化。图 2 (b) 显示了 CNN 中单个块的架构概述。
作为可学习压缩的架构,作者使用 "ELIC: efficient learned image compression with unevenly grouped space-channel contextual adaptive coding" 中工作的简化版本,编码器和计算机视觉模型一起进行端到端训练。
对于基础表示 ,针对 优化的表示 可能包含可能对其自身重建无益的信息,因此作者在速率失真拉格朗日最小化公式中添加了对变换后的 进行小的重构惩罚,其中 是与其他合成器具有相同架构的辅助网络, 和 β 是超参数。
对于增强表示,作者使用传统的率失真损失函数,分别用于条件方法和残差方法。在训练期间,基础网络保持冻结状态,或者来自重建网络的梯度不流入基础网络。
,
作者进行了两组实验:一组使用语义分割作为 Cityscapes 数据集上的计算机视觉任务,另一组使用对象检测作为 COCO 2017 数据集上的计算机视觉任务。
作者首先在计算机视觉任务上训练基本表示,以获得不同 值下的率失真点的 和 。上基线是通过在没有辅助信息的情况下训练重建任务来创建的,较低的基线是通过添加用于条件方法和残差方法的基本表示的速率来获得的。在所有实验中,将 个通道分配给基本表示,将 个通道分配给增强表示。熵模型由 5 个块组成,,。为了训练所有实验中的重建任务,作者使用 RMSE 函数作为畸变函数 ,使用熵估计来计算并报告每像素位数 (BPP)。使用 Adam 以 1e−4 的学习率更新参数,训练模型时提前停止,但如果达到稳定状态,首先将学习率衰减 0.75 倍。
图 3 可扩展编码结果
1. Cityscapes 语义分割
图 3 (a) 显示了条件方法和残差方法的率失真曲线,这些线位于基线之间。与较低基线的率失真曲线相比,条件方法的 BD-Rate 为 -16.56%,而残差方法实现了 -14.6% 的率降低。因此,就 BD-Rate 而言,条件方法的表现略好于残差方法。查看这些 BD-Rate 分数与上基线实现的 BD-Rate 分数之间的比率,可以计算所利用的基本表示的百分比。因此,条件方法使用 43.01% 的辅助信息率,而残差方法使用 37.91%。在两种方法的最低压缩设置中,条件方法利用率更高。图 3 (c) 显示了基本任务的率失真性能,所选择的 值会对速率和任务性能造成影响,但允许架构利用基本表示,作者将此率失真曲线中的小缺陷归因于 的选择和训练算法的限制。
2. COCO 物体检测
如图 3 (b) 所示,两种方法的性能相当,条件方法和残差方法比较低基线分别提高了 -4.14% 和 -2.47% BD-Rate。对于条件方法和残差方法, BD 利用率分别达到 49.24% 和 29.32%。图 3 (d) 显示了基本任务的基本失真性能。与 Cityscapes 上的语义分割相比,该任务模型能够更好地达到未压缩的任务性能。此外,对于类似的失真惩罚,该任务使用更多的速率。在 COCO 数据集上重建任务得到的率失真曲线几乎比 Cityscapes 的大一个数量级,这可以通过 Cityscapes 中图像内容的简单性以及 COCO 数据集中由于压缩而发现的大量伪影来解释。
作者提出了用于人类和机器可扩展编码的条件方法和残差方法。实验表明,所提出的条件编码和残差编码架构的性能相似,并且率失真性能在所提出的基线或操作范围内。此外,所提出的条件熵模型能够与残差方法的性能相匹配。