作者:Sui, Yang, Zhuohang Li, Ding Ding, Xiang Pan, Xiaozhong Xu, Shan Liu, Zhenzhong Chen 论文链接:https://arxiv.org/abs/2306.01125 整理人:何冰 内容摘要:我们通过引入基于弗罗贝尼斯准则的损失函数来生成对抗示例,从而最大化原始图像与对抗示例重建图像之间的差异。此外,利用人类视觉对高频成分不敏感的特点,我们引入了不可感知约束(IC),以确保扰动不明显。在柯达数据集上使用各种 LIC 模型的实验结果证明了我们方法的有效性。此外,我们还为未来的防御设计提供了一些发现和建议。
学习图像压缩(LIC)因其优于传统图像压缩的性能,最近在比特率限制下传输图像方面取得了巨大成功。但是,如果攻击者能在原始图像中引入微小的扰动,从而严重破坏重建后的图像,导致重建图像中的主要物体无法识别,那么 LIC 就被认为不具有鲁棒性。
在本文中,我们建议通过攻击图像重建过程来研究 LIC 的鲁棒性。其主要思路是求解一个优化问题,以最小化对抗扰动,同时最大化原始图像与重建图像之间基于 Frobenius 准则的损失度量。然而,用无约束的基于弗罗贝尼斯准则的损失生成的对抗扰动很可能对人眼敏感。为了提高生成的对抗图像的不可感知性,我们从高频成分对人类视觉的可感知性较低这一观察结果中获得启示,考虑从频率角度生成扰动,在对抗损失函数中引入基于离散余弦变换(DCT)的不可感知性约束(IC),使扰动更不易被人类感知到。我们的贡献可总结如下:
给定非线性编码器 和解码器 ,让 和 分别表示原始输入图像和重建图像, 和 分别表示预量化和量化潜表示。图像压缩过程如下:
其中 表示量化操作, 和 分别表示算术编码和解码过程。重建图像 是相应(逆)变换的输出。此外,还使用超先验作为侧信息来降低比特率。
给定一幅自然图像 、相应的标签 以及预测图像属于第 类的概率的分类模型 ,对抗攻击的目标是制作一个对抗扰动 添加到 上,使其被 错误分类,可表述为
其中,ε 控制扰动系数。
从频率的角度出发,我们提出了一种基于 DCT 的方法,用于生成不易察觉的高频扰动。特别是,IC 鼓励扰动主要修改原始图像的高频成分,同时限制对抗图像的低频成分保持一致并接近原始图像中的低频成分,这可以表述为:
其中 表示距离的弗罗贝尼斯规范, 表示基于 DCT 的低频带截断函数,其表达式如下:
其中, 表示哈达玛乘积(元素向乘积)。 是二进制掩码,应用于 DCT 后张量 的频域,以限制其频率成分。为了使扰动不易察觉,我们屏蔽掉一半频率较低的成分,只保留频率较高的一半成分。结合公式 3 和公式 4,总体优化目标如下:
其中 为 的影响因子。
图1:使用或者不使用IC约束进行攻击的图示,第一行为原始图像及其重建,第二行为不使用IC约束进行攻击的图示,第三行为使用IC约束进行攻击的图示,其输入端的被攻击图像更加隐蔽,不易被人眼发现
图2:使用本文的攻击方法在柯达数据集上对四种不同的LIC模型进行了实验
表1:不同LIC模型应对被攻击图像,重建获得的PSNR和MS-SSIM均值
图3:攻击所添加的噪声进一步可视化,第一行为不使用IC约束时的实验,第二行为使用IC约束时的实验,每四列,从左到右依次为原始图像,被攻击的图像,被攻击的图像的重建,噪声本身
表2:在有或没有高频限制的低、中、高质量 Anchor 模型上,对抗示例的 MS-SSIM 与原始图像的比较。MS-SSIM 越高,表明对抗扰动越不易察觉。
表3:在不同质量水平的 LIC 模型上的结果。在低质量、中等质量和高质量的 Factorized 模型上,我们提出的方法分别实现了 0.4824、0.4166 和 0.4741 的 MS-SSIM,平均值为 0.4577。结果表明,所提出的重建失真可以影响所有质量水平。
在本文中,我们通过基于弗罗贝尼斯规范损失函数的对抗性质量攻击来创建对抗示例,从而最大化原始图像与重建图像之间的偏差,并引入 IC 以确保扰动不为人类感知所见,从而探索 LIC 的鲁棒性。在柯达数据集和各种 LIC 模型上进行的实验说明了这种方法的有效性,并揭示了一些有趣的发现,包括不规则的扰动模式和不同 LIC 模型之间不同程度的鲁棒性。