研究意义
深度神经网络在视觉分类任务上表现出卓越的性能,但其安全性也面临着重大挑战,特别是分类器的输出结果容易受到对抗攻击的恶意操纵。为应对此问题,对抗训练作为一种有效的防御机制得到了快速发展。然而,现有对抗训练方法大多依赖于白盒防御策略,即需要访问模型的结构参数并对模型进行重新训练,这在许多实际应用场景中并不切实际,尤其是对于大规模预训练模型的鲁棒性增强。此外,重新训练模型在提升鲁棒性的同时往往会以牺牲模型精度为代价,使得这些模型在正常分类任务及其下游任务中难以胜任。因此,研究黑盒对抗防御方案,且保证其在不降低原始模型精度的前提下,有效抵御白盒和黑盒攻击具有重要的理论意义和应用价值。
本文工作
为了解决上述难题,本文创新性地提出了一种基于后训练策略的黑盒对抗防御方法,称为贝叶斯能量对抗后训练。贝叶斯能量对抗后训练通过对干净样本分布、对抗样本分布和模型的参数分布进行联合概率分布建模,实现了对于数据和模型的全贝叶斯对待。该方法采用后训练贝叶斯策略进行优化,在冻结的预训练模型后面附加一个小规模的贝叶斯模型单元,并仅对该单元进行鲁棒优化。这一设计这不仅保留了原始模型的完整性,还大幅降低了资源开销。贝叶斯能量对抗后训练的整体框架如图1所示,其主要分为基于能量的分布建模以及贝叶斯边界修正两部分。
图 1. 贝叶斯能量对抗后训练的框架示意图
对于基于能量的分布建模部分,与传统对抗训练方法将对抗样本视为“点估计”问题(图1(a))不同,本文方法从能量视角出发,将判别式分类器解释为生成式鲁棒性分类器,因此可以利用能量函数参数化建模数据分布和对抗样本的联合概率分布p(x┴~,x,y),实现了干净样本与对抗样本一对多的映射关系。同时,通过在优化过程中分配给对抗样本低能量值,使其落入干净样本附近的高密度概率区域,从而有效缓解了模型分类精度与鲁棒性之间的权衡问题(图1(d))。对于贝叶斯边界修正部分,不同的鲁棒性分类器在应对不同类型的对抗样本时,通常表现出不同的鲁棒性。因此,考虑分类器的后验概率分布p(θ∣x┴~,x,y)理论上可以涵盖所有可能的分类决策边界,以提高模型的鲁棒性。这使得联合概率分布p(x┴~,x,y)进一步泛化为p(x┴~,x,y,θ)。然而,传统的贝叶斯对抗训练方法(图1(b))需要对模型重新进行贝叶斯优化,在一些需要黑盒防御的实际场景下并不适用;此外,现实场景中的分类器往往包含着数十亿甚至百亿千亿规模的模型参数量,贝叶斯神经网络难以在如此高维的空间下直接采样模型的参数分布。因此,本文设计了一种基于 “贝叶斯后训练” 的黑盒防御策略。该方法在冻结的标准预训练模型g_θ后面添加一个参数为θ^'的微型贝叶斯模型单元f_(θ^' ),并仅对f_(θ^' )进行鲁棒性优化,因此p(x┴~,x,y,θ)在黑盒设置下可以重新表示成p(x┴~,x,y,θ^'∣θ),如图1(c)所示。相比于白盒防御,基于贝叶斯能量对抗后训练的黑盒防御方法不仅保留了预训练模型的完整性,还显著降低了资源开销,在实际应用中的灵活性更高。大量实验表明,该方法在面对基于梯度的对抗攻击时,可以在不损害模型精度的前提下有效提升模型的鲁棒性表现,甚至超过了白盒防御方法。
本文的创新点如下:
提出了一种新的黑盒对抗防御方法——贝叶斯能量对抗后训练。这种方法无需重新训练原模型,也无需访问其内部结构和参数,突破了传统白盒防御策略的限制,使其适用于大规模预训练模型的防御。
本文从能量角度出发,提出了一种新的基于能量观点的对抗样本分布建模,能够有效建模干净样本和对抗样本的联合概率分布,从而缓解模型精度和鲁棒性之间的权衡问题。
提出了一种全新的贝叶斯优化框架,对良性样本、对抗样本和分类器进行了联合分布建模,该方法将原有的对抗防御方法从“点估计”优化问题扩展为对整个数据增强和模型增强过程的“分布估计”优化问题,实现了对于数据和模型的全贝叶斯对待。
实验结果
本文所提出的方法在CIFAR-10、CIFAR-100和ImageNet三个数据集,WideResnet28-10等四个基线模型上评估了PGD、FGSM、MIG、AutoAttack等13种对抗攻击方法的防御表现。由于采用了后训练贝叶斯的防御策略,因此首先与贝叶斯对抗防御方法 Adv-BNN和 IG-BNN 进行比较(表1)。本文参考之前贝叶斯防御工作的默认评估设置,EOT(Expectation-over-Transformation) 算法与 PGD 攻击结合,组成一种攻击性更强的对抗攻击方法 EOT-PGD。本研究提出的方法在保持模型精度不变的前提下,针对不同大小的扰动设置,均超越了当前最先进的贝叶斯防御方法,实现了最优的鲁棒性表现。
表 1. 不同EOT-PGD攻击扰动下的鲁棒性比较
为了进一步证明本文所提出防御方法的鲁棒性,本文将其与多个具有先进性能的对抗训练方法进行比较,包括常用的 PGD-AT、TRADE、MART,以及最近提出LAS-AT和 AWP。此外,本文还将所提方法与 FAT和 LBGAT进行比较,FAT 和 LBGAT在保持高准确度的同时也能实现强大的鲁棒性。在表2中展示了这些方法在 CIFAR-10和 CIFAR-100两个通用数据集上,面对 PGD和 FGSM白盒攻击时的鲁棒性表现。
表 2. 与不同对抗训练方法的鲁棒性(%)比较
在图2中展示了在ImageNet子集上面面对FGSM、PGD、EOT-PGD及APGD等攻击的鲁棒性表现。与现有对抗训练方法相比,本文所提出的方法无论是在干净样本的分类精度以及对基于梯度的对抗攻击防御能力方面均表现出显著优势。
图 2. 使用ResNet-18在ImageNet子集上进行鲁棒性比较
为进一步验证本文方法在更强攻击强度下的防御表现,图3展示了不同防御方法在面对 EOT-PGD 攻击,扰动边界设置为 ϵ ∈ [0, 0.07, 0.005]时的防御表现。随着攻击强度的增加,LAS-AT和AWP的鲁棒性在扰动阈值为0.07时均降至 25%以下,而其他基线方法都降低到了20%以下。相比之下,尽管本文方法的防御性能随着攻击扰动的增大而有所下降,但在 ϵ = 0.07 的极端情况下,其鲁棒性仍然高达48.6%,是LAS-AT的两倍。这一结果验证了本文方法在极端扰动条件下的优越防御性能。
图 3. 不同EOT-PGD攻击扰动下的鲁棒性比较
本文也采用了更广泛攻击策略的AutoAttack框架进行鲁棒性评估,AutoAttack是一种极为强大的自动集成攻击框架,融合了三种白盒攻击策略APGD-CE、APGD-DLR、FAB和一种黑盒攻击Square。鉴于本文采用了基于能量模型的黑盒防御框架,本节采用联合能量模型JEM作为黑盒防御框架的预训练模型。作为一种生成式分类器,JEM从能量的观点对数据分布p_θ (x,y)进行联合概率建模,相较于判别式分类器,展现出更强的鲁棒性。本方法采用联合能量模型JEM作为黑盒防御框架的预训练模型。作为一种生成式分类器p_θ (x,y)进行联合概率建模,相较于判别式分类器,展现出更强的鲁棒性。从表3可以看出,与原始JEM模型相比,经过黑盒防御的JEM模型在AutoAttack的每种攻击方法下均表现出显著的鲁棒性提升,从而在面对AutoAttack的整体攻击时,模型的鲁棒性得到大幅提升。
表 3. 在CIFAR-10数据集使用JEM作为预训练模型的鲁棒性(%)