▊ 1 引言
由中科院,腾讯AI实验室以及香港中文大学联合出品的硬核对抗训练的新作LAS-AT发表于CVPR2022。对抗训练被认为是抵御对抗攻击最有效的防御方法,它通常会被描述为求解一个极小极大问题,其性能取决于内部优化生成对抗样本的质量。
目前在对抗训练中主流采用的攻击算法是PGD攻击,该算法需要人为手动指定攻击参数,有研究表明在对抗训练的不同阶段中固定的攻击策略会对提高模型鲁棒性带来限制。
在该论文中,作者通过引入“可学习的攻击策略”(LAS-AT)的概念,并提出了一种新的对抗训练框架,该算法框架利用强化学习机制自动生成攻击策略,从而进一步提高模型的鲁棒性。
论文:https://arxiv.org/abs/2203.06616
代码:https://github.com/jiaxiaojunQAQ/LAS-AT
▊ 2 方法概述
如下图所示为该论文的方法示意图,可以发现论文中的模型由一个目标网络和一个策略网络所组成。论文作者使用对抗样本去训练目标网络进而提高它的鲁棒性,同时策略网络生成攻击策略去生成对抗样本,由此可见这两个网络是具有竞争关系的。
▊ 3 对抗训练公式化表述
▊ 4 损失函数项
4.1 评估鲁棒性损失
4.1 预测干净样本损失
▊ 5 优化过程
▊ 6 收敛性分析
▊ 7 实验结果
如下两表所示,分别为不同对抗训练的方法在数据集CIFAR10和CIFAR100的鲁棒性的对比结果。可以直观的发现,在大多数攻击场景下,论文中三种方法对抗训练出的模型的性能都优于其它方法对抗训练出的模型,而且在很多情况下,论文中的方法不仅提高了基础模型的鲁棒性,而且提高了干净样本分类的精度。
作者将论文中方法与其他超参数搜索方法进行了比较,包括经典的超参数搜索方法(随机搜索)和两种自动超参数搜索方法。从下图可以看出,论文中方法实现了在所有攻击场景下对抗训练出的模型都达到了最佳的鲁棒性性能。
为了研究LAS-AT的工作原理,作者分析了策略网络在不同训练阶段的攻击策略分布。最大扰动强度的范围设定为3到15,如下图所示为对抗训练期间最大扰动强度的分布演变情况。
在对抗训练开始时,分布覆盖了最大扰动强度的所有可选值。每个值都有选择的机会,这确保了对抗样本的多样性。随着对抗训练的进行,小扰动强度的百分比降低。在后期,最大扰动强度的分布被几个大值占据。
这一现象表明,策略网络逐渐增加大扰动强度的百分比,以生成更强的对抗扰动,进而目标网络的鲁棒性通过使用强对抗样本进行训练而逐渐增强。