首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

可学习的黑盒对抗攻击:SOTA的攻击成功率和查询效率

作者 | 杨健程、江扬舟

编辑 | 青暮

本文介绍NeurIPS 2020接收论文《Learning Black-Box Attackers with Transferable Priors and Query Feedback》。

文章链接:https://papers.nips.cc/paper/2020/file/90599c8fdd2f6e7a03ad173e2f535751-Paper.pdf

代码链接:https://github.com/TrustworthyDL/LeBA

Slides链接:https://jiancheng-yang.com/assets/materials/LeBA%20NeurIPS20%20long_slides.pdf

TL;DR:在本文中,通过利用替代模型,我们提供了一种结合可迁移性和黑盒查询的黑盒对抗攻击方法。通过交替基于可迁移性的黑盒攻击和基于查询的黑盒攻击,我们提出的强基线方法SimBA++显著超越了此前的黑盒攻击方法。

此外,基于查询的反馈结果,我们提出了一种高阶梯度逼近的方法来高效更新替代模型,从而提出了可学习的黑盒攻击LeBA,并进一步提升了SimBA++的攻击性能。

在ImageNet上的大量实验验证了我们方法的有效性,在保持接近100%黑盒攻击成功率的基础上,大幅提升了黑盒攻击的查询效率。我们的对抗攻击实验代码开源在GitHub。

1

引言

近来,深度学习技术在许多领域都展现了卓越的性能。但与此同时AI的安全性问题也广受关注。研究发现,向输入样本添加少量不易察觉的噪声就i可能骗过深度模型,使模型产生错误的输出。如图一所示,一张熊猫图片添加少量噪声后被深度模型误识别为了长臂猿。

图一 对抗攻击示例

对抗攻击问题可以用数学形式表达为:对于目标深度图像模型  , 给定输入图片 , 对抗攻击的目标是在 上添加少量噪声来生成对抗样本,使能够骗过目标模型 ,

其中 表示 的真实标签,  表示  在  norm下的最大扰动限制。本文主要专注于  norm限制下的无目标攻击问题。(有目标攻击要求对抗样本被识别为给定目标类)

对抗攻击问题可以分为白盒攻击和黑盒攻击。白盒攻击指目标模型信息是完全可获得的,而黑盒攻击指目标模型是不可见的。基本的白盒攻击方法利用梯度上升法,直接更新输入样本,使其向着目标模型决策边界移动,直到变为对抗样本,例如FGSM, PGD attack [6][7]等。

对于黑盒攻击问题,一些方法 [1]利用对抗样本在模型之间的迁移性来攻击目标黑盒模型。这种迁移性指的是利用一个模型的梯度生成的对抗样本很可能也可以欺骗过另一个相似的模型。在另一种黑盒攻击的设置中,攻击者可以通过询问目标模型的输出反馈来生成对抗样本。我们专注于这种可以通过询问目标模型获取输出分数的黑盒攻击问题。

图二 不同模型的梯度相似性

现有的基于query的黑盒攻击方法大都没有利用到对抗样本的迁移性质。然而如图二所示,模型Inception-V3和ResNet-152生成的梯度显著图是很相似的,说明替代模型的梯度可以作为先验提高黑盒攻击的query效率。先前的一些工作利用替代模型梯度作为先验减少梯度估计采样空间 [2][4],取得了一些成效,但攻击效率仍不够高。他们在攻击过程中固定替代模型,并且没有考虑利用迁移攻击直接提高攻击效率。

为了提高黑盒攻击的效率,充分利用模型的迁移性,我们提出了可学习的黑盒攻击方法(Learnable Black-Box Attack,LeBA),该方法达到了目前最优(SOTA)的黑盒攻击成功率和查询效率。首先,通过简单结合基于迁移的方法(TIMI [1])和基于查询(query)的方法 (SimBA [3]), 我们提出了一个强黑盒攻击基线方法:SimBA++。

出乎意料的是,尽管该方法非常简单,但该方法已经超过了现有的黑盒攻击方法。在SimBA++的基础上,我们提出利用目标模型的反馈信息训练替代模型,使替代模型的梯度构建高阶梯度计算图来逼近query反馈的估计梯度。ImageNet上的大量攻击实验证明在攻击中学习替代模型不仅提高了攻击效率与成功率,学习过的替代模型面对新的待攻击样本也有很好的适应性。

2

方法

2.1 两个强基线方法 SimBA+和SimBA++

首先介绍我们的强基线方法SimBA+和SimBA++。原始的SimBA在像素空间均匀地采样攻击扰动,并根据目标模型反馈选择是否更新扰动。但从图二我们可以看出图像的不同区域的攻击重要性是不同的。考虑到这种一致性,我们使用替代模型的梯度作为扰动采样指导,而不是在像素空间均匀地采样。

除此以外,考虑到图像空间先验,即图片上的相邻像素的扰动应该对模型有相似的影响,所以对抗样本中的相邻像素点倾向于有相同的扰动方向。这种空间先验在TIMI [1], Bandit-td [8], P-RGF_D [2] 均有运用。结合这两点先验,采样的扰动 可表示为: ,其中q为根据替代模型梯度绝对值图 采样的one-hot向量, 为高斯卷积核。

这个方法被称为SimBA+,完整的算法流程如图三所示。该基线方法只针对SimBA做了非常小的修改,但实验表明SimBA+已经超过了现有的很多黑盒攻击方法。当然,它的攻击效率依然有大幅的提升空间。

图三 SimBA+ 算法流程

我们观察到,基于对抗迁移性的方法通常已经具有较强的攻击成功率,而基于查询的方法尽管可以做到高成功率却往往需要较多的查询。然而,基于对抗迁移性的方法和基于查询的方法是独立发展的,目前并没有研究探索如何结合两者的攻击有效性。我们尝试利用基于迁移的方法进一步提高攻击算法的查询效率, 其中基于迁移性的方法我们选用了带动量的迁移不变性攻击(TIMI),它通过在攻击迭代中加入梯度动量和高斯模糊提高攻击的迁移性,但它的攻击成功率还是不够高。基于SimBA+和TIMI, 我们进一步提出SimBA++, 在攻击迭代过程中交替地运行基于迁移性的方法(TIMI)和基于query的方法 (SimBA+),  大大降低了攻击的查询次数。

SimBA++显著减轻了攻击的冷启动问题,即攻击样本需要较多query才能使对抗扰动量增加到能够攻击成功的阈值,而SimBA++由迁移性攻击得到的初始扰动已经有一定扰动量,从而显著减轻了这个问题。

另一方面,周期性插入的基于迁移性的攻击能够帮助基于query的攻击逃离局部最优点。SimBA++算法如图四。值得一提的是,SimBA++只是简单交替进行基于迁移和基于查询的黑盒攻击,但这一简单的方法却能显著超越此前的黑盒攻击方法。我们认为SimBA++可以作为未来的黑盒攻击研究的基线方法。

  图四 SimBA++算法流程和简图

2.2 可学习的黑盒攻击方法(Learnable Black-Box Attack,LeBA)

基于迁移性的方法的攻击效果很大程度上依赖于替代模型于目标模型的相似度,而理论上说来自目标模型的攻击反馈泄露了目标模型的信息。基于这一观察,我们提出了可学习的黑盒攻击方法(Learnable Black-Box Attack,LeBA)。目前,鲜有使用查询反馈来更新替代模型的研究。在SimBA++的基础上,LeBA利用query反馈更新替代模型使之逼近目标模型。LeBA的完整算法如图五:

  图五 LeBA算法流程和简图

为了利用有限的query反馈训练替代模型,我们提出了一个高效的学习方法:高阶梯度逼近(High-order gradient approximation,HOGA),直接更新替代模型,使其前传和反传的结果逼近目标模型。该方法和gradient penalty(GP)相似,通过构建替代模型反向传播时的高阶梯度计算图,从而直接时查询获得的近似梯度逼近替代模型反向传播的梯度。

具体地,给定替代模型 ,和元组   ,其中  和 分别为扰动前的样本和对应目标模型输出的概率值, 和 分别为添加扰动后的样本和对应目标模型输出的概率值。根据query反馈信息,根据一阶泰勒展开可以得到:

其中 为目标模型在输入样本上的梯度。而替代模型 在输入样本上的梯度 可以直接由模型反向传播得到:

为了使替代模型梯度逼近目标模型,我们希望用 替代式(2)中的 ,即:

事实上,我们并不需要替代模型与目标模型梯度完全一致,只需要替代模型梯度的方向与目标模型一致,而且替代模型可能与目标模型梯度的整体大小相差很大。因此,为了避免因为scale不一致的问题,破坏替代模型的良好梯度初始化,我们希望  , 其中 称为梯度补偿因子. 对梯度补偿因子  ,我们在攻击中动态调整。根据query历史,估计 的值为:

初始化   ,我们使用动量利用式(18)动态更新 值。综上,我们设计了反传损失(Backward Loss(BL)):

其中MSE代表均方误差,反传损失中包含梯度 ,可以利用二阶梯度优化训练。

除了反向梯度,我们考虑通过前向传播信息辅助替代模型训练。即希望替代模型前向传播输出的目标类概率接近目标模型前传输出的目标类概率。计算前传损失(Forward Loss (FL))为:

其中 和 分别代表当前(对抗)样本在目标模型与替代模型的目标类概率。在第四章的消融实验中我们发现前传损失与反传损失都能帮助替代模型学习,但反传损失贡献更大,更加有效。结合反传损失BL和前传损失FL, LeBA算法的学习部分的总的损失函数为:

其中 为损失平衡因子。我们使用随机梯度下降(SGD)优化器训练替代模型,由于训练需要批数据,我们将数据对( )保存至缓冲区, 然后将缓冲区中累计了一个batch的数据用于训练。综上,通过让替代模型在前向传播和反向传播中都逼近黑盒模型,HOGA使LeBA即使使用有限的查询反馈也能较快的更新替代模型。

3

实验

我们从ImageNet验证集中选取了1000张图片作为测试图片集S1, 来进行攻击实验。选用的替代模型为ResNet_v2_152,最大扰动量被限制为             , 最大query次数为10000次,这些设置均与文 [2]保持一致。ImageNet上的攻击结果如图六,可以看出相比其他方法,SimBA++和LeBA显著降低了攻击query次数,并实现了更高的成功率。尽管SimBA++已经显著超越此前的最佳方法(包括最近ECCV‘20的Square Attack [5]),LeBA仍能进一步提升SimBA++的攻击性能。

图六 ImageNet上的黑盒攻击实验

为了验证替代模型学习算法的有效性,我们从额外ImageNet验证集选取了1000图片,称为S2。我们先在S1上运行LeBA (training),然后固定替代模型权重,在S2上运行LeBA (test),攻击结果如图七所示。结果说明LeBA算法的确使替代模型学到了如何逼近目标模型,从而在面对新的图片时也能保持好的攻击效果。

图七 学习替代模型的有效性

除此以外,我们三个防御模型上也进行了黑盒攻击实验,结果同样表明了SimBA++和LeBA算法的攻击高效性,结果如图八所示。

图八 防御模型的黑盒攻击实验

4

总结

利用可学习的替代模型将基于迁移性和基于query的攻击方法相结合,我们提出了强基线方法SimBA++和可学习的黑盒攻击(Learnable Black-Box Attack,LeBA),显著地降低了攻击的攻击次数,提高了攻击成功率,显著超越了之前的方法。通过交替运行基于迁移的攻击和基于query的攻击,我们的方法克服了冷启动和局部最优问题,显著提高了攻击效率。加上高阶梯度逼近方法(HOGA)利用有限的query反馈更新替代模型,进一步提高了攻击效率。LeBA的成功还说明攻击者可能在不断攻击中自我进化,为黑盒攻击的安全性问题带来了新的挑战。

主要作者介绍:

杨健程,上海交通大学电子系博士三年级,导师倪冰冰。主要从事医学图像分析,3D计算机视觉和可信机器学习方面的研究。作为(共同)第一作者,发表顶刊顶会论文10余篇,包括Cancer Research,EBioMedicine,CVPR,MICCAI,NeurIPS等。个人主页:https://jiancheng-yang.com/

江扬舟,上海交通大学电子系硕士一年级,导师倪冰冰。主要从事人工智能安全方面的研究。曾在IJCAI-19对抗攻击比赛获得Top3。目前对人工智能机器学习领域均保持广泛的好奇心。

参考文献

[1] Dong Y, Pang T, Su H, et al. Evading defenses to transferable adversarial examples by translation-invariant attacks. CVPR 2019.

[2] Cheng S, Dong Y, Pang T, et al. Improving black-box adversarial attacks with a transfer-based prior. NeurIPS 2019.

[3] Guo C, Gardner J, You Y, et al. Simple Black-box Adversarial Attacks. ICML 2019.

[4] Guo Y, Yan Z, Zhang C. Subspace Attack: Exploiting Promising Subspaces for Query-Efficient Black-box Attacks. NeurIPS 2019.

[5] Andriushchenko, M., Croce, F., Flammarion, N., and Hein, M. Square attack: a query-efficient black-box adversarial attack via random search. ECCV 2020.

[6] Goodfellow, I., Shlens, J., and Szegedy, C. Explaining and harnessing adversarial examples. ICLR 2015.

[7] Madry, A., Makelov, A., Schmidt, L., Tsipras, D., and Vladu, A. Towards deep learning models resistant to adversarial attacks. ICLR 2018.

[8] Ilyas, A., Engstrom, L., and Madry, A. Prior convictions: Black-box adversarial attacks with bandits and priors. ICLR 2019.

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20201211A0F5XB00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券