快速适应or容易崩溃？元学习中的对抗攻击初探究

AI科技评论

发布于 2020-09-22 15:06:11

9820

发布于 2020-09-22 15:06:11

文章被收录于专栏：AI科技评论AI科技评论

作者 | 迪迦

编辑 | 陈大鑫

元学习容易受到对抗攻击吗？这篇论文在小样本（few-shot）分类的问题下，对元学习中的对抗攻击进行了初步的研究。一系列实验结果表明，本文所提出的攻击策略可以轻松破解元学习器，即元学习是容易受到攻击的。

本文作者来自密西根州立大学的汤继良团队，汤继良是密歇根州立大学数据科学与工程实验室（Data Science and Engineering Laboratory）教授，于今年8月刚刚荣获新设立的第一届KDD年度新星奖（Rising Star Award）。

AI科技评论之前有幸对汤继良老师进行了专访，更多内容可移步“汤继良：从小镇走出来的KDD科研新星 | 专访”一文。

论文链接：https://arxiv.org/abs/2009.01672

1 本文动机

元学习算法的成功促进了其在许多关键安全任务中的应用，包括人脸识别、物体检测和模仿学习。然而，元学习算法的可靠性和鲁棒性问题却很少被研究，这使得基于元学习的技术应用面临着很大的潜在风险，特别是在存在敌对攻击者的情况下。

如上图所示，对于小样本分类任务，在元学习测试阶段，攻击可以在元学习测试任务

中对

的一个训练样本插入不明显的扰动，导致其在

上训练的自适应模型精度大大降低。

本文致力于研究元学习的鲁棒性问题，重点探索其在小样本分类问题中的应用。本文的主要贡献可以总结如下：

第一次正式定义了攻击元学习算法的关键要素，包括对抗目标（ adversarial goal）和不可察觉的扰动（unnoticeable perturbation）。
在新定义的扰动约束下，提供了一种新的目标函数表达式，用于针对目标攻击和非针对目标攻击的元学习攻击。
提出了一种新的元学习攻击算法-元攻击器（MetaAttacker）来优化所提出的目标函数，使对抗样本能够有效地计算出复杂多样的受害者模型结构。
通过不同的元学习框架，包括 MAML、SNAIL 和 Prototypical，系统地评估了元学习的可靠性和鲁棒性。

2 威胁模型的建立

在本节中，作者详细描述了提出的元学习威胁模型的关键组成部分，包括受害者模型（victim model）、对抗目标和不可察觉的扰动。

A.元学习器受害者

一般来说，不同的元学习算法都有其独特的元学习结构。这里简要介绍了三个具有代表性的受害者元学习器。

1、基于优化的元学习器：如 MAML 通常会模拟优化的过程，其中，自适应模型的参数被更新，从而能够在任务

上获得最小的损失，并使用了相关的训练数据

。例如，MAML 通过运行 m 个梯度下降步骤生成一个自适应的模型

：

其中 α 是步长，元学习器的参数 θ 作为模型

的初始化参数。

表示

上

的总训练损失：

元学习器希望通过最小化训练损失，在测试样本

中得到一个误差较小的

模型。MAML 模型在任务

上的性能依赖于模型初始化参数 θ 和梯度。稍后，我们将讨论攻击者如何操纵训练样本来误导MAML使用“恶意”的梯度进行更新。

2、基于模型的元学习器：MANN 和 SNAIL 等基于模型的元学习器作为 DNN 模型，从

中获取输入，直接输出自适应模型

。

3、基于度量的元学习器：基于度量的元学习器通常由两部分组成：一部分是用于特征提取的 DNN 模型，它将所有的训练样本和测试样本投影到一个特征空间；另一部分是将特征空间划分为不同类别的分类器。

B：对抗目标

元学习攻击的主要目标是误导元学习器产生“恶意”模型，这与传统的以测试为中心的对抗性攻击不同。因此，我们需要正式重新定义元学习攻击的对抗目标。本文在白盒攻击下考虑两种不同类型的对抗目标来欺骗元学习器，包括非针对目标攻击和针对目标攻击。

注：针对目标攻击：攻击者在构造对抗样本时欺骗目标模型，将对抗样本错分到指定分类类别。非针对目标攻击：对抗样本的预测标记是不相关的，只需让目标模型将其错误分类，即除了原始类别，对抗类输出可以是任意的。

1、非针对目标攻击：在非针对目标攻击的情况下，对抗的目的是让自适应分类器

在任务

的测试样本中具有较差的整体性能（低精度）。该对抗目标可以表述为找到一个对抗性数据集

，最大限度地提高自适应模型的测试损失：

1、针对目标攻击：针对目标攻击下的对抗以测试样本的某个子集

作为目标样本，旨在破坏自适应模型在这些目标样本上的性能。具体地说，本文将来自一个特定类的所有样本视为任务

中的目标样本。形式上，对于 t 类目标，本文将针对目标攻击的目标定义为：

1、代替测试误差：在非针对目标攻击和针对目标攻击中，攻击者都需要知道测试样本

，这在现实场景中是不现实的。因此，本文建议使用训练样本

的经验训练损失来近似测试损失。在进行元学习对抗攻击时，我们希望所提出的基于扰动训练集的模型能够将“恶意”知识推广到不可见的测试样本中。在形式上，本文将非针对目标和针对目标统一如下：

其中

在针对目标攻击的情况下其实是

。

C：不明显的扰动

在元学习攻击中，不可察觉的扰动也是一个值得关注的问题，但如何定义这种环境下的不可察觉的扰动还没有确定。在这项工作中，本文提供两个原则，即扰动样本预算和感知相似性，以确保扰动数据集

与

相似。

1、扰动样本预算：为了达到对抗目标，要求对抗扰动尽可能少的样本，因为对抗注入系统的假样本越少，检测到这种攻击的可能性就越小。本文把

表示为扰动集

中的扰动样本，

作为相应的干净样本。形式上，定义扰动样本预算受 k 的限制：

1、感知相似性：在每个单独的扰动样本中，我们要求扰动图像在感知上与干净图像相似。换句话说，我们增加的扰动对人类来说是无法区分的。本文通过如下限制扰动来达到这一标准：

3 元学习攻击

根据上一节所述的攻击目标和攻击能力，可以将元学习攻击问题定义如下：

问题 1：给定一个训练好的元学习器

，一个新的未知学习任务

，相应的训练样本

和扰动预算

，我们的目标是通过解决以下优化问题来找到一个对抗性训练集

：

换言之，在问题 1 中，我们的目标是用范数

扰动动约束

以及对训练数据集

中的最多 k 个样本进行扰动。在

中选择要扰动的样本是一个组合优化问题，本文为这类选择过程提供了一个贪婪算法，如图 2 所示。在此之前，首先描述了元学习攻击算法，并为给定的选择集

生成对抗性样本，如下图所示。

其中，Clip 函数表示投影函数，将扰动样本

投影到干净样本

的邻域，即

通过链式法则计算样本

的梯度：

其中，

表示计算图的雅可比矩阵计算。文中以 MAML 模型为例展示了以上流程，如下图所示：

显然，自适应模型

将会对每个中间模型

（其中

）产生严重的依赖。通过在每个步骤 j 中从

到每个输入

的向后传播来计算雅可比矩阵，最后的结果将是从每个向后路径计算的矩阵的和。

最后，我们还需要搜索最优的对抗集。作者提供了一个贪婪的算法来获得一个近似解，以持续地将最危险的对抗样本加入攻击包中。算法流程如下图所示：

在每个迭代 i 中，我们从

中选择一个样本

，当将其添加到集合

中时，它会导致最大的对抗损失

。这样，我们通过构造最具对抗性的 1-set，2-set 直到 k-set 扰动，迭代地扩大我们的候选集。

4 实验部分

在本节中，作者针对三种流行的元学习算法，包括 MAML、SNAIL 和原型网络，对所提出的元学习攻击算法进行了评估。论文首先讨论了 MAML 模型的全部结果，以全面了解其在不同设置下的鲁棒性。然后，作者又对 SNAIL 和原型网络进行了攻击，以研究不同元学习结构之间的差异。

A：实验设置

数据集选取：作者将所提出的元学习攻击算法应用于两个最常用的基准数据集（包括 Omniglot 和 MiniImagenet 数据集）上的小样本学习问题。

不明显的扰动：对于 Omniglot 数据集，它由像素分辨率为 28×28 的手写字符图像组成，像素分辨率在[0,1]范围内，这与 MNIST 相似。因此，通过限制不大于 0.3 的

范数：

，我们就将此数据集中的扰动定义为不可察觉的。对于图像大小为 84×84 的 MiniImagenet 数据集，我们通过限制

来约束不可察觉的扰动。一般来说，对于一个 5-way 5-shot 分类问题，我们将限制扰动预算为：在 25 个训练样本（每个类五个样本）中攻击者不能攻击超过 1、2、3 或 5 幅图像。

B：MAML 实验结果

1、清洁性能：表 1 显示了模型在不同微调步骤（m =1，5，10）下的清洁性能。从表 2 可以看出，更多精细的调优步骤将有助于提高 MAML 在 Omniglot 和 MiniImageNet 中的清洁性能。

表 1：当 MAML 进行 1、5、10 步微调时，元学习攻击分别在 minimagenet 和 Omniglot 上随机攻击后 MAML 自适应模型的平均测试精度。扰动预算分别设置在 1、2、5 和 10 个样本下。

表二：Omniglot 和 Mini Imagenet 上 MAML 的平均测试精度（单位：%）。在测试阶段，我们列出了 MAML 自适应的 1,5,10 个微调步骤的性能。

1、非针对目标攻击性能

论文研究了非针对目标攻击算法的性能，该算法旨在影响自适应分类模型的总体精度。作者在 100 个测试任务 {

，i =1，2，…，100} 中评估了自适应模型的平均精度。除了不同扰动预算下的攻击结果外，作者还给出了两种基线性能。Non-attack表示MAML在所有选定任务中的清洁测试性能。Random F.T.意味着对于每个任务

，随机初始化模型参数

，并从这个随机的

进行微调。由于 MAML 本质上是要为任务

找到一个合适的初始化，所以使用 Random F.T.来显示学习过程没有来自 MAML 的指导的情况。

在表 1 中，我们注意到在随机样本上产生随机噪声几乎不会影响 MAML 的性能。对于 MiniImagenet 数据集，最成功的攻击案例（当 MAML 进行 1 步微调时修改 10 个样本）将平均准确率从 63.3%降低到 16.2%。最困难的攻击设置（在 10 步微调下修改 1 个样本）也可以将整体准确率从 65.2%降低到 56.6%。对于 Omniglot 数据集，一个攻击需要扰动至少 2 个样本才能使元学习器的性能降低 2∼5%，而扰动5个样本则会使元学习器的表现降低20%。

2、针对目标攻击性能

在这一小节中，我们不去观察元学习者的总体鲁棒性表现，而是通过一个局部的观点来研究元学习器的鲁棒性，即定位于每个学习任务的一个单独的类别。在实验中，作者考虑了以下两种设置：

（1）直接攻击：对手可以操纵目标类的样本，即