腾讯AI Lab参与提出EAD：基于弹性网络正则化的深度神经网络对抗样本攻击

文章来源：企鹅号 - 机器之心

选自arXiv

作者：Pin-Yu Chen 、Yash Sharma、Huan Zhang、Jinfeng Yi、Cho-Jui Hsieh

机器之心编译

腾讯 AI Lab 在 2018 年 AAAI 中入选论文 11 篇，其中一篇与 IBM Research、The Cooper Union 和加州大学戴维斯分校合作的论文入选口头报告（Oral）。这篇论文提出一种基于弹性网络正则化的攻击算法，该算法将对抗样本攻击 DNN 的过程形式化为弹性网络正则化的优化问题。此外，对基于 L1 失真攻击的评估为对抗式机器学习和 DNN 安全应用提供了全新的洞见，并进一步完善对抗式机器学习框架。

深度神经网络（DNN）在机器学习和人工智能的诸多不同任务（诸如图像分类、语音识别、机器翻译、打游戏）上取得了当前最优结果。尽管很有效，DNN 在对抗样本（Szegedy et al. 2013; Goodfellow, Shlens, and Szegedy 2015）面前依然表现的很脆弱。比如，一个精心设计的图像扰动可以轻易使训练良好的 DNN 失去分类能力。更糟糕的是，人类的感知实际上也无法在视觉上辨认有效对抗样本的区别。比如，图 1 给出了由我们的算法生成的鸵鸟图像的三个对抗样本，由一种当前最优的图像分类模型 Inception-v3（Szegedy et al. 2016）分别识别为「安全」、「鞋店」和「吸尘器」。

图 1：由 EAD（算法 1）生成的对抗样本。原始样本是一张来自 ImageNet 数据集（图 1 (a)）的鸵鸟图像。图 1 (b) 中的对抗样本被 Inception-v3 识别为不同的类别标签。

DNN 在对抗样本面前所欠缺鲁棒性引起了安全类应用的强烈关注，包括交通信号识别、恶意软件检测等等。然而，在数字空间之外的现实世界，研究者已表明对抗样本在愚弄 DNNs 上依然有效（Kurakin, Goodfellow, and Bengio 2016a; Evtimov et al. 2017）。鉴于鲁棒性和安全性的存在，制作对抗样本的方法称作 DNN 攻击。特别是，有目标的攻击旨在制造被误分类为特定目标类别的对抗样本，而无目标的攻击旨在制作不是原始分类的对抗样本。迁移攻击旨在制作可从一个 DNN 模型迁移到另一个的对抗样本。除了评估 DNN 的鲁棒性，对抗样本还可用于训练能够适应对抗扰动的鲁棒模型，这称之为对抗训练（Madry et al. 2017），并已经用于解释 DNN（Koh and Liang 2017; Dong et al. 2017）。

在整篇论文中，我们使用对抗样本攻击基于深度卷积神经网络的图像分类器。制作有效对抗样本的原理在于操控预测结果，同时又保证与原始图像的相似性。具体来讲，在文献中原始与对抗样本之间的相似性已经进行了不同的失真度量（distortion metrics）。一个常用的失真度量是 L_q 范数，其中

上式表示任意 q ≥ 1 的 p 维向量 x = [x_1, . . . , x_p] 的 L_q 范数。尤其当制作对抗样本时， L∞失真度量用于评估最大的像素值变化（Goodfellow, Shlens, and Szegedy 2015），而 L2 失真度量则用于提升视觉质量（Carlini and Wagner 2017b）。

然而，尽管 L1 范数广泛用于图像降噪、还原（Fu et al. 2006）以及稀疏恢复（Candes and Wakin 2008），基于 L1 的对抗样本并未被严格探讨。在对抗样本中，L1 失真说明了扰动中的总变化，并作为 L0 度量的凸替代函数，它可以度量扰动所修改的像素（即稀疏性）数量。为了弥补差距，我们提出了一种基于弹性网络正则化（Elastic-net regularization）的攻击算法，称为弹性网络正则化攻击（EAD）。弹性网络正则化是 L1 和 L2 惩罚函数的线性混合，已成为解决高维特征选择问题（Zou and Hastie 2005）的标准工具。在 DNN 攻击中，由于其推广了基于 L2 失真而提出的当前最优攻击方法（Carlini and Wagner 2017b），EAD 开辟了新的研究方向，并能够制造面向 L1 的对抗样本，它更有效，并迥然不同于现有的攻击方法。

为了探讨 EAD 基于 L1 构建的对抗样本效用，我们在不同的攻击情景中对 MNIST、CIFAR10 和 ImageNet 进行了大量实验。相较于当前最优的 L2 和 L∞攻击（Kurakin, Goodfellow, and Bengio 2016b; Carlini and Wagner 2017b），当攻击无防备和防备式提取的 DNN（Papernot et al. 2016b）时，EAD 可以获取相似的攻击成功率。更重要的是，我们发现 L1 攻击在迁移攻击中取得了优于 L2 和 L∞攻击的表现。对于更困难的数据集（MNIST），EAD 最终提升了从无防备 DNN 到防备式提取 DNN 的攻击迁移性，并取得了 99% 的攻击成功率。此外，带有 L1 和 L2 实例的联合对抗训练可以进一步提高 DNNs 对于对抗样本的适应力。这些结果表明 EAD 产生了一个截然不同，但更有效的对抗样本集。此外，对基于 L1 失真攻击的评估为对抗式机器学习和 DNN 安全应用提供了全新的洞见，并表明 L1 也许可以补充基于 L2 和 L∞的样本，进一步完善对抗式机器学习框架。

对比方法

我们对比了 EAD 和以下目标攻击，它们都是在不同失真度量中制造对抗样本的高效方法。

C&W 攻击：当前最优的 L2 目标攻击方法，由 Carlini 和 Wagner（Carlini and Wagner 2017b）提出。当β = 0 时，它是 EAD 算法的一个特殊案例。

FGM：快速梯度攻击算法（Goodfellow, Shlens, and Szegedy 2015）。在本文中我们使用 FGM-L1、FGM-L2 和 FGM-L∞表示不同的失真度量方法。

I-FGM：迭代的快速梯度攻击算法（Kurakin, Goodfellow, and Bengio 2016b）。在本文中我们使用 I-FGM-L1、I-FGM-L2 和 I-FGM-L∞表示不同的失真度量方法。

表 1: COV（change-of-variable）方法和 EAD（算法 1）在 MNIST 上实现弹性网络正则化攻击的对比。ASR 指攻击成功率 (%)。尽管这两个方法获得了相似的攻击成功率（皆接近或达到 100%），COV 在制作 L1 对抗样本上不甚有效。增加β减少了 EAD 的 L1-distorted 对抗样本，而 COV 的失真对β的变化却不敏感。

图 2：在带有不同 L1 正则化参数β（平均情况）的 MNIST 数据集上，EAD 中 EN 和 L1 决策规则的对比。相较于 EN 规则，对于相同的β，L1 规则获得了较少的失真，但也许会引发更多的 L2 和 L∞失真。

表 2：MNIST、CIFAR10 和 ImageNet（平均情况）上不同攻击的对比。失真度量取所有成功样本的平均值。EAD、C&W 攻击、I-FGM-L∞各自取得了最少的 L1、L2 和 L∞失真对抗样本。完整的攻击结果请参见附录资料 1。

图 3：在不同温度参数 T（防御性提取/defensive distillation）的 MNIST 和 CIFAR10 数据上，C&W 方法和 EAD 的攻击成功率（平均情况）。两种方法都可以攻克防御性提取。

图 4：κ不断变化的情况下，MNIST 数据集上从无防御网络到防御性提取网络的攻击迁移性（平均情况）。当κ = 50，EAD 取得了接近 99% 的攻击成功率，而当κ = 40，C&W 攻击的最高成功率是接近 88%。

表 3：在 MNIST 上使用 C&W 攻击和 EAD（L1 规则）的对抗训练。ASR 指攻击成功率。整合 L1 样本补充了对抗训练，并提升了失真方面的攻击难度。完整结果请参见附录材料 1。

论文：EAD: Elastic-Net Attacks to Deep Neural Networks via Adversarial Examples

论文地址：https://arxiv.org/pdf/1709.04114.pdf

近来的一些研究已经突出说明了深度神经网络（DNN）面对对抗样本时的脆弱性——人们可以轻松创造出在视觉上难以区分，却能让经过良好训练的模型分类错误的对抗图像。现有的对抗样本生成方法大多基于 L2 和 L∞ 范数去度量，但很少有方法用到了 L1 范数，尽管它有一些优良的性质，例如鼓励生成更为稀疏的对抗噪音。

在本论文中，我们将使用对抗样本攻击 DNN 的过程转化为了使用弹性网络正则化（elastic-net regularized）的优化问题。在这种表示下，当前最佳的 L2 范数攻击算法成为了本文方法的一个特例（在不考虑 L1 范数的情况下）。在 MNIST、CIFAR10 和 ImageNet 上的实验结果表明 EAD 算法可以生成具有很小 L1 失真的对抗样本，并且能在不同攻击场景中实现与当前最佳方法匹敌的攻击成功率。更重要的是，EAD 算法生成的对抗样本有着显著增强的攻击可迁移性，这为如何在对抗机器学习中使用 L1 范数失真以及增强 DNN 的安全性提供了全新的见解。

发表于: 2018-01-302018-01-30 22:05:03
原文链接：http://kuaibao.qq.com/s/20180130B1GFGI00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

腾讯AI Lab参与提出EAD：基于弹性网络正则化的深度神经网络对抗样本攻击

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐