首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

MIT开发出高效查询方法,以寻找黑盒机器学习分类器的对抗样本

原文来源:arXiv、LabSix

作者:Andrew Ilyas、 Logan Engstrom、 Anish Athalye、Jessy Lin

「雷克世界」编译:嗯~阿童木呀、哆啦A亮

对真实世界AI的局部信息攻击

我们已经开发出一种查询有效的方法,以寻找用于黑盒机器学习分类器的对抗样本。我们甚至可以在局部信息黑盒设置中产生对抗样本,攻击者只能获得少数可能类别的“分数”,就像在像Google Cloud Vision(GCV)这样的商业服务一样。

鉴于用于对抗样本的许多方法都依赖于通过目标神经网络进行可微的能力,包括我们之前关于生成3D物理世界对抗性样本的研究,这种“白盒”假设几乎不能适用于自然环境部署下的机器学习系统。更常见的是,攻击必须在“黑盒”设置中运行,因为它们只能在对系统内部了解有限的情况下执行有限数量的查询。

此外,像GCV这样的商业系统往往只能输出数量有限且可变的的顶级类,并且 “分数”具有不可解释性,这使得难以执行有针对性的对抗攻击。

我们的方法是通过从目标类的图像开始,逐渐将其转换为所期的对抗性图像,同时在输出中保持目标类。使用这种方法,我们成功地演示了在局部信息设置中针对商业分类器的第一次有针对性的攻击。

这种方法是使用由Wierstra等人引入的自然进化策略(NES),通过一个用于黑盒对抗样本的高度查询效率的方法得到的。我们证明,NES比以前的黑盒对抗算法(如替代网络和坐标方式梯度估计)更有效,并且比以前的方法提高了两到三个数量级的查询效率。使用NES作为查询高效的黑盒梯度估计器,我们能够像上面展示的局部信息攻击那样执行攻击,这在以前是难以解决的。

你可以下载我们的原始和对抗性图片,并使用Google Cloud Vision演示自行试用。

要详细了解我们的方法和结果,请参阅http://www.labsix.org/papers/#blackbox。

大量的事实表明,当前的基于神经网络的图像分类器容易受到对抗样本的影响,即使是在黑盒设置中也是如此,其中,攻击者被限制为查询访问而不能进行梯度访问。以往的方法——替代网络(substitute networks)和基于坐标的有限差分方法,要么是不可靠的,要么存在查询效率低下的问题,从而使得这些方法对于某些特定问题来说是不切实际的。

我们引入了一个新的方法,能够在更受限制的、更具实际性的黑盒威胁模型下,极具可靠性地生成对抗样本。首先,我们使用自然进化策略执行黑盒攻击,使用比以往方法少2~3个数量级的查询;其次,我们引入一种新的算法,在局部信息设置中执行有针对性的对抗攻击,而攻击者只能访问有限数量的目标类。通过使用这些技术,我们成功地针对商业部署的机器学习系统(Google Cloud Vision API)在局部信息设置中执行了第一次针对性的对抗攻击。

可以这样说,基于神经网络的图像分类器,尽管在几个基准视觉任务上超越了人类的能力,但却很容易受到对抗样本的影响。对抗样本是那些受到微小干扰而导致错误分类方法从而进行“正确”分类的图像。有针对性的对抗样本会导致错误分类为某一特定的选择类别,而非针对性对抗样本只能导致错误分类。

这些对抗样本的存在以及在现实世界中构建它们的可行性都指向潜在的开发可能性,特别是面对现实系统中神经网络日益流行的情况下。但是,对于商业或私有化系统来说,必须将对抗样本置于一个更具限制性的威胁模型下进行考虑。首先,这些都是黑盒设置,也就是意味着攻击者只能访问分类器的输入输出对,而这通常是通过二进制或API进行的。此外,攻击者往往只能访问分类输出的一个子集(例如,前k个标签和分数),据我们所知,这个用以表示局部信息设置的设置在之前的研究中没有予以考虑。

在以往考虑受限制的威胁模型的研究中,仅考虑了上面所描述的黑盒限制。另外,在以往的研究中,往往使用替代网络来模拟被攻击的网络,然后用传统的一阶白盒方法攻击替代网络。然而,这种方法并不是很好,原因很多,包括从替代模型到原始模型的攻击迁移性不是很好,以及在训练替代网络时所产生的计算和查询成本。最近的攻击,例如P.-Y. Chen、 H. Zhang等人所著的《在不训练替代网络的情况下,深度学习中基于黑盒攻击的零阶优化》中,已经使用有限差分方法对使用黑箱情况下的梯度进行估计,但是这仍然是非常昂贵的,需要数百万个查询来为ImageNet分类器生成一个对抗图像。而诸如低吞吐量、高延迟和在经商业性部署的黑盒分类器中存在的限制率等影响,严重影响了在实际世界中进行黑盒攻击的可行性。

我们提出了一种基于自然进化策略生成黑箱对抗样本的方法,而这主要启发于随机高斯分布中的有限差分估计,而我们已经在实践中证明了这种方法的有效性。与现有方法相比,该方法生成了若干个数量级较少的对抗样本。我们考虑了进一步约束性局部信息设置,并提出了一种在这些条件下攻击神经网络的新算法。我们通过展示它能够可靠地产生有针对性的对抗样本,并且能够访问局部的输入—输出对,证明了该方法的有效性。

我们使用这些方法给出的新发现的易处理性(a)生成第一个耐转换的黑盒(transformation-tolerant blackbox)对抗样本,和(b)在谷歌Cloud Vision API上执行了第一次有针对性的攻击,证明了我们提出的方法在大型商业系统上的有效性:GCV API是一个不透明的(没有公开的标签枚举)、具有局部信息的(查询最多只能返回10个具有不可解释性“分数”的类)、经数千种商业性部署的分类器。

我们的贡献如下:

•基于自然进化策略(NES),我们提出了它的一个变体用以生成黑盒对抗样本。我们将这个特殊情况下的NES与高斯分布中的有限差分方法相联系,提供了一个与以往黑盒对抗样本的理论比较。

•研究结果证明,我们的方法能够有效地合成对抗样本,该方法不需要替代网络,且能够比优化后的基于有限差分的方法要快2-3个数量级。我们可靠地生成了能够用于CIFAR-10和ImageNet分类器的黑盒子对抗样本。

•我们提出了一种在“局部信息”设置中合成有针对性的对抗样本的方法,其中,攻击者只能访问分类器的前k个输出,并且我们已经证明了它的有效性。

•我们利用这种方法的效率的提高来实现以下结果:

——具有鲁棒性的黑盒样本,在A. Athalye、L. Engstrom所著的《生成具有鲁棒性的对抗样本》中,我们注意到,标准生成的对抗样本在转换过程中不能保持对抗性,从而引入了期望转换(EOT)算法。通过将EOT与本文提出的方法相结合,我们生成了第一个耐转换的黑盒对抗样本。

——针对数千种商业分类器的有针对性对抗样本,我们使用该方法在Google Cloud Vision API(一个商业性部署的系统)生成对抗样本。对这种数量级的商业分类器的攻击证明了我们方法的适用性和可靠性。

随机对抗样本的案例,对30°以内的旋转鲁棒,同时对抗和真实类别的分类概率也鲁棒。

在这项研究中,我们提出了一种基于自然进化策略(NES)的算法,该算法允许在黑盒设置中生成对抗样本而不需要训练替代网络。我们还引入了局部信息设置,它是一个更受限的黑盒情况,能够更好地为大规模商业系统进行建模,而且我们还提出了一个算法用于为这个设置设计有针对性的对抗样本。我们通过将NES公式化为随机正态投影的一组有限差异来激励我们的算法,在CIFAR-10和ImageNet数据集上,相较于先前的研究,该方法生成黑盒对抗样本的效率要高出若干个数量级(就查询数量而言),从而证明了该方法的经验有效性。将所描述的算法于EOT算法相组合,我们生成了第一个具有鲁棒性的黑箱对抗样本,它构成了攻击真实系统的关键一步。我们还展示了局部信息攻击的有效性。最后,我们合成了用于商业Google Cloud Vision API的针对性对抗样本,展示了针对局部信息系统的第一个针对性攻击。我们的研究结果指出了一个有前景的新方法,可以高效地、可靠地生成黑箱对抗样本。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20171223A0IWB800?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券