机器学习的障碍之一:对抗性实例简介

对抗性的例子在深度学习社区中受到了极大的关注。在这篇博文中,我们希望分享我们对这一现象的高层观点,以及它如何适应机器学习中更强大的鲁棒性问题。在随后的帖子中,我们计划深入研究我们今天仅简要介绍的主题。

对抗性的例子:一个迷人的现象

为我们的讨论奠定基础,让我们简要介绍一下对抗性的例子。到目前为止,ML的大多数研究人员可能已经看到如下图片:

在左边,我们有一个猪的图像,通过最先进的卷积神经网络正确分类。稍微扰动图像(每个像素在[0,1]范围内并且最多改变0.005)之后,网络现在以高置信度返回“客机”类。至少从2004年开始研究对受过训练的分类器的这种攻击(链接),并且已经有关于2006年图像分类的对抗性示例的工作(链接)。从2013年开始,当有人指出神经网络也容易受到这种攻击时,这种现象得到了更多的关注(见 这里和这里)。从那以后,许多研究人员提出了构建对抗性实例的方法,以及使分类器对抗对抗性扰动更加鲁棒的方法。重要的是要记住,虽然我们不需要去神经网络观察对抗性的例子。

对抗性的例子有多强大?

看到上面的客机猪起初可能有点令人不安。但是,应该注意到底层分类器(一个Inception-v3网络)并不像它看起来那么脆弱。虽然网络对扰动的猪进行了高可信度的错误分类,但这只发生在特制的扰动中 - 网络对相似幅度的随机扰动更加稳健。因此,一个自然的问题是它实际上是否是脆弱的对抗性扰动。如果他们至关重要地依赖于对所有输入像素的精确控制,那么在实际环境中对对象进行分类时,对抗性示例变得不那么重要了。

最近的工作表明情况并非如此:在具体的物理场景中,扰动可以对各种渠道效应具有鲁棒性。例如,您可以使用标准办公室打印机打印对抗示例,以便使用智能手机相机拍摄的照片仍然会被错误分类。也可能创建贴纸,导致神经网络错误分类各种现实世界的场景。最后,研究人员最近3D打印了一只乌龟,以便标准的初始网络将其从几乎所有观点错误地分类为步枪:

构建误分类攻击

你如何构建这种对抗性扰动?虽然现在有各种各样的方法,但优化提供了对这些不同方法的统一观点。众所周知,训练分类器通常被制定为寻找模型参数θ最小化给定样本集x的经验损失函数1,... ,xñ:

因此,导致对固定模型θ的错误分类和“良性”输入x,一种自然的方法是找到有界扰动δ使得x + δ的损失 尽可能大:

从这个公式开始,许多用于制作对抗性示例的方法可以被视为针对不同约束集的不同优化算法(单梯度步长,投影梯度下降等)(小 ℓ∞-norm扰动,几个像素变化等)。

如上所述,许多用于生成对抗性示例的成功方法使用固定目标分类器。因此,一个重要的问题是扰动是否只影响特定的目标模型。有趣的是,事实并非如此。对于许多扰动方法,得到的对抗性示例 跨越用不同随机种子或不同模型架构训练的分类器进行转移。此外,可以创建具有对目标模型的有限访问权限的对抗性示例(有时称为黑盒攻击)。

超越图像

对抗性示例不限于图像分类。类似现象发生在语音识别, 问答系统, 强化学习和其他任务中。如前所述,研究对抗性的例子可以追溯到十多年前: 时间线 对抗性机器学习的时间线的开始。

此外,与安全相关的应用程序是研究机器学习的对抗方面的自然环境。如果攻击者可以欺骗分类器认为其恶意输入(例如,垃圾邮件或病毒)实际上是良性的,则他们可以使基于ML的垃圾邮件检测器或反病毒扫描程序无效。值得注意的是,这些不仅仅是学术上的考虑因素。例如,Google Safebrowsing团队 已于2011 年发布了一项有关其恶意软件检测系统规避的多年期研究。此外,请参阅最近关于GMail垃圾邮件过滤背景下的对抗示例的帖子。

超越安全

安全观点明显主导了最近关于对抗性例子的工作。虽然这是一个有效的观点,但我们认为应该在更广泛的背景下看待对抗性的例子。

稳健性

首先,对抗性的例子是健壮性的问题。在我们有意义地讨论分类器的安全属性之前,我们需要确定它以稳健的方式实现了良好的准确性。毕竟,如果我们想要在实际场景中部署我们训练的模型,那么它们对基础数据分布的变化表现出很大程度的稳健性是至关重要的,无论这些变化是对应于真正的恶意篡改还是仅仅是自然波动。

在这种情况下,对抗性示例可以是用于评估基于ML的系统的这种稳健性的有用诊断工具。特别是,对抗性方法使我们能够超越在精心策划的(通常是静态的)测试集上运行训练有素的分类器的标准评估协议。

这可能会导致惊人的结论。例如,事实证明我们实际上不必采用复杂的优化方法来构建对抗性示例。在 最近的工作中,我们表明,最先进的图像分类器令人惊讶地容易受到小的,对侧选择的翻译或旋转的影响。(有关此主题的其他工作,请参见此处 和此处。)

空间对抗

所以即使我们不担心说ℓ∞ - 扰动,我们经常仍然关心旋转和翻译的稳健性。更广泛地说,我们需要先了解分类器的稳健性,然后才能将它们作为真正可靠的组件集成到更大的系统中。

了解分类器

为了理解训练有素的分类器如何工作,找到其成功和失败的明确例子是至关重要的。在这里,对抗性的例子说明训练有素的神经网络往往不符合我们对“学习”给定概念意味着什么的人类直觉。这在深度学习中尤其重要,其中生物学上合理的算法和人类水平表现的声称是频繁的(例如,参见 此处, 此处或 此处)。对抗性示例在多种设置中明显挑战此视图:

在图像分类中,将像素改变很小的量或稍微旋转图像几乎不会影响人类确定正确类别的能力。然而,这些变化可以完全摒弃最先进的分类器。将物体放置在不寻常的地方(例如,树中的绵羊),也很快地表明神经网络不同于人类解释场景。

在一段文本中插入正确的单词可能会使当前的问答系统显着混淆 ,即使这种插入不会改变文本对人的意义。

最近的这篇文章通过精心挑选的文本片段展示了谷歌翻译的局限性。

在所有这三种情况下,对抗性的例子使我们能够探讨我们当前模型的工作方式,并突出显示他们的行为方式与人类的行为方式完全不同。

安全

最后,在机器学习达到足够“良性”准确性的领域中,对抗性示例确实是一个安全问题。直到几年前,图像分类等任务仍远未达到令人满意的性能,因此安全性只是次要问题。毕竟,基于ML的系统的安全性只有在它开始时对良性输入达到足够高的准确度时才有意义。否则,我们通常无论如何都不能依赖它的预测。

现在,分类器在各个域中实现了更高的准确性,在安全敏感的场景中部署它们是可以实现的。如果我们想以负责任的方式这样做,那么调查它们的安全属性非常重要。但我们应该对安全问题采取整体方法。像素等某些功能比其他传感器模态或分类功能和元数据更容易被篡改。最后,最好的防御措施可能涉及依赖难以修改或甚至无法修改的功能。

总结:不是(相当?)还有

虽然我们在过去几年中看到了机器学习方面取得的令人瞩目的进展,但我们应该认识到我们的工具仍然具有的局限性。这包括广泛的问题(例如,公平,隐私或反馈效果),稳健性是关键问题之一。人类的感知和认知对于现实世界中的各种滋扰扰动是健壮的。然而,对抗性的例子表明,深层网络目前远未达到相同水平的稳健性。

作为一个具体的例子,让我们再次考虑图像分类,因为它已成为近期深度学习的亮点之一。一方面,最先进的模型现在可以在诸如Imagenet分类等具有挑战性的任务上实现 人类级别的准确性。另一方面,对抗视角表明,特定任务的良好表现并不意味着我们已经构建了与人类一样可靠的图像分类器。这种差距也发生在语音识别等其他领域,其中重音或嘈杂的环境仍然是深度网络的重要障碍。

ImageNet进展

总而言之,我们相信对抗性示例与机器学习的安全性方面相关,并且也构成诊断框架用于评估训练模型。与标准评估程序相比,对抗性方法超出了静态测试集,并允许我们揭示潜在的非显而易见的弱点。如果我们想要了解当前机器学习的可靠性,那么从这种对抗的角度(使用适当选择的对手)探索最近的进展也很重要。只要我们的分类器容易受到列车和测试分布之间的微小变化的影响,实现全面的稳健性保证将是遥不可及的。毕竟,目标是创建不仅安全的模型,而且还同意我们对“学习”任务意味着什么的直觉,以便它们在各种环境中可靠,安全且易于部署。

在随后的帖子中,我们将深入研究细节并讨论此问题的基础。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190116A0NCVQ00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码关注腾讯云开发者

领取腾讯云代金券