停车还是减速?伯克利实例演示对抗样本带来的潜在隐患

来源:BAIR

编译:Bot

近年来,深层神经网络(DNN)在图像处理、文本分析和语音识别等各种应用领域取得了长足进步,它因此也被作为重要组成部分纳入到许多信息物理系统(cyber-physical system)中,如自动驾驶汽车的视觉系统可以利用DNN更好地辨别行人、车辆和道路标志。然而,最近的许多研究表明,DNN易受“对抗性样本”的影响:如果在图片中添加精心设计的一些对抗扰动,DNN可能会被误导,并为样本标记错误标签。这个发现令人担忧,因为随着DNN落地的普及,这样的缺陷会给人们带来大量安全隐患,试想一下,如果有人恶意在道路标志上添加了这种扰动,致使自动驾驶汽车误读、漏读路标,那车上乘客的生命安全将面临重大危机。

事实上,许多机构和实验室已经开始注意到这个缺陷,并用大量研究向公众证明了它的潜在危害。2017年8月,OpenAI曾指出对抗样本在图像不断变化时可能会失效,他们把一张小猫图片放大了1.002倍后,神经网络分类器输出的结果成了“台式电脑”。同年11月,MIT的LabSix研究小组也得出了相似结论,他们制作了一些受到对抗干扰的立体模型,成功忽悠分类器“指龟为枪”“指球为咖啡”,证明3D对抗样本可以完美地骗过神经网络分类器。而在2017年的最后一天(东八区31日),加州大学伯克利分校的BAIR实验室再一次用实验证明,当对抗性扰动出现在物理环境中的实物上时,算法的确会变得颠三倒四、避重就轻。

数字对抗样本

谈及生成对抗样本,许多人首先会想到白盒。的确,以往的研究人员都是基于白盒环境制作数字对抗样本的,它不仅能使样本完美匹配DNN,找出神经网络的分类弱点,而且是可视的、透明的,这对于研究人员充分理解对抗样本的原理大有裨益。

2014年,Goodfellow等人在论文Explaining and Harnessing Adversarial Examples(https://arxiv.org/abs/1412.6572)中讨论了通过为数据集样本添加扰动因素,使模型输出具有高置信度的错误答案的现象。根据神经网络对抗性扰动主要源于其线性特性这个推论,他们提出了一种简单而快速的生成对抗样本的方法——快速梯度法(用loss函数的一阶近似构造样本)。

与之相应的,一些人也针对这种方法提出了一些基于优化的方法来帮助模型抵御对抗样本攻击,如Nicholas Carlini等人的“防御蒸馏”(https://arxiv.org/abs/1608.04644)。具体来说,就是在白盒环境中,大部分对抗样本生成器都是通过设定一个目标函数来攻击DNN的,它们会首先定义什么是输入相似性,之后在定义范围内,也就是在最小化输入差异的同时,最大化输入的真实标签和目标标签之间的差异。而把这放在计算机视觉分类问题中,一个常见的衡量标准就是输入向量的L2范数。L2范数是一个用来防止过拟合的规则化范数,通常情况下,L2越小,两个输入越相似。因此,有时人眼可能分不清两张图片的差异,但它们在分类器“看”来也许会是非常不同的。

近期,Ian Goodfellow等人的研究也表明了在黑盒环境中生成数字对抗样本的可能性,该方法涉及以白盒方式为另一个已知模型生成敌对的例子,然后针对目标未知模型运行它们。

对抗样本实物

以上研究人员生成的都只是一些数据,并没有在现实环境中做过测试。为了弥合理论与实际应用的差距,许多人也做过项测试,如Kurakin等人发现当智能手机扫描的是对抗样本打印品时,手机可能分类错误; Sharif等人为测试者打造了一副拥有对抗样本图案的眼镜框,成功使手机的面部识别功能失效。可惜的是,这些测试都是在稳定环境中进行的,在物理环境下,姿势、距离、角度、光照等条件都会对图像捕捉识别造成影响,那么当处于变化条件下时,对抗样本又会对算法造成何种影响呢?

近日,Ivan Evtimov、Kevin Eykholt、Earlence Fernandes和Bo Li等人发表了论文Robust physical-world attacks on deep learning models(https://arxiv.org/abs/1707.08945),并提出了一个包含两阶段的评估方法,将其在道路标志识别上进行了测试。在第一阶段,研究人员捕捉了随车辆移动路标会发生的一系列物体变化,将其置于路牌上,成功欺骗了两个分类器;而在第二阶段,研究人员通过在真实路牌上贴黑白贴纸,使实验分类器的错误率达到了100%。

不同物理条件下的路牌;不同条件下带有扰动贴纸的路牌;不同驾驶速度下拍到的画面

分类器将STOP辨别为限速45(英里)

如上图所示,参与实验的分类器把左图中的路牌判断为两个目标,并把实验室和真实驾驶场景下的中图、右图两个停车路标识别成了限速牌。这证明对抗样本确实能在物理环境中对分类器造成影响。

顺着这个思路,研究人员又测试了对抗样本对对象检测工具的影响。和分类器相比,对象检测工具在处理整个图像面临更多挑战,而且需要预测上下文信息,如目标对象在场景中的方位。这次,他们展示的是一个叫YOLO的对象检测器,它使用了当前最先进的算法,拥有良好的实时性能。检测的对象是一个真正的停车标志,为了更好地测试检测性能,研究人员还录制了视频进行动态检测。

逐帧分析视频可以发现,YOLO完全没有感知到STOP标志。如果这发生在现实生活中,一辆自动驾驶汽车面对这样一个标志但没有停下来,那之后发生的可能就是汽车相撞的惨剧。

更严肃的是,这个为YOLO生成的对抗样本同样也能欺骗标准的Faster-RCNN。如下图所示,研究人员同样对Faster-RCNN做了动态测试,发现它也很难从中发现路牌的含义。由于是黑盒攻击,Faster-RCNN最终还是识别出了路牌上的STOP标记,但其他的扰动因素也对它施加了大量干扰。这是一次不成熟的黑盒攻击,随着其他技术的引进,这样的攻击将变得更加有效。

此外,研究人眼还发现当YOLO和Faster-RCNN检测到STOP时,相机和路牌的距离往往只有3—4英尺(约1米)了,事实上这么近的距离连触发紧急制动都挽救不回来。

攻击算法概述

这个算法基于之前的分类器工作,因此可以阅读Robust physical-world attacks on deep learning models(https://arxiv.org/abs/1707.08945https://arxiv.org/abs/1707.08945)查看。从本质上来说,研究人员在生成对抗样本时对原方法做了优化,但实验证明,相对于分类器,用于对象检测工具的样本需要更多、变化更复杂的物理条件,这可能是因为检测器在生成预测时需要考虑更多的上下文信息。

该算法的关键属性包括指定物理条件模拟序列的能力,以及指定平移不变性属性的能力。也就是说,无论目标物体位于场景内何处,扰动都应该是有效的。由于物体可以根据观看者在场景中自由移动,当对象移动时,未针对此属性进行优化的扰动可能会中断。

潜在的防御措施

鉴于数字和物理世界中的这些案例,相关防御措施也是一个广泛研究的课题,其中,不同类型的对抗训练是最有效的方法之一。先是,Goodfellow等人最早提出用对抗训练提高神经网络鲁棒性,之后Tramèr等人又将其拓展为合奏对抗学习。 后来Madry等人也通过迭代训练和对抗性样本,提出了鲁棒的网络。

找到防御措施的前提是积累大量对抗样本,这不仅能使对应模型的防御效果更佳,如果样本来自不同模型,这样的数据集还能增加多样性,使模型可以更充分地发掘对抗样本的空间。虽然还有其他大量方法,但现有方法在性能上还远远达不到应用标准。

总的来说,我们距离为这些对抗样本找到最佳防御手段还有很长的路要走,我们期待着探索这个令人兴奋的研究领域。

原文地址:bair.berkeley.edu/blog/2017/12/30/yolo-attack/

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180102G0OVK200?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券