学界 | Ian Goodfellow推荐论文:增加机器学习的防御就能解决鲁棒性问题?天真!

论文简介

这篇论文的名字为为「Adversarial Example Defenses: Ensembles of Weak Defenses are not Strong」,“防御对抗性样本:弱的防御方式组合起来也不强”,来自UC伯克利大学。论文关注的是机器学习模型面对攻击性数据时的防御表现,也就是模型的鲁棒性。论文中用生成式的方法修改MNIST和CIFAR-10中的图片,形成对抗性的样本,目的是让分类器对修改后的样本产生误判,借此对分类器的所用防御方法的效果进行评价。

论文中测试了五种不同的防御方式

  • 单独使用降低色深方法(color-depth-reduction defense,能够减少对大量像素的微小改动,是效果较弱的特征压缩方法)
  • 单独使用空间平滑方法(spatial smoothing,能够减少对少量像素的大幅改动,是效果较弱的特征压缩方法)
  • 降低色深和空间平滑这两者的组合(“combination of multiple squeezing techniques”,标题所指的“弱的防御方式的组合”)
  • 使用一组专用识别器,对分类后的图像再次检测攻击性;如果其中有识别器检测到其对应的攻击性特征,就可以通过对分类结果的置信度体现出来(“ensemble of specialists”)
  • 使用三种对抗性攻击检测器的组合(“ensemble of detectors”,三种检测器分别为Gong、Metzen和Feinman)。

下面几张图展示的就是测试结果。第一行是原始图像,通过生成模型修改出的能够使分类器错误分类的攻击图像在第二行。

降低色深法防御CIFAR-10图像(左),空间平滑法防御MNIST图像(右)

空间平滑法防御CIFAR-10图像(左),降低色深和空间平滑组合防御MNIST图像(右)

降低色深和空间平滑组合防御CIFAR-10图像(左),专用识别器防御MNIST图像(右)

可以直观地看到,四种防御方式的效果都非常有限,每一组中的第二行图片只有不大的改动,就已经可以导致分类器对样本的误判。由于MNIST图像比较简单,对于几种防御方式,对抗性处理带来的失真许多时候已经可以看得出来;但CIFAR-10的图像来说,能够骗过分类器的变化仍然都是人眼察觉不到的。

为了量化比较,他们也用把对抗性处理带来的失真(distortion)进行了数值化,虽然几种方法都不理想,但是所需的失真数量确实还是有所区别,能够反映防御能力的高低。

对于第五种防御方法,论文中还选取了另一种指标,就是自适应的攻击图片生成器除了能够骗过它本来目标的检测器之外(为了三种中的一种生成一张攻击图片,成功率轻松达到100%),能否同样轻松地骗过没有作为目标的检测器。结果是为骗Metzen生成的图片(作为source)最容易同样骗过另外两种(作为target),而为Feinman生成的就要差一点。

第五种防御方法里,三种检测器的交叉测试结果

总的来说,现有结果表明弱防御方式的组合并不能显著提高系统的鲁棒性,想要找到能够高效防御对抗性样本的方法还有很长的路要走。

论文中也介绍了他们在生成攻击图像过程中的收获:1. 评估防御能力的时候要想办法生成比较强的攻击图像,最好不要用FGSM这样图快的方法;2. 评估防御能力的时候最好用自适应性的攻击图像生成器,这样对于攻击者知道防御手段的情况也能够提高安全性。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-06-19

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据派THU

清华朱军团队包揽三项冠军 | NIPS 2017对抗样本攻防竞赛总结(附学习资料)

48850
来自专栏量子位

亚马逊专家揭秘:如何建立自动检测乳腺癌的深度学习模型

安妮 编译自 Insight Data Science 量子位出品 | 公众号 QbitAI 本文作者Sheng Weng,现亚马逊Alexa项目组数据专家,莱...

36280
来自专栏AI科技评论

清华朱军团队包揽三项冠军,NIPS 2017对抗样本攻防竞赛总结

AI 科技评论按:自 Ian Goodfellow 等研究者发现了可以让图像分类器给出异常结果的「对抗性样本」(adversarial sample)以来,关于...

20140
来自专栏琦小虾的Binary

论文翻译:ViBe+算法(ViBe算法的改进版本)

论文翻译:ViBe+算法(ViBe算法的改进版本) 原文地址: 《Background Subtraction: Experiments and Impro...

40790
来自专栏磐创AI技术团队的专栏

清华朱军团队包揽三项冠军,NIPS 2017对抗样本攻防竞赛总结

14520
来自专栏量子位

一只初学者,如何登顶野生动物识别挑战赛?| 附代码

动物的照片是在真实场景里拍摄的,姿势不同,背景复杂,光线、天气条件、视角、遮挡情况也不同。

18640
来自专栏PPV课数据科学社区

【V课堂】数据挖掘知识脉络与资源整理(五)–缺失值处理

简介: 缺失值是指粗糙数据中由于缺少信息而造成的数据的聚类,分组,删失或截断。它指的是现有数据集中某个或某些属性的值是不完全的。数据挖掘所面对的数据不是特地为某...

31680
来自专栏小詹同学

深度学习神经网络第①篇——感知器及其Python实现

感知器是由美国计算机科学家罗森布拉特(F.Roseblatt)于1957年提出的。感知器可谓是最早的人工神经网络。单层感知器是一个具有一层神经元、采用阈值激活函...

17640
来自专栏人工智能

CNN入门讲解:什么是采样层

各位看官老爷们 好久不见 这里是波波给大家带来的CNN卷积神经网络入门讲解 每周我将给大家带来绝对原创,脑洞大开,幽默风趣的深度学习知识点入门讲解 希望大家多多...

32280
来自专栏MyBlog

Procedural Noise Adversarial Examples for Black-Box Attacks on Deep Neural Networks论文笔记(1)

如今一些深度神经网络对于一些对抗性样本(Adversarial sample)是弱势的, 对抗性样本就是指我们对输入进行特定的改变, 通过原有的学习算法最终导致...

30430

扫码关注云+社区

领取腾讯云代金券