学界 | Ian Goodfellow推荐论文:增加机器学习的防御就能解决鲁棒性问题?天真!

论文简介

这篇论文的名字为为「Adversarial Example Defenses: Ensembles of Weak Defenses are not Strong」,“防御对抗性样本:弱的防御方式组合起来也不强”,来自UC伯克利大学。论文关注的是机器学习模型面对攻击性数据时的防御表现,也就是模型的鲁棒性。论文中用生成式的方法修改MNIST和CIFAR-10中的图片,形成对抗性的样本,目的是让分类器对修改后的样本产生误判,借此对分类器的所用防御方法的效果进行评价。

论文中测试了五种不同的防御方式

  • 单独使用降低色深方法(color-depth-reduction defense,能够减少对大量像素的微小改动,是效果较弱的特征压缩方法)
  • 单独使用空间平滑方法(spatial smoothing,能够减少对少量像素的大幅改动,是效果较弱的特征压缩方法)
  • 降低色深和空间平滑这两者的组合(“combination of multiple squeezing techniques”,标题所指的“弱的防御方式的组合”)
  • 使用一组专用识别器,对分类后的图像再次检测攻击性;如果其中有识别器检测到其对应的攻击性特征,就可以通过对分类结果的置信度体现出来(“ensemble of specialists”)
  • 使用三种对抗性攻击检测器的组合(“ensemble of detectors”,三种检测器分别为Gong、Metzen和Feinman)。

下面几张图展示的就是测试结果。第一行是原始图像,通过生成模型修改出的能够使分类器错误分类的攻击图像在第二行。

降低色深法防御CIFAR-10图像(左),空间平滑法防御MNIST图像(右)

空间平滑法防御CIFAR-10图像(左),降低色深和空间平滑组合防御MNIST图像(右)

降低色深和空间平滑组合防御CIFAR-10图像(左),专用识别器防御MNIST图像(右)

可以直观地看到,四种防御方式的效果都非常有限,每一组中的第二行图片只有不大的改动,就已经可以导致分类器对样本的误判。由于MNIST图像比较简单,对于几种防御方式,对抗性处理带来的失真许多时候已经可以看得出来;但CIFAR-10的图像来说,能够骗过分类器的变化仍然都是人眼察觉不到的。

为了量化比较,他们也用把对抗性处理带来的失真(distortion)进行了数值化,虽然几种方法都不理想,但是所需的失真数量确实还是有所区别,能够反映防御能力的高低。

对于第五种防御方法,论文中还选取了另一种指标,就是自适应的攻击图片生成器除了能够骗过它本来目标的检测器之外(为了三种中的一种生成一张攻击图片,成功率轻松达到100%),能否同样轻松地骗过没有作为目标的检测器。结果是为骗Metzen生成的图片(作为source)最容易同样骗过另外两种(作为target),而为Feinman生成的就要差一点。

第五种防御方法里,三种检测器的交叉测试结果

总的来说,现有结果表明弱防御方式的组合并不能显著提高系统的鲁棒性,想要找到能够高效防御对抗性样本的方法还有很长的路要走。

论文中也介绍了他们在生成攻击图像过程中的收获:1. 评估防御能力的时候要想办法生成比较强的攻击图像,最好不要用FGSM这样图快的方法;2. 评估防御能力的时候最好用自适应性的攻击图像生成器,这样对于攻击者知道防御手段的情况也能够提高安全性。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-06-19

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏云时之间

什么是过拟合?

各位小伙伴们大家好,很高兴能够和大家继续讨论机器学习方面的问题,今天想和大家讨论下关于机器学习中的监督学习中的过拟合的问题,以及解决过拟合的一些方法。 在正式...

3808
来自专栏小詹同学

深度学习神经网络第①篇——感知器及其Python实现

感知器是由美国计算机科学家罗森布拉特(F.Roseblatt)于1957年提出的。感知器可谓是最早的人工神经网络。单层感知器是一个具有一层神经元、采用阈值激活函...

1424
来自专栏量子位

亚马逊专家揭秘:如何建立自动检测乳腺癌的深度学习模型

安妮 编译自 Insight Data Science 量子位出品 | 公众号 QbitAI 本文作者Sheng Weng,现亚马逊Alexa项目组数据专家,莱...

3308
来自专栏用户2442861的专栏

Deep Learning(深度学习)学习笔记整理系列之(二)

1)该Deep Learning的学习系列是整理自网上很大牛和机器学习专家所无私奉献的资料的。具体引用的资料请看参考文献。具体的版本声明也参考原文献。

821
来自专栏MyBlog

Procedural Noise Adversarial Examples for Black-Box Attacks on Deep Neural Networks论文笔记(1)

如今一些深度神经网络对于一些对抗性样本(Adversarial sample)是弱势的, 对抗性样本就是指我们对输入进行特定的改变, 通过原有的学习算法最终导致...

1823
来自专栏量子位

教程丨机器学习算法:从头开始构建逻辑回归模型

921
来自专栏YoungGy

卡尔曼滤波简介

卡尔曼滤波是一种在不确定状况下组合多源信息得到所需状态最优估计的一种方法。本文将简要介绍卡尔曼滤波的原理及推导。 ? 什么是卡尔曼滤波 首先定义问题:对于某一系...

3585
来自专栏AI科技评论

清华朱军团队包揽三项冠军,NIPS 2017对抗样本攻防竞赛总结

AI 科技评论按:自 Ian Goodfellow 等研究者发现了可以让图像分类器给出异常结果的「对抗性样本」(adversarial sample)以来,关于...

1604
来自专栏大数据挖掘DT机器学习

R语言 使用BP神经网络进行银行客户信用评估

一、学习R语言AMORE包中的newff函数 这是个前馈神经网络工具包,类似的还有nnet,RSNNS等。AMORE比nnet参数要丰富一些。AMORE...

3908
来自专栏MyBlog

Procedural Noise Adversarial Examples for Black-Box Attacks on Deep Neural Networks 论文笔记(2)

该文章提出一种利用程序化噪声来生成对抗样本的方法, 所提出的方法和那些通过梯度不断修改以至于到达分类器的边界的方法不一样, 上述方法需要对目标的模型有一定的了解...

591

扫码关注云+社区