如何用 Caffe 生成对抗样本?这篇文章告诉你一个更高效的算法

Fast Gradient Sign方法

先回顾一下《杂谈CNN:如何通过优化求解输入图像》中通过加噪音生成对抗样本的方法,出自Christian Szegedy的论文《Intriguing properties of neural networks》:

其中n是要求的噪音,α是相应的系数,L是x+n属于某个类别的loss,c是某个错误类别的标签。论文中用来得到图像噪声的办法是L-BFGS,这个方法虽然稳定有效,但是很考验算力的,Christian在Google反正机器多又强,用这个方法产生对抗样本自然没有问题,但如果不是土豪的话就不太合适了。针对这个问题,这篇文章的第六作者,生成式对抗网络的发明人Ian Goodfellow在《Explaining and Harnessing Adversarial Examples》中提出了一种更快速方便的方法来产生对抗样本:

这种方法的思想非常简单,就是让输入图像朝着让类别置信度降低的方向上移动一个在各个维度上都是ε这么大小的一步。因为输入通常是高维的(比如224x224),再加上现在的主流神经网络结构都是ReLU系的激活函数,线性程度其实很高,所以即使是很小的ε,每个维度的效果加一块,通常也足以对结果产生很大的影响,比如下面这样:

在计算上,这种方法优势巨大,因为只需要一次前向和一次后向梯度计算就可以了。Ian Goodfellow称之为 Fast Gradient Sign method。

用Caffe生成对抗样本

FGS法因为非常简单,用任何框架都很容易实现,Ian Goodfellow 有个作为完整工具包的官方实现,基于 TensorFlow,详细链接:

http://t.cn/RKAXoUz

这里给出Caffe的Python接口实现的例子。

首先需要准备要攻击的模型,这里我们用在ImageNet数据集上预训练好的SqueezeNet v1.0作为例子:

http://t.cn/RKAXWrl

需要下载两个文件就够了:

http://t.cn/RKAXRQ7

http://t.cn/RKAX3RZ

因为需要进行后向计算,所以把deploy.prototxt下载后,第一件事是加入下面的一句:

force_backward: true

首先在Caffe中装载准备好的模型定义和参数文件,并初始化读取三通道彩色图片的transformer:

# model to attack model_definition = '/path/to/deploy.prototxt' model_weights = '/path/to/squeezenet_v1.0.caffemodel' channel_means = numpy.array([104., 117., 123.]) # initialize net net = caffe.Net(model_definition, model_weights, caffe.TEST) n_channels, height, width = net.blobs['data'].shape[-3:] net.blobs['data'].reshape(1, n_channels, height, width) # initialize transformer transformer = caffe.io.Transformer({'data': net.blobs['data'].data.shape}) transformer.set_transpose('data', (2, 0, 1)) transformer.set_mean('data', channel_means) transformer.set_raw_scale('data', 255) transformer.set_channel_swap('data', (2, 1, 0))

因为只是演示如何制作对抗样本,为了方便,每次只处理一张图片,接下来就是读取图片并进行前向计算类别置信度,和后向计算梯度,我们用下面的白色小土狗的照片作为输入:

代码如下:

# Load image & forward img = caffe.io.load_image('little_white_dog.jpg') transformed_img = transformer.preprocess('data', img) net.blobs['data'].data[0] = transformed_img net.forward() # Get predicted label index pred = numpy.argmax(net.blobs['prob'].data.flatten()) # Set gradient direction to reduce the current prediction net.blobs['prob'].diff[0][pred] = -1. # Generate attack image with fast gradient sign method diffs = net.backward() diff_sign_mat = numpy.sign(diffs['data']) adversarial_noise = 1.0 * diff_sign_mat

这样用于叠加在原始图片上的对抗样本噪声就好了,在这个代码中,我们执行的是生成一个对抗样本降低当前模型预测类别的,其中每个像素在梯度方向上的前进幅度是1.0。如果要生成一个对抗样本使模型预测图片为一个指定的类别,则需要把给梯度赋值的语句改成下面这句:

net.blobs[prob_blob].diff[0][label_index]=1.

其中label_index是希望模型错误预测的类别。需要注意的是,用caffe.io.load_image读取的图片是一个值为0到1之间的ndarray,经过transformer的处理之后,得到的新的ndarray中每个像素的值会在0到255之间。另外得到的噪声往往不是最后结果,因为加入到原图片后还得考虑像素值是否会溢出,所以产生最后对抗样本图片的代码如下:

# clip exceeded values attack_hwc = transformer.deprocess(data_blob, transformed_img + adversarial_noise[0]) attack_hwc[attack_hwc > 1] = 1. attack_hwc[attack_hwc < 0] = 0. attack_img = transformer.preprocess(data_blob, attack_hwc)

attack_img就是和Caffe的blob形状一致的对抗样本了,attack_hwc是维度按照图片高度,图片宽度,图片通道顺序的格式,可以用matplotlib直接可视化。

可视化和简单分析

为了方便分析,我们把产生对抗样本的过程打包到一个函数里:

def make_n_test_adversarial_example( img, net, transformer, epsilon, data_blob='data', prob_blob='prob', label_index=None, top_k=5): # Load image & forward transformed_img = transformer.preprocess(data_blob, img) net.blobs[data_blob].data[0] = transformed_img net.forward() probs = [x for x in enumerate(net.blobs[prob_blob].data.flatten())] num_classes = len(probs) sorted_probs = sorted(probs, key=itemgetter(1), reverse=True) top_preds = sorted_probs[:top_k] pred = sorted_probs[0][0] # if label_index is set, # generate a adversarial example toward the label, # else # reduce the probability of predicted label net.blobs[prob_blob].diff[...] = 0 if type(label_index) is int and 0 <= label_index < num_classes: net.blobs[prob_blob].diff[0][label_index] = 1. else: net.blobs[prob_blob].diff[0][pred] = -1. # generate attack image with fast gradient sign method diffs = net.backward() diff_sign_mat = numpy.sign(diffs[data_blob]) adversarial_noise = epsilon * diff_sign_mat # clip exceeded values attack_hwc = transformer.deprocess(data_blob, transformed_img + adversarial_noise[0]) attack_hwc[attack_hwc > 1] = 1. attack_hwc[attack_hwc < 0] = 0. attack_img = transformer.preprocess(data_blob, attack_hwc) net.blobs[data_blob].data[0] = attack_img net.forward() probs = [x for x in enumerate(net.blobs[prob_blob].data.flatten())] sorted_probs = sorted(probs, key=itemgetter(1), reverse=True) top_attacked_preds = sorted_probs[:top_k] return attack_hwc, top_preds, top_attacked_preds

这个函数用caffe.io.load_image读取的ndarray作为输入图片,同时需要net和transformer,epsilon是噪声的幅度,label_index默认为None,此时产生的对抗样本减小当前预测的置信度。如果label_index设置为指定的类别,则产生的对抗样本会尝试增加模型预测为这个类别的置信度。最后函数返回可以被matplotlib直接可视化的对抗样本attack_hwc,模型对原始图片预测的top k类别和对应置信度top_preds,以及模型对对抗样本预测的top k类别和对应置信度top_attack_preds。

上面函数的结果可以用下面函数可视化:

def visualize_attack(title, original_img, attack_img, original_preds, attacked_preds, labels): pred = original_preds[0][0] attacked_pred = attacked_preds[0][0] k = len(original_preds) fig_name = '{}: {} to {}'.format(title, labels[pred], labels[attacked_pred]) pyplot.figure(fig_name) for img, plt0, plt1, preds in [ (original_img, 231, 234, original_preds), (attack_img, 233, 236, attacked_preds) ]: pyplot.subplot(plt0) pyplot.axis('off') pyplot.imshow(img) ax = pyplot.subplot(plt1) pyplot.axis('off') ax.set_xlim([0, 2]) bars = ax.barh(range(k-1, -1, -1), [x[1] for x in preds]) for i, bar in enumerate(bars): x_loc = bar.get_x() + bar.get_width() y_loc = k - i - 1 label = labels[preds[i][0]] ax.text(x_loc, y_loc, '{}: {:.2f}%'.format(label, preds[i][1]*100)) pyplot.subplot(232) pyplot.axis('off') noise = attack_img - original_img pyplot.imshow(255 * noise)

这段代码会同时显示原始图片及模型预测的类别和置信度,对抗样本图片及模型预测的类别和置信度,还有叠加在原始图片上的噪声。另外为了方便直观理解,需要输入每类别的名字,对于ImageNet的数据,可以下载Caffe自带的synset_words.txt,然后把里面的类别按顺序读取到一个列表里即可,下面例子中我们假设这个列表就是labels。

万事俱备,来看看效果,首先尝试用一个幅度为1的噪声降低模型预测的置信度:

attack_img, original_preds, attacked_preds = \ make_n_test_adversarial_example(img, net, transformer, 1.0) visualize_attack('example0', img, attack_img, original_preds, attacked_preds, labels)

得到结果如下:

因为中华田园犬并不在ImageNet的类别里,所以模型预测的结果是大白熊犬(Great Pyrenees),考虑到小土狗的毛色和外形,这个结果合理,说明SqueezeNet v1.0还是不错的。而经过了1个像素的噪音叠加后,模型预测结果变成了黄鼠狼(weasel)……

接下来试试生成让模型预测为指定类别的对抗样本,既然原始类别是大白熊犬,不妨试试直接预测为真的大白熊,也就是北极熊(ice bear):

attack_img, original_preds, attacked_preds = \ make_n_test_adversarial_example(img, net, transformer, 1.0, label_index=296) visualize_attack('example1', img, attack_img, original_preds, attacked_preds, labels)

从结果来看还是很不错的,而且是个非常高的置信度,不过黄鼠狼又排在了第二。无论是大白熊犬,北极熊还是黄鼠狼,都是哺乳动物,其实外形还是比较类似的,接下来试个难一点的,尝试用幅度为1的噪声把小白狗预测为鸵鸟(ostrich),代码就是把上段代码的label_index换掉,就不再贴了:

仍然是黄鼠狼,所以尝试用更强的噪声,把噪声幅度设为2.0:

成功了,虽然置信度并不是很高,进一步提升噪声幅度到6.0:

预测为鸵鸟的置信度大幅提升!那么是不是噪声幅度越大,预测为鸵鸟的置信度就越高呢,按照Ian的论文中的图(Fig. 4)似乎是这样的:

变成蛤蟆了……Ian的论文中一个主要论点是,在现在流行的深度网络中,对抗样本存在的主因是因为模型的线性程度很高,佐证一个是上面出现过的论文中的fig. 4,还有就是对抗样本在不同模型之间可以泛化。不过为什么线性就是主因了?Ian似乎并没有给出量化的,特别令人信服的证据。事实上原文的fig 4只是在mnist上的一个图示,稍微复杂些的数据上线性程度已经有所减弱,比如 Ian 自己为 kdnuggets 写的文章 Deep Learning Adversarial Examples - Clarifying Misconceptions 中的配图。文章详情:

http://t.cn/RLVzahm

究其本质,对抗样本的存在还是因为高维空间搜索是不可行的,在数据和模型无法触及的角落,对抗样本的出现是很自然的事情。虽然感觉上模型的线性程度,及相应的对输入空间的划分是对抗样本存在的主因,但归因于其他因素的对抗样本也不是可以忽略的,比如小狗变蛤蟆的例子。毕竟神经网络作为universal approximator的根本是源于非线性。

利用迭代更好地生成对抗样本

分类模型虽然没有距离这个概念,但类别间在输入空间上显然还是相似的类别会更近一些,通过上部分的例子也可以看到,狗变成熊或者黄鼠狼相对容易一些,变成鸵鸟就难一点了,变成其他更不相似的比如球拍(Racket)就会更难。我们把鸵鸟对抗样本的四个幅度(1.0, 2.0, 6.0, 18.0)也在生成球拍的对抗样本上试试,结果如下。Racket 相关链接如下:

https://racket-lang.org/

经历了黑足鼬(black-footed ferret)、黄鼠狼、丁鲷(tench),最后又变成了蛤蟆。说明线性大法对于这个和小狗差异很大的球拍并不灵。事实上如果用单纯的FGS在很多情况下造对抗样本都是不灵的,也许是因为两个类别差异过大;也许是某个类别类内差异性过大(比如把所ImageNet中所有狗算一类,其他算一类的二分类);甚至最极端的某个类别可能处在ReLU都小于0的“Dead Zone”内。只考虑前两种情况的话,需要比FGS更好更实用的方法。既然FGS直接前进一大步可能是错的,很自然的一个想法是借鉴梯度下降的思路,一步步迭代前进。虽然这样(从梯度方向上)很不线性,而且还要多次计算,不过比起L-BFGS法还是要简单,而且效果拔群。Ian Goodfellow在ICLR 2017的论文《Adversarial Examples in The Physical World》中描述了这种方法,并进一步细分为两种:1)减小预测为原始类别的置信度;2)增大原来被预测为最小可能类别的置信度。

基于这个思路,我们把第二种方法变通一下,尝试用迭代法增大球拍的置信度,每次迭代0.1,迭代十次:

attack_img, original_preds, attacked_preds = \ make_n_test_adversarial_example(img, net, transformer, 0.1, label_index=752) for i in range(9): attack_img, _, attacked_preds = \ make_n_test_adversarial_example(attack_img, net, transformer, 0.1, label_index=752) visualize_attack('racket_try1'.format(i), img, attack_img, original_preds, attacked_preds, labels)

需要注意外部调用进行迭代的写法效率是不高的,并且每次都包含一次冗余的前向计算。这里这样写只是为了简单,迭代完的结果如下:

成功得到了球拍。另附文中完整代码:

http://t.cn/RKAYOdE

原文发布于微信公众号 - AI研习社(okweiwu)

原文发表时间:2017-07-07

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏技术小站

吴恩达深度学习笔记 course2 week3 超参数调试,Batch Norm,和程序框架

一般而言,在调试超参数的过程中,我们通常将学习率learning_rate看作是最重要的一个超参数,其次是动量梯度下降因子β(一般为0.9),隐藏层单元个数,m...

1422
来自专栏专知

【专知-PyTorch手把手深度学习教程02】CNN快速理解与PyTorch实现: 图文+代码

【导读】主题链路知识是我们专知的核心功能之一,为用户提供AI领域系统性的知识学习服务,一站式学习人工智能的知识,包含人工智能( 机器学习、自然语言处理、计算机视...

4K11
来自专栏AI科技大本营的专栏

深度学习目标检测指南:如何过滤不感兴趣的分类及添加新分类?

AI 科技大本营按:本文编译自 Adrian Rosebrock 发表在 PyImageSearch 上的一篇博文。该博文缘起于一位网友向原作者请教的两个关于目...

1162
来自专栏算法channel

机器学习逻辑回归:算法兑现为python代码

0 回顾 昨天推送了逻辑回归的基本原理:从逻辑回归的目标任务,到二分类模型的构建,再到如何用梯度下降求出二分类模型的权重参数。今天,我们将对这个算法兑现为代码...

3505
来自专栏智能算法

机器学习三人行(系列七)----支持向量机实践指南(附代码)

其实逻辑回归算法和今天要讲的支持向量机有些类似,他们都是从感知机发展而来,支持向量机是一个非常强大而且应用面很广的机器学习算法,能够胜任线性分类器,非线性分类器...

35612
来自专栏深度学习

图像分类 | 深度学习PK传统机器学习

图像分类,顾名思义,是一个输入图像,输出对该图像内容分类的描述的问题。它是计算机视觉的核心,实际应用广泛。

49911
来自专栏大数据挖掘DT机器学习

深度学习的目标检测技术演进:R-CNN、Fast R-CNN、Faster R-CNN

object detection我的理解,就是在给定的图片中精确找到物体所在位置,并标注出物体的类别。object detection要解决的问题就是物体在哪里...

4625
来自专栏人工智能头条

深度学习目标检测指南:如何过滤不感兴趣的分类及添加新分类?

1623
来自专栏机器学习算法工程师

Batchnorm原理详解

作者:刘威威 小编:赵一帆 前言:Batchnorm是深度网络中经常用到的加速神经网络训练,加速收敛速度及稳定性的算法,可以说是目前深度网络必不可少的一部分。...

7626
来自专栏机器学习算法原理与实践

K近邻法(KNN)原理小结

    K近邻法(k-nearest neighbors,KNN)是一种很基本的机器学习方法了,在我们平常的生活中也会不自主的应用。比如,我们判断一个人的人品,...

1205

扫码关注云+社区