对抗机器学习模型

小爷毛毛_卓寿杰

发布于 2019-05-14 15:16:25

1K0

发布于 2019-05-14 15:16:25

文章被收录于专栏：Soul Joy Hub

1. Attack ML Model

随着AI时代机器学习模型在实际业务系统中愈发无处不在，模型的安全性也变得日渐重要。机器学习模型很可以会遭到恶意攻击，比较直接就能想到的如：人脸识别模型的攻击。训练出具有对抗性的机器学习模型，在业务系统存在着越来越重要的实际意义。

2. Attack

机器学习模型攻击要做的事情如下图所示：

假设我们有一个Network用来做动物的图像识别。我们输入一张如图所示的图片x0x^0x0，Network预测为“Tiger Cat”。机器学习模型攻击是在x0x^0x0上加上一个微小的噪音Δx\Delta xΔx，使得图片看起来还是一只“Tiger Cat”，但是通过Network的预测结果却是其他动物了。

2.1 Loss function

如上图所示，如果做图像分类，损失函数为：

其中，图像输入x0x^0x0是固定的。那么攻击模型的损失函数也可用类似的方式定义出来：

如果是无目标攻击（不需要使得被攻击的模型将输入预测成特定某一类）的攻击，则损失函数为：

即预测结果远离类别。其中，网络参数θ\thetaθ是固定，网络调整的是输入的x′x^{'}x′

有目标攻击（使得被攻击的模型将输入预测成特定某一类）的攻击，则损失函数为：

即预测结果既要远离正确类别，又要接近某错误类别。

上述两种损失函数还需要满足一定的约束，就是不能与原来的图片有太大的差异，即：

距离 d 通常的定义方式有：

2.2 Attack gradient descent

Attack gradient descent 相当于就是有了一定限制的gradient descent。每一步在对xxx做更新后，都要计算是否符合限制：

如果不符合，我们就把它调整为符合限制的xxx。如何调整呢？简而言之，就是把更新后的xtx^txt拉到符合限制区域的最近的向量上，用它来替代xtx^txt：

2.3 FGSM

FGSM（fast gradient sign method）是一种非常快捷的attack方法：只进行一次求梯度，并取其各个位上的符号作为结果 Δx\Delta xΔx ；更新时根据 Δx\Delta xΔx 直接加减 ε\varepsilonε：

该方法相当于使用了非常大的学习率，并且采用L-infinity距离，再把xxx拉回到正方形的角上。

2.4 Black box attack

之前讲的都是白盒攻击，即模型的网络结构我们都是知道的。那么，如果一个未知结构的Black模型，该如何攻击？很神奇的是，我们只要用相同的数据训练某个自定义结构的Proxy模型，在该Proxy模型上做attack，Black模型也能被很好的attack了。下表为proxy-black attack后的正确率：