【IEEE Spectrum】神经网络视觉分类算法的意外弱点

新智元

发布于 2018-03-23 09:52:25

6900

发布于 2018-03-23 09:52:25

文章被收录于专栏：新智元

【新智元导读】以往的对抗攻击需要进行复杂的数据处理，但最近华盛顿大学、密歇根大学、石溪大学和加州大学伯克利分校的一组研究人员发表了一篇文章，表明在物理世界中进行轻微的改变，也能诱骗视觉分类算法。通完自动驾驶安全之路，或许是完全排除人类因素。

人类非常难以理解机器人是如何“看”世界的。机器的摄像头像我们的眼睛一样工作，但在摄像头拍摄的图像和对于这些图像能够处理的信息之间的空间里，充满了黑盒机器学习算法。训练这些算法通常包括向机器显示一组不同的图像（比如停止标志），然后看看机器能否从这些图片中提取足够的常见特征，从而可靠地识别出那些没有在训练集中出现过的停止标志。

这样做很好，但机器学习算法识别出的停止标识具有的特征，往往不是“里面有字母 STOP 的红色八角形”，而是所有停止标志都共享的特征，不过人类是看不懂的。要是你觉得这很难想象的话，那是因为这个事实实际上反映了我们的大脑和人工神经网络在解释/理解这个世界时的根本断层。

而结果就是，对图像进行轻微的改动就可能导致机器学习算法识别出与原本完全不同（有时甚至是莫名其妙的）结果。

一般而言，这些轻微的改动是人类肉眼所无法察觉的，而且通常需要相对复杂的分析和图像处理才能实现。

下面是一组我们常见的“对抗图像”“污染”：

本来是大熊猫的原图（左），经过人类肉眼不可见的调整（中），结果计算机就识别为长臂猿（右，置信度 99.3%）。

用在道路标志上就成了这样：

上面一排是合法的标志，下面则是经过一些手段，让神经网络分类器产生错误识别的结果。

很显然，这样的改动，虽然有效（且危险），但实践起来却很难，因为你一般很难直接获得你想要混淆的神经网络的输入。此外，在自动驾驶的情况下，神经网络能够在不同距离和不同的角度分析一大堆符号的图像。而对抗图像往往会在整个图像（即道路标志和图像中的背景）中都包含增加的改动，所以这种“污染”在现实生活中往往很难不起到作用。

仅用贴纸或涂鸦骗过神经网络分类器

但是，最近华盛顿大学、密歇根大学、石溪大学和加州大学伯克利分校的一组研究人员发表了一篇文章，表明在物理世界中进行轻微的改变，也能诱骗视觉分类算法。你只需要在停车标志上加一点喷漆或一些贴纸，就能够愚弄一个深度神经网络分类器，让神经网络将停止标志看成是限速标志。

下面是两幅仅用贴纸就让神经网络产生混淆的例子：

因为贴纸的面积相对整个标识而言很小，所以由此造成的干扰也就更加严重。据研究人员介绍：

“根据我们的评估方法，100％的图像分类器将停止标志错误地归到限速 45 的类别中。对于右转标志……我们的攻击让错误分类的成功率为 100％，其中 66.67％的图像被归类为停车标志，33.7％的图像被归为添加车道标志。[涂鸦] 攻击的成功率为 73.33％。[伪装抽象艺术攻击] 则实现了 100％的错误分类率。”

为了实施这些攻击，研究人员使用公开的道路标志数据集，在 TensorFlow 上对他们的道路标志分类器进行了训练。他们认为，攻击者会对分类器有“白盒”访问，这意味着攻击者不会混淆或篡改数据，而是把“杂物”添加进去，看看会出来什么。这样，即使无法直接入侵分类器，攻击者仍然可以使用这种反馈来创建一个相当准确的模型来分类它们。最后，研究人员将想要攻击的标志的图像加上他们的分类器，并将其加入到攻击算法中，这样算法就能输出对抗图像了。

自动驾驶的未来或是完全去除人类因素

当然，自动驾驶汽车使用的分类器会比研究人员成功骗过的分类器更加复杂，鲁棒性更高。（在实验中，研究人员只使用了大约 4,500 个标志作为训练输入）。尽管如此，也无法否认像这样的攻击不会奏效——即使是最先进的基于深度神经网络的算法，也可能做出很愚蠢的判断，而原因我们并不能轻易察觉。因此，自动驾驶汽车最好使用多模态系统进行道路标志识别，就跟自动驾驶汽车使用多模态系统进行障碍物检测一样：仅依靠一种传感器（无论是雷达，激光雷达，还是摄像头），都是十分危险的。因此，要同时使用多种传感器，确保它们涵盖彼此的特定漏洞。

因此，如果要为自动驾驶汽车做一个视觉分类器，那么也加入一些 GPS 位置的信号。或者，可以添加专用的红色八角形检测系统。但是，我的建议是，把全部的道路标志都撤销（彻底不依靠道路标志），把人类因素完全剔除，把所有的道路完全交给机器人。这样问题就解决了。