【新智元导读】计算机视觉很厉害,但是,只要稍加修改,比如使用美图软件加一个滤镜,计算机视觉就错误频出。MIT报道把这一缺陷称为计算机视觉的“阿喀琉斯之踵”,认为这是目前视觉领域的一个致命缺陷。如果计算机视觉要得到应用,比如用人脸识别侦察罪犯,但却连“美图秀秀”都搞不定的话,那确实是一个比较严重的问题。
现代科学最伟大的进步之一就是机器视觉的发展。在短短的几年里,新一代的机器学习技术已经改变计算机“看”的方式。
现在,机器在人脸识别和物体识别上比人要厉害。在众多基于视觉的任务中,如驾驶、安全监控等,机器视觉都起到了革命性的作用。机器视觉现在简直就是超人。
但是也产生了一个问题。机器视觉的研究人员发现了一些令人担忧的缺点。机器视觉的算法有一个致命缺陷:修改后的图像能骗过机器,但辨别这些图片,对人类来说并不是问题。
这些修改后的图像被称为对抗图像(adversarial image),它们对计算机是一个巨大的挑战。“人脸识别领域的一个对抗性样本(adversarial example)可以是将非常小的标记涂到人脸上,人类观察者会正确认出这个人,但是机器学习系统会将其识别为不同的人。” 来自“谷歌大脑”项目的Alexey Kurakin和Samy Bengio以及OpenAI的 IanGoodfellow说。
因为机器视觉系统还很新,对于对抗图像知之甚少。没有人知道如何最好地创建对抗图像,它们是如何骗过机器视觉系统,以及要怎样防范这种攻击。
现在,这些正在改变。这要感谢Kurakin等人做出的努力,他们是第一次开始系统地研究对抗图像的人。他们的研究显示,机器视觉系统非常容易遭受这种攻击。
该团队首先建立了用于机器视觉研究的标准数据库ImageNet。该数据库里的图像根据它们所显示的内容进行了分类。标准测试是使用该数据库的一部分来训练机器视觉算法,然后测试该算法对数据库的另一部分进行分类的表现。
表1:前两排的图像是护膝,而后面的几排是垃圾场。在所有的测试中,“干净”的图像都得以正确的分辨,但是,对抗图像的分辨却全部错误。
测试中的表现是这样计算的:计算该算法在前5个答案或是前1个答案中正确分类的频率(也就是前5个答案中的正确率或是第1个的正确率);或者计算该算法在前5个答案或是前1个答案中没有答对的频率(也就是其前5个答案的错误率或是第1个的错误率)。
表现最佳的机器视觉系统是谷歌的Inception v3算法,前5个答案的错误率是3.46%。而参与相同测试的人类表现是5%。所以从某处程度上可以说,Inception v3的能力超越了人类。
Kurakin等人将ImageNet数据库中的50,000张图像以3种不同的方式做了修改,然后将其制作成一个对抗图像的数据库。
他们的第一个算法通过最大化交叉熵对图像做出了一个小的改变。第二个算法简单迭代该过程从而进一步改变图像。
这两个算法都改变了图像,使其更难被正确分类。“这些方法可能导致错误分类,比如把某个品种的雪橇狗误认为是另一个品种,”Kurakin等人说。
最后一个算法使用的方法要更加聪明。它通过指引计算机视觉系统走向错误的分类,来对图片进行修订,选出最不符合真实分类的那些。“最不符合的类通常与真正的类高度不同,所以这种方法会导致更加有趣的错误,比如把狗误认为是飞机。”Kurakin和 co说。
然后,他们测试谷歌的Inception v3算法对50,000张对抗图像分类的表现。
前两种简单的算法显著减少了Inception v3在前5个答案和前1个答案的正确率。而第三种算法,也就是最不像的分类算法,则将Inception v3的正确率减少至0.
这证明,对抗图像是一个严重的威胁,但是他们研究的方法有一个潜在的弱点。所有这些对抗图像都是直接输入机器视觉系统中的。
然而,在真实的世界,图像总是由记录图像的照相机系统进行修改。如果这个过程中和了对抗图像算法的效果,那么对抗图像算法就没有用了。所以问题是,这些算法对于真实世界发生的图像变形有多大的抵抗力?
为了测试这一点,Kurakin等人打印出所有的对抗图片和原始图片,并用一台Nexus 5智能手机将其全部拍照。然后,将这些变形后的对抗图像输入机器视觉系统。
Kurakin等人说,第三种算法(最不可能分类方法)最容易受到这些变形的影响。也就是说,对抗图像算法在真实世界真的是一个威胁。“即使是通过照相机直接传入机器视觉系统,大部分的对抗图像都被错误分类。”
这项研究很有趣,使我们对于机器视觉的致命缺陷有所了解。Kurakin等人还将继续这方面的工作,他们想为其他视觉系统发展对抗图像,使对抗图像更加有效。
这些工作会在计算机安全领域引起惊讶。机器视觉系统在人脸识别方面比人类出色,因此被期待用于各个方面,比如解锁智能手机和房门、入境检查、银行账户生物识别技术等等。但是Kurakin等人证明了,要欺骗机器视觉系统很简单。
过去这些年里,我们一直说机器视觉系统有多好,但是现在,我们发现,只要一个小的改变,就能欺骗它。