这是来自谷歌的Tom B. Brown等人的论文"Adversarial Patch",提出了用于欺骗图像分类器的通用的图像补丁对抗生成方法,该补丁能够令分类器输出任意目标,甚至补丁很小的情况下,分类器也会忽略其他物体,输出制定的目标。
论文地址:https://arxiv.org/pdf/1712.09665.pdf
与已经提出的很多针对像素级修改对图像分类器的攻击方法,作者提出的这种大型补丁的方法的优点就在于不是像素级的修改,可以直接打印出来贴在任何图像上对图像分类器进行欺骗,具有良好的通用性与鲁棒性。而且现有的针对像素级修改的防御方案,对此方案没有抵抗力。
下图显示了加上这个补丁前后分类器的识别率,没加之前正确识别出这个香蕉,而加了补丁后,就错误的被识别成吐司机了。
算法的核心就是下面这个公式,个人比较肤浅的理解就是找到一个图形分布使得其最容易被图片分类器识别为某个类别的物体,只要补丁的识别的概率高于背景图片,分类器就会忽略背景物体而只注意到补丁本身。
下面是攻击测试的结果,也可以看出来经过构建的补丁图案比真实的面包机更容易被识别出来。当然这些补丁对人类来说基本就是完全无意义的,但是图像分类器确认为没错就是吐司机,所以目前的图像识别技术还是很脆弱的~
领取专属 10元无门槛券
私享最新 技术干货