作者 | 吴同
编辑 | 蒋宝尚
本文是对华盛顿大学完成的,被ICLR 2020录用的论文《Defending Against Physically Realizable Attacks on Image Classification》进行解读,相关工作已经开源。
论文:https://openreview.net/pdf?id=H1xscnEKDr 代码:https://github.com/tongwu2020/phattacks
论文简介:
我们研究了深度神经网络图像分类方法对物理可见攻击的防御问题。首先,我们证明了两种可扩展且有效的学习鲁棒模型的方法,即使用PGD攻击的对抗性训练和随机平滑,对当前三种“最引人注目”物理攻击的防御非常有限。
另外,我们提出了一种新的对抗性模型:矩形遮挡攻击,即在图像中放置一个小的对抗性矩形。此外还开发了用两种有效计算得到的对抗性示例的方法。最后,我们证明,使用我们的新对抗性训练产生的图像分类模型对物理可见攻击表现出很高的鲁棒性,也为这种攻击提供了第一种有效的通用防御。
作者简介:
吴同,华盛顿大学圣路易斯分校大四本科生。研究方向:对抗机器学习