苏航：深度学习对抗安全理论与方法

马上科普尚尚

发布于 2020-05-13 17:17:19

1.6K0

发布于 2020-05-13 17:17:19

文章被收录于专栏：人工智能前沿讲习

一

报告导读

本次报告介绍了深度学习安全性和可信性的关键问题，从对抗攻击、对抗防御和攻防平台三个方面介绍了目前的研究现状，同时带来了研究团队在这些关键问题上的最新研究成果，最后对发展安全可靠、鲁棒可理解的第三代人工智能进行了展望。

二

专家介绍

苏航，清华大学计算机系助理教授。曾荣获ICME2018"白金最佳论文"、AVSS2012"最佳论文奖"和MICCAI2012"青年学者奖"等多项学术奖励曾；曾获得ViZDoom2018国际FPS赛事历史上来自中国区首个冠军、NIPS 2017首届人工智能对抗样本攻防竞赛冠军。担任中国图像图形学会青工委执委，并多次受邀在在IJCAI、AAAI、ACML等多个顶级学术担任高级程序委员，发表顶级期刊和会议论文60余篇。主要从事鲁棒、可解释人工智能基础理论及其视觉应用的研究。

三

报告内容

深度学习现在尽管获得了高速的发展，但是在未来的部署和应用中会遇到很重要的问题，主要也就是安全性的问题。今天我就从这个角度给大家介绍一下我们团队在过去两三年中所做的工作。深度学习取得了很快的发展，在很多领域也都获得了很大的成功，包括在三维重建、图像复原等方面所取得的进展。但是是不是深度学习就没有问题？其实深度学习里面有个非常重要的问题，现在这些模型，我们把它叫做安全性和可信性都是不足的，像左边这个图的展示，就是深度学习我们多数来讲把它当做黑箱子，内部的工作机理并不清楚。第二点，也就是我今天主要关注的问题，深度学习非常容易被人眼所不易觉察的对抗样本欺骗。左边这个是阿尔卑斯山，加上一个噪声，右边的图片，人看上去都是一样的，但是深度学习会以非常高的概率错分辨为一只狗。

这些模型在简单的图像分类上没有什么感觉，它究竟会带来什么样的危害？比如像我们在实际的应用当中举例，人脸识别现在的应用非常广泛，像刷脸支付，每个人都有手机，这是我们实验室中所做的工作，在人脸照片加上简单的噪声，加上人精心构造出来的噪声，就能欺骗很多的人脸识别系统。大家很难想象，如果戴上一个眼镜就能把一个人的手机给攻破掉的话，会给生活带来非常大的安全和隐患。第二是金融领域，举个例子，很多时候，个人征信系统都会采用社交网络这样的信息在做。如果在社交网络上，通过增加虚拟的节点，把本来低信用的用户可以误分为高信用的用户，这些都会带来非常严重的安全隐患。

对抗攻击表现的更加严重的问题，会带来非常好的迁移性。什么意思？在一个模型上生出的对抗样本，在其它模型上同样也可以实现这样的攻击。还有一个更有意思的现象，可以通过构造出来的对抗样本、对抗噪声，这个对抗噪声可能是夹在数据语义当中，所有的数据都可以实现这个深度学习的欺骗。对抗攻击的迁移性可能给模型的安全性带来很大的隐患，意味着即使攻击者不知道模型是什么依然可以完成攻击。

实际安全领域的研究已经有很长时间的历史，本世纪初开始很多人就关注了这个工作，但是由于之前人工智能并没有大规模部署和应用，引起的关注并不广泛。但是最近几年人工智能在很多领域获得了很多部署，所以对抗安全也变得非常重要。

在过去几年，不管是美国、欧洲还是咱们国家，都把人工智能的安全性当做很重要的问题来做。人工智能的安全性有个最本质的问题，是由于它的训练数据和测试数据分布不一致造成的。其实很多时候深度学习的一些方法，训练数据和测试数据是相同的，但实际过程中是不一致的。深度学习的对抗安全性是攻防博弈的过程，可以说，道高一尺，魔高一丈，一个好的攻击办法可以更好地起到防御方法，同样，更好的防御方法也会带来更好的攻击方法，过去几年我们也做了相应的工作，给大家简单汇报一下。

首先分为对抗攻击、对抗防御和攻防平台。

第一种是白盒攻击，假设可以获取模型全部的参数。第二种是黑盒攻击，不能获得模型的参数，有些场景下可以对这个模型进行查询，而另外一些场景是不能查询，只能用迁移方法做。

白盒攻击可以建模成高维的数据优化的问题，我们实验室过去几年主要关注的是黑盒攻击，这是更加实际的场景。第一类黑盒攻击的办法，用迁移的办法，在本地构造的白盒的对抗样本之后，迁移到黑盒模型上，这里主要考虑的是如何做成功率和迁移性的平衡。传统的方法，如果有比较好的成功率，它的迁移性可能比较差。实际上这里有个典型的概念，如果通过多步的迭代，这个模型可能会到本地的白盒上。针对这个问题，引入动量优化，在深度学习上是非常常用的优化方法，用更少的迭代步骤实现更快的攻击，同时也保证了更好的迁移性。这个方法在国际对抗攻防大赛上也获得了冠军，这是首届的对抗攻防比赛，有100多支代表队参赛。

我们把这个方法应用在人脸识别，人脸识别是我们生活当中最常用的，在这里允许对这个模型进行查询，我们发现通过模型的查询，可以构造更加好的噪声。上面的例子，两个都是施瓦辛格，通过数字查询之后，可以在原始照片当中增加一个噪声，就会使这两个人深度学习误认为是两个不同的人。在我们人的隐私保护上是比较重要的应用，可以在图片上通过增加噪声，不被AI系统检测出来。第二个，本来是两个模型，但是增加噪声以后使之把小布什误认为是另外一个演员。

对抗防御，既然对抗噪声是增加的，就可以构建一个滤波器降低噪声的影响。但是我们发现，如果说通过滤波仅仅是让它恢复到原始图像上，实际这个效果并不理想。我们是怎么做呢？对人脸识别或者对图像分类的任务来说，并没有让它的图像和原来一致，我们只要保证恢复出来的表征和原始图像是一致的。所以我们这里提出的方法是，让去噪后的图象和真实图像在表征空间上一致，我们把它叫做高唯特征的表征。通过这样的方法，可以更好地降低对抗噪声的影响。同时我们形象地把它叫做一个帽子，这样的防御器或者滤波器戴了一个安全帽，可以抵抗其它模型对它的攻击。一个模型戴自己的帽子当然表现比较好，即使戴了别人的帽子也比不戴好，也就是说这样的帽子有更好的迁移性。

策略二是这样的，采用模型集成防御的方法，比较简单的思路，传统的集成模型，采用多个相似的模型来进行集成。我们对抗攻击，是要避免不同的模型不要犯相同的错误，即使有个别模型犯错，仍然可以很好地抵御对抗噪声，这样我们得到的约束是什么？在模型集成的过程当中，使每个被集成的模型，在最大的预测上保持一致。但是在其它的，比如第二类或者相对比较小的预测上，它们不太一致，或者呈现正交性。不同的集成是有区别的，通过这样的差异性是可以提升模型集成之后的模样性模型对攻击的防御能力。

最后简单介绍一下我的工作，我前面介绍了有攻击有防御，实际即使有模型带有防御性模拟，仍然可以对它进行攻击。通过研究发现，不同的防御实际本质是一个map的迁移，是很好理解的。实际很多不同的防御机制及关注了不同的图像区域。

这个问题怎么建模呢？我们在攻击的时候，可以对这些进行平移采样，把这些采样进行加权。但是这个加权复杂度比较低，我们利用了卷积和它在平移空间上的普遍性，把这个采样引入到盒空间当中，利用盒间降低采样的复杂度。这个方法也在今年CPI上进行了发表，可以通过我们的采样方法，体现到攻击和防御同时做的话，可以进行相互的启发。

最后，我们把所有攻防的方法，包括目前主流的工作方法，都集成到了对抗攻防平台上，目前这个平台已经支持了大概超过三十种攻防的方法，并且对主流的攻防算法在主要数据都做了测试。目前进行文档的整理，初步打算十月份面向整个学术界进行开源，支持大家对深度学习安全性的研究。

最后做一个小小的总结，什么时候AI才能变成真正的AI？我们觉得首先是可信的，第二是鲁棒的，还有是可理解的，最后是符合相应的伦理规范和法则，这是我个人的理解。

第三代人工智能是我们团队一直努力的方向，认为人工智能未来希望是具有理解能力，具有鲁棒的、安全的、知识可嵌入的小数据的。虽然人工智能深度学习获得了非常快的发展，但是仍然有很多不足。我们发展第三代人工智能，应该说永远在路上，踏上一个新的征程，需要更多的青年学者尤其是更多的学生加入进来，为中国的人工智能发展做出贡献。