前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >主动防御多种Deepfake模型,北大王选所在AAAI22上提出跨模型通用对抗水印CMUA-Watermark

主动防御多种Deepfake模型,北大王选所在AAAI22上提出跨模型通用对抗水印CMUA-Watermark

作者头像
CV君
发布2021-12-24 13:37:15
1K0
发布2021-12-24 13:37:15
举报
文章被收录于专栏:我爱计算机视觉

本文分享AAAI 2022论文『CMUA-Watermark: A Cross-Model Universal Adversarial Watermark for Combating Deepfakes』,由北大王选所提出跨模型通用对抗水印 CMUA-Watermark,主动防御多种 Deepfake模型。

详细信息如下:

  • 论文链接:https://arxiv.org/abs/2105.10872
  • 项目链接:https://github.com/VDIGPKU/CMUA-Watermark

01

前言

相信大家都看过换脸视频(Deepfake Video)吧?Deepfake指的是利用对抗生成网络或其他内容生成技术生成虚假但看起来十分逼真的图像或视频,只要输入一个人的图片或视频,就可以在生成的图片或视频中使这个人做出其未做过的事情或者未说过的话,而这些人脸看上去十分真实,甚至能骗过人脸识别系统。

至今为止,Deepfake的滥用不仅让诸多虚假新闻得以传播,同时,含有虚假政治、色情信息的视频和图片也对人们的生活造成了巨大的伤害,随着生成技术的不断发展,由Deepfake引起的身份盗用、诈骗勒索等安全问题也日益显著。

图1 Deepfake换脸样例[1]

在这样的背景下,研究人员开始研究怎么防止Deepfake被恶意利用。目前,主流的方法采用被动防御,其会训练一个检测器,检测哪些内容是Deepfake生成的,哪些内容是真实的。不幸的是,这种方法只能被动防御和事后取证,并不能阻止Deepfake图片、视频的生成和传播,也没有办法避免虚假内容造成的伤害。

最近,有学者提出一种主动防御的方式,是基于对抗攻击(adversarial attack)的思想,给照片加上一个对抗性的水印,以扭曲Deepfake生成的内容,达到“看一眼就知道是假的”的效果,该类方法可以干扰Deepfake的生成过程,进而在生成阶段遏制住Deepfake的威胁。这种对抗性水印往往是人眼无法分辨的微小扰动,但它可以针对Deepfake网络,扭曲其输出(即扭曲生成的虚假内容)。但是目前的方法往往只能针对一张特定的照片、一种特定的Deepfake模型。也就是说,如果换了一张照片,或者换了一个Deepfake模型,这个水印的保护性能就可能大打折扣。

图2 (a) 使用检测器的被动防御 (b) 使用对抗水印的主动防御

那么,有没有一个方法能够使这种水印对不同的图像、不同的Deepfake模型都有效呢?

北京大学王选计算机研究所等研究机构在人工智能顶级会议AAAI22上提出了CMUA-Watermark (Cross-Model Universal Adversarial Watermark) 即跨模型的通用对抗水印。该工作提供一种跨图像、跨模型的通用对抗水印生成方法,这种方法只需要用少量的面部图像(128张)进行训练,生成的水印就可以保护几乎所有的面部图片,使多种Deepfake模型不能正常篡改这些图片(即让其输出扭曲)。

相对于传统的单图像、单模型的对抗水印生成方法的基础,CMUA提出了两级扰动融合(two-level perturbation fusion)的策略,使得生成的水印进行图像级别(image-level fusion)、模型级别(model-level fusion)的融合,提高水印的迁移性。同时,为了减少迭代生成水印时步长对结果的影响,提高在不同模型之间的迁移性,CMUA使用TPE自动搜索不同模型的更新步长。

在评估方面,该工作主要考虑了两点:

  1. 生成的图像是否足够“扭曲”和“异常”,使其可以被直观地确认为虚假图像;
  2. 生成的图像是否可以通过活体检测,即对于模型来说,能否判断这个图像是非活体。

具体来说,对于第一点,与之前对整张图像计算L1、L2距离的方法不同,为了更好地衡量Deepfake输出的扭曲程度,评估对抗水印的效果,该论文引入了modification mask,使评分指标关注原图像被Deepfake修改的区域;并采用了FID距离作为生成图片效果的指标,它能够有效衡量Deepfake模型生成的质量。

对于第二点,该工作使用活体检测网络判别图像为活体的置信度来评估对抗水印的效果。

02

方法

该论文的方法可以被分为两个步骤;

图3 CMUA水印生成流程

首先,使用较小的batch-size,多次进行对抗水印的生成,评估对抗水印的效果,并据此更新不同模型的优化步长,这一步的目的主要是应用TPE快速搜索出合适的模型步长;然后,使用较大的batch-size,按照上一步搜索的步长进行正式生成。其中对抗水印的生成过程以单图像、单模型的水印生成为基础,经过image-level和model-level两级融合生成跨图像、跨模型的CMUA水印。

单图像、单模型水印

对于一组未处理过的图像,目标是针对一个Deepfake模型G,生成扰动范围在ε,ε之内的水印,使得和G之间的差别尽可能大,论文中使用MSE来衡量这个差别:

\max _{W} \sum_{i=1}^{n} M S E\left(G\left(I_{i}\right), G\left(I_{i}+W\right)\right), \text { s.t. }\|W\|_{\infty} \leq \epsilon

采用PDG算法求解:

\begin{array}{c} I_{a d v}^{0}=I+W \\ I_{a d v}^{r+1}=\operatorname{clip}_{I, \epsilon}\left\{I_{a d v}^{r}+a \operatorname{sign}\left(\nabla_{I} L\left(G\left(I_{a d v}^{r}\right), G(I)\right)\right)\right\} \end{array}

其中,是一组未处理过的图像,是第次迭代后生成的扰动后的图像,是初始水印,是步长。迭代完成后,对每张图像,都会分别生成一个水印,可以针对模型保护这张图像。

Image-level fusion

为了解决不同图像之间的冲突,使用图像间的融合来提高图像之间的迁移性,该论文提出了图像级别的融合策略来训练通用对抗水印:

G_{a v g}=\frac{\sum_{j}^{b s} \operatorname{sign}\left(\nabla_{I_{j}} L\left(G\left(I_{j}^{a d v}\right), G\left(I_{j}\right)\right)\right)}{b s}

其中,是平均后的梯度,是模型的batch size,是batch中第张图像叠加扰动后的结果。如此即可得到一个平均扰动,它可以针对模型G保护多张图像。

Model-level fusion

上一步完成之后,针对一组模型,使用模型间的融合来提高模型之间的迁移性。

\begin{array}{l} W_{C M U A}^{0}=P_{a v g}^{0} \\ W_{C M U A}^{t+1}=\alpha \cdot W_{C M U A}^{t}+(1-\alpha) \cdot P_{a v g}^{t} \end{array}

其中,是第个Deepfake模型的平均扰动,α是衰减因子,是经过第t个模型训练之后得到的CMUA水印。

模型步长搜索

在单模型训练过程中,以基于FGSM的方法为基础,不难发现的更新幅度实际上取决于该模型的步长:

\Delta P=a \cdot \operatorname{sign}\left(\nabla_{X} L\right)

也就是说,模型步长对的效果有很大影响。在多模型训练时,这一点仍然成立。

\Delta P^{u}=\sum_{i=1}^{m} \alpha^{(m-i)} \Delta P_{i}=\sum_{i}^{m} \alpha^{(m-i)} a_{i} \cdot \operatorname{sign}\left(\nabla_{X} L_{i}\right)

其中,是模型的步长。为了解决这个问题,该论文使用TPE方法,把各模型的步长看作输入,攻击成功率作为分数,以Expected Improvement (EI)作为优化目标搜索一组最优的步长。

下面的算法框图概括了CMUA水印的生成过程。

图4 CMUA水印生成算法

03

实验

数据集

论文中使用CelebA[2]测试集作为主要数据集,其中包含19962张人脸图像;使用集合中的前128幅图像作为训练图像,并在CelebA测试集和LFW[3]数据集的所有人脸图像上进行评估,以确保可信度。此外,还从电影中随机选择100张人脸图像作为附加数据(Films100),以验证CMUA水印在真实场景中的有效性。

Deepfake模型

选择StarGAN[4]、AGGAN[5]、AttGAN[6]、HiSD[7]四种网络模型。这四种网络都是在CelebA数据集上训练的。

度量指标
  • 成功率

定义一个modification mask,只计算模型修改过的部分的距离,记为。

\begin{array}{c} \operatorname{Mask}_{(i, j)}=\left\{\begin{array}{ll} 1, & \text { if }\left\|G(I)_{(i, j)}-I_{(i, j)}\right\|>0.5, \\ 0, & \text { else, } \end{array}\right. \\ \quad L_{\text {mask }}^{2}=\frac{\sum_{i} \sum_{j} \operatorname{Mask}_{(i, j)} \cdot\left\|G(I)_{(i, j)}-G(I+W_{CMUA})_{(i, j)}\right\|}{\sum_{i} \sum_{j} \operatorname{Mask}_{(i, j)}} \end{array}

记为成功保护图片,计算成功率。

  • FID距离

FID表示的是生成图像的特征向量与真实图像的特征向量之间的距离,该距离越近,表明生成模型的效果越好,即图像的清晰度高,且多样性丰富。

  • ACS和TFHC

采用活体检测系统HyperFAS[8]来检测Deepfake生成假照片是否可以被判断为人脸。论文中认为置信度大于0.99时,这张图片就有很高的概率是一张人脸,将大于0.99的图片占比记为TFHC;同时也计算置信度的平均值,记为ACS。

实验结果

对不同的数据集来说,CMUA水印在CelebA和LFW上表现都很优秀;对于不同的模型来说,在StarGAN、AGGAN和HiSD上的表现优于在AttGAN上的性能。CelebA和LFW上的StarGAN、AGGAN和HiSD的防御成功率接近100%,扭曲的输出的ACS与原始输出相比显著降低,使得在CelebA测试集上StarGAN、AGGAN、AttGAN和HiSD的TFHC分别下降45.65%、10.36%、27.08%和59.36%,在LFW数据集上则为35.68%、8.58%、9.13%和34.65%。在更接近真实场景的Film100数据集上CMUA的效果甚至比前两个数据集更好。此外,所有扭曲的输出都有较大的FID,说明加上水印之后Deepfake模型生成的效果较差。

论文中将CMUA-Watermark与SOTA的对抗方法进行了比较(所对比的方法基于UAP已经做了通用性的改进)。可以观察到,这些方法生成的对抗性水印在一个或两个模型上可能存在过度优化,因此在其他模型上表现非常差。相反,CMUA在所有模型上都取得了优异的性能。

图5 CMUA水印效果及比较

图6 被CMUA保护的图片无法通过社交软件的活体验证

04

结论

针对Deepfake的滥用,论文首先提出了一种对抗水印CMUA-Watermark,该水印可保护大量人脸图像免受多个Deepfake模型的攻击;之后提出了一种扰动融合策略来缓解攻击过程中不同图像和模型产生的对抗性水印冲突。在此基础上,该论文分析了跨模型优化的关键问题,提出了一种基于TPE的步长自动调整算法。此外,论文还设计了一种合理而全面的评估方法来评估所提出的CMUA水印。实验结果表明,CMUA水印能够干扰Deepfake对原图像的修改,降低生成图像的质量,有效防止虚假图像的生成和传播。

CMUA-Watermark是用AI防范AI威胁的典型样例,代码已经开源:https://github.com/VDIGPKU/CMUA-Watermark 。CMUA的提出也为解决“AI威胁论”提出的新的思路,科技向善,科研工作者们在一直努力~

参考文献

[1] https://thenextweb.com/news/watch-a-trump-clone-investigate-deepfakes-in-a-new-show-from-the-creators-of-south-park

[2]Liu Z, Luo P, Wang X, et al. Large-scale celebfaces attributes (celeba) dataset[J]. Retrieved August, 2018, 15(2018): 11.

[3]Huang G B, Mattar M, Berg T, et al. Labeled faces in the wild: A database forstudying face recognition in unconstrained environments[C]//Workshop on faces in'Real-Life'Images: detection, alignment, and recognition. 2008.

[4]Choi Y, Choi M, Kim M, et al. Stargan: Unified generative adversarial networks for multi-domain image-to-image translation[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 8789-8797.

[5]Tang H, Xu D, Sebe N, et al. Attention-guided generative adversarial networks for unsupervised image-to-image translation[C]//2019 International Joint Conference on Neural Networks (IJCNN). IEEE, 2019: 1-8.

[6]He Z, Zuo W, Kan M, et al. Attgan: Facial attribute editing by only changing what you want[J]. IEEE transactions on image processing, 2019, 28(11): 5464-5478.

[7]Li X, Zhang S, Hu J, et al. Image-to-image Translation via Hierarchical Style Disentanglement[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 8639-8648.

[8]https://github.com/zeusees/HyperFAS

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-12-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 我爱计算机视觉 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 单图像、单模型水印
  • Image-level fusion
  • Model-level fusion
  • 模型步长搜索
  • 数据集
  • Deepfake模型
  • 度量指标
  • 实验结果
相关产品与服务
人脸核身
腾讯云慧眼人脸核身是一组对用户身份信息真实性进行验证审核的服务套件,提供人脸核身、身份信息核验、银行卡要素核验和运营商类要素核验等各类实名信息认证能力,以解决行业内大量对用户身份信息核实的需求,广泛应用于金融、运营商、共享出行等领域。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档