作者 | 蒋宝尚
编辑 | 青 暮
DeeFake真是让人又爱又恨。
由它为基础开发“AI换脸”术,一方面应用在影视文化行业的想象空间极大,另一方面恶搞与色情影片却是对人性的耸动。
此类检测技术,大多都是“二分类”检测方法,虽然也能达到98%的准确率,然而这些检测方法往往会受到过渡匹配的影响,也就是说在处理不同类型的图片时,检测方法的性能会显著下降。
更为具体一点,能区分真人和照片的技术叫做liveness detection,中文叫做“活体取证”。当前的技术主要是根据分辨率、三维信息、眼动等来区分,因为翻拍的照片分辨率比直接从真人上采集的照片在质量、分辨率上有差别。
论文下载地址:https://arxiv.org/pdf/2008.11363.pdf
近日,宾汉姆顿大学和英特尔的研究人员开发了一种算法,号称能用视频中的生物信号检测这个视频是否是伪造的。
除此之外,这种方法还能识别出假视频背后的生成模型。其中,生成模型的判断是在DeepFakes、Face2Face、FaceSwap、NeuralTex中做“选择题”。
进过实验,该方法对假视频的检测准确率为97.29%,对假视频背后生成模型的识别准确率93.39%。
值得一提的是,论文中利用的生物信号是心跳,采用的方法是PPG光电容积脉搏波描记法原理(PhotoPlethysmoGraphy),简单来说利用光率的脉动变化,折算成电信号,从而对应成心率。
1
基于心跳的假视频检测法
整个算法遵循的观察规律是:生物信号还没有保存在假视频中,这些信号在生成噪声时也产生了不同的标识。
换句话说,假视频中显示的“人”不会表现出与真实视频中的人相似的心跳模式。
因此,用心跳检测假视频的思想可以大致概括为:可以将生物信号解释为在某种已知维度上的投影,从而可以找到每个生成模型的唯一签名(标识)。
值得一提的是,无论遮挡、照明条件如何变化,这些标识在真实视频是不存在的。利用这些标识可以找到假视频背后的生成模型,然后反过来提高整体的假视频检测精度。
在具体工作中,作者从人脸的不同位置提取了32个原始PPG信号(32 raw PPG),然后将这些信号连同它们的谱密度一起编码到一个时空块中,这就是所谓的PPG单元(PPG cell)。作者将PPG单元(PPG cell)输入到现成的神经网络中,从而识别源生成模型的不同标识。
在网络架构中,作者引入多个类来进行源检测,从而更加重视深度学习模型的体系结构。他们将整个识别任务表示为:具有相同概率类别的不同生成源和真实视频的多标签分类任务。
在模型训练过程中,作者在FaceForensics++(FF)数据集上构建了学习设置,其中训练集和测试集的比例为7:3。由于FF数据集包含4种不同的假视频生成模型,作者添加了真实的视频作为第5类。
作者先使用了具有3个VGG块的简单CNN,在FF数据集中的5个类别(4个生成模型+1个真实视频)上实现了68.45%精度的PPG单元块分类。随后作者猜测,可能需要一个更高容量的模型才能提升分类精度。所以,他们用另一个VGG块进行扩展,从而得到了75.49%的结果。
为了进一步证明“猜测”,作者使用VGG16、VGG19、InceptionV3、Xception、ResNet50、DenseNet201和MobileNet进行了实验,训练时间为100个epochs,结果如上图所示:VGG19精度最高。
另外,像DenseNet和MobileNet这样的复杂网络由于过拟合,虽然达到了非常高的训练精度,但在测试集上的效果不如人意。
为了证明作者的方法可以扩展到新的模型,其将FF数据集与CelebDF数据集结合了起来,具体操作是从CelebDF中随机选择了1000个假视频,创建为第六个类。
最后,作者的方法在CelebDF上达到了93.69%的假视频检测准确率和92.17%的生成模型检测准确率。因此,得出结论:利用生物信息检测假视频的模型具有泛化性。
via https://www.huxiu.com/article/326522.html
https://venturebeat.com/2020/09/03/ai-researchers-use-heartbeat-detection-to-identify-deepfake-videos/