作为隐私保护重要方法之一的联邦学习,常基于差分隐私(DP),即为数据添加随机噪声,来对数据进行加密。
而今天我们要介绍的这项研究,则意味着联邦学习保护下的用户隐私(如用于AI训练的医疗图像)可能会被击破。
因为研究者不仅能对48批量大小的图片做到224×224 像素的恢复:
在细节重建上也做到了SOTA:
可以看到,即使对于像ResNet-50这样的深层网络,其从批平均梯度中完全恢复得到的个体图像,也能在视觉还原度和色彩效果上达到非常优秀的效果。
那么这样通过梯度反演从噪声里高保真、大批度地还原图像,究竟是如何实现的呢?
这项研究的一作Hongxu Yin为普林斯顿大学电气工程系博士,目前任职于英伟达。
研究团队引入的模型GradInversion,对比以往从模型参数或模糊数据里重建数据信息的反演技术,在数据重构细节与还原数量上都有了极大提升:
作者先是通过对给定的批平均梯度进行了优化:
然后对于输入对象的特征分布引入了一组基于多种子优化和图像配准的一致性正则化项,大大提高了图像重建的细节:
并且研究者还提出了一种标签恢复法,使用全连接层梯度来恢复真实标签:
Reddit上,已经出现了这样的疑问:
下方的回复里,有人对GradInversion所做的技术改进表示肯定,但也猜测输入图像批次越多信息损失也会越大,所以在现实应用里应该不会造成太大的隐私问题:
也有人指出可以以差分隐私技术来应对这一研究所带来的的隐患,但马上就受到了辩驳:其实差分隐私技术也存在很多潜在弊端,无法做到绝对的隐私保护。
其实在此之前,就已经有过相关的研究。重构攻击,反演技术的乌云就一直笼罩在隐私保护技术的周围,挥之不去。
而这项研究的出现,似乎进一步证明了即便高速发展的隐私保护手段也难以确保绝对的安全。
但就像这位研究者在论文中表示的那样,研究从梯度中恢复原始数据这种信息传递的潜在机制,是对现有隐私技术的一种警示——即使是来自复杂深层网络的大批量加密信息,也不能保证绝对的隐私保护。
这样想来,从潜在攻击者的角度入手,提前预判对方预判,似乎也挺对的?
参考链接: [1]https://www.reddit.com/r/MachineLearning/comments/n0o6dn/d_new_paper_shows_that_federated_learning_is/?sort=confidence [2]https://arxiv.org/abs/2104.07586
— 完 —