本文是一篇图上对抗攻击的实操论文.来自图对抗攻击大佬Stephan.
作者: 雪的味道(清华大学)
编辑: Houye

Graph Adversarial Attacks的一个里程碑,作者也是Nettack的作者,Nettack是kdd 2018获得了best paper。
图对抗攻击基础
见上一篇文章:「弱不禁风」的图神经网络
本文核心是用meta-gradients去解决bilevel问题(投毒攻击需要在修改后的图上重训练,依然在测试集上结果下降,所以是一个bilevel的问题)。本文通过微小扰动,使得分类准确率比baseline降低很多,并且能够泛化到无监督的表示学习中。
之前的工作基本是Targeted攻击,对指定点进行攻击使其误分类。比如:社交网络中某个人。这本文的工作中,首次提出一个降低模型的全局分类性能的算法。本质上,作者是把基于梯度的深度学习模型优化过程颠倒过来,把输入数据(图)当作一个超参数来学习。





接着这一段符号太多,我还是截图上原文吧。

大概意思就是搞个评分矩阵 S,这玩意是邻接觉真的梯度的一个变型,这样这个值就可以直接对应于是否加边减边的score,这样我们就能选一个梯度最大的作为需要改变的边。




作者实验发现,如果使用干净图训练得到的参数,那么即使在被攻击的图上测试,效果仅仅略有下降。而用被攻击的图训练的参数,即使在干净图上做预测,结果依然大幅度下降。

这一模块是分析为啥攻击有效。直接放结论,大概就是节点对间最短路径变长一些,不确定性增加,度分布更偏低(这里很疑惑,原本我认为是应该度分布变高,不知道是我理解错了还是作者画反了),但是整体分布与原图大体保持一致。图上大部分是加边,少部分删边,加边大部分两个节点是不同的label,而删除的大多数是相同label。

inductive learning的场景,metalearning依然有效。