【翻译】Robust Graph Neural Networks 稳健的图神经网络

小锋学长生活大爆炸

发布于 2023-03-01 14:09:53

4260

发布于 2023-03-01 14:09:53

文章被收录于专栏：小锋学长生活大爆炸

作者：谷歌研究院研究科学家 Bryan Perozzi 和研究实习生 Qi Zhu

Summary：

正文开始： 图神经网络 (GNN) 是在机器学习中利用图结构数据的强大工具。图是灵活的数据结构，可以对许多不同类型的关系进行建模，并已被用于交通预测、谣言和假新闻检测、疾病传播建模以及了解分子为何有气味等多种应用。

图可以模拟许多不同类型数据之间的关系，包括网页（左）、社交联系（中）或分子（右）。

作为机器学习 (ML) 中的标准，GNN 假设训练样本是随机均匀选择的（即，是独立同分布或“IID”样本）。使用标准学术数据集很容易做到这一点，这些数据集是专门为研究分析而创建的，因此每个节点都已经被标记。

然而，在许多现实世界的场景中，数据没有标签，标记数据可能是一个繁重的过程，涉及熟练的人类评估者，这使得标记所有节点变得困难。

此外，有偏差的训练数据是一个常见问题，因为选择节点进行标记的行为通常不是 IID。

例如，有时固定启发式方法用于选择数据子集（共享某些特征）进行标记，而有时，人类分析师使用复杂的领域知识单独选择数据项进行标记。

局部训练数据是图结构数据中典型的非IID偏差。这显示在左图中，通过获取一个橙色节点并扩展到它周围的节点。相反，用于标记的节点的 IID 训练样本将均匀分布，如右侧的采样过程所示。

要量化训练集中存在的偏差量，可以使用测量两个不同概率分布之间的偏移量的方法，其中偏移量可以被认为是偏差量。

随着偏移规模的扩大，机器学习模型越来越难以从有偏差的训练集中进行概括。这种情况会严重损害泛化性——在学术数据集上，我们观察到领域转移导致性能下降 15-20%（以 F1 分数衡量）。

在 NeurIPS 2021 上发表的“Shift-Robust GNNs: Overcoming the Limitations of Localized Graph Training Data”中，我们介绍了一种在有偏差的数据上使用 GNN 的解决方案。这种方法称为 Shift-Robust GNN (SR-GNN)，旨在解决有偏差的训练数据与图的真实推理分布之间的分布差异。

SR-GNN 使 GNN 模型适应标记为训练的节点与数据集其余部分之间存在的分布偏移。

我们在用于半监督学习的通用 GNN 基准数据集上使用偏差训练数据集的各种实验中说明了 SR-GNN 的有效性，并表明 SR-GNN 在准确性方面优于其他 GNN 基线，将偏差训练数据的负面影响降低了 30 –40%。

分布偏移对绩效的影响

为了演示分布偏移如何影响 GNN 性能，我们首先为已知的学术数据集生成许多有偏差的训练集。然后，为了了解效果，我们绘制了泛化（测试准确度）与分布偏移量度（中心矩差异 1 ，CMD）的关系图。例如，考虑众所周知的 PubMed 引文数据集，它可以被认为是一个图，其中节点是医学研究论文，边代表它们之间的引文。当我们为 PubMed 生成有偏差的训练数据时，图表如下所示：