前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【翻译】Robust Graph Neural Networks 稳健的图神经网络

【翻译】Robust Graph Neural Networks 稳健的图神经网络

作者头像
小锋学长生活大爆炸
发布2023-03-01 14:09:53
3420
发布2023-03-01 14:09:53
举报

作者:谷歌研究院研究科学家 Bryan Perozzi 和研究实习生 Qi Zhu

Summary:

正文开始:         图神经网络 (GNN) 是在机器学习中利用图结构数据的强大工具。图是灵活的数据结构,可以对许多不同类型的关系进行建模,并已被用于交通预测、谣言和假新闻检测、疾病传播建模以及了解分子为何有气味等多种应用。
图可以模拟许多不同类型数据之间的关系,包括网页(左)、社交联系(中)或分子(右)。
图可以模拟许多不同类型数据之间的关系,包括网页(左)、社交联系(中)或分子(右)。

         作为机器学习 (ML) 中的标准,GNN 假设训练样本是随机均匀选择的(即,是独立同分布或“IID”样本)。使用标准学术数据集很容易做到这一点,这些数据集是专门为研究分析而创建的,因此每个节点都已经被标记。

        然而,在许多现实世界的场景中,数据没有标签,标记数据可能是一个繁重的过程,涉及熟练的人类评估者,这使得标记所有节点变得困难。

        此外,有偏差的训练数据是一个常见问题,因为选择节点进行标记的行为通常不是 IID

        例如,有时固定启发式方法用于选择数据子集(共享某些特征)进行标记,而有时,人类分析师使用复杂的领域知识单独选择数据项进行标记。

局部训练数据是图结构数据中典型的非IID偏差。这显示在左图中,通过获取一个橙色节点并扩展到它周围的节点。相反,用于标记的节点的 IID 训练样本将均匀分布,如右侧的采样过程所示。
局部训练数据是图结构数据中典型的非IID偏差。这显示在左图中,通过获取一个橙色节点并扩展到它周围的节点。相反,用于标记的节点的 IID 训练样本将均匀分布,如右侧的采样过程所示。

局部训练数据是图结构数据中典型的非IID偏差。这显示在左图中,通过获取一个橙色节点并扩展到它周围的节点。相反,用于标记的节点的 IID 训练样本将均匀分布,如右侧的采样过程所示。

         要量化训练集中存在的偏差量,可以使用测量两个不同概率分布之间的偏移量的方法,其中偏移量可以被认为是偏差量

        随着偏移规模的扩大,机器学习模型越来越难以从有偏差的训练集中进行概括。这种情况会严重损害泛化性——在学术数据集上,我们观察到领域转移导致性能下降 15-20%(以 F1 分数衡量)。

        在 NeurIPS 2021 上发表的“Shift-Robust GNNs: Overcoming the Limitations of Localized Graph Training Data”中,我们介绍了一种在有偏差的数据上使用 GNN 的解决方案。这种方法称为 Shift-Robust GNN (SR-GNN),旨在解决有偏差的训练数据与图的真实推理分布之间的分布差异

        SR-GNN 使 GNN 模型适应标记为训练的节点与数据集其余部分之间存在的分布偏移

        我们在用于半监督学习的通用 GNN 基准数据集上使用偏差训练数据集的各种实验中说明了 SR-GNN 的有效性,并表明 SR-GNN 在准确性方面优于其他 GNN 基线,将偏差训练数据的负面影响降低了 30 –40%。

分布偏移对绩效的影响

        为了演示分布偏移如何影响 GNN 性能,我们首先为已知的学术数据集生成许多有偏差的训练集。然后,为了了解效果,我们绘制了泛化(测试准确度)与分布偏移量度(中心矩差异 1 ,CMD)的关系图。例如,考虑众所周知的 PubMed 引文数据集,它可以被认为是一个图,其中节点是医学研究论文,边代表它们之间的引文。当我们为 PubMed 生成有偏差的训练数据时,图表如下所示:

分布变化对 PubMed 数据集的影响。对于 100 个有偏差的训练集样本,性能 ( F1 ) 显示在 y 轴上,x 轴上显示分布偏移,中心矩差异 ( CMD )。随着分布偏移的增加,模型的准确性下降。
分布变化对 PubMed 数据集的影响。对于 100 个有偏差的训练集样本,性能 ( F1 ) 显示在 y 轴上,x 轴上显示分布偏移,中心矩差异 ( CMD )。随着分布偏移的增加,模型的准确性下降。

分布变化对 PubMed 数据集的影响。对于 100 个有偏差的训练集样本,性能 ( F1 ) 显示在 y 轴上,x 轴上显示分布偏移,中心矩差异 ( CMD )。随着分布偏移的增加,模型的准确性下降。

         这里可以观察到数据集中的分布偏移与分类精度之间存在很强的负相关关系:随着 CMD 的增加,性能 (F1) 会降低。

        也就是说,GNN 可能难以泛化,因为它们的训练数据看起来不太像测试数据集

         为了解决这个问题,我们提出了一个 shift-robust regularizer(类似于域不变学习)来最小化训练数据和来自未标记数据的 IID 样本之间的分布偏移。为此,我们测量域偏移(例如,通过 CMD)在模型训练时实时应用,并基于此应用直接惩罚,迫使模型忽略尽可能多的训练偏差。

        这迫使模型为训练数据学习的特征编码器也能有效地处理任何可能来自不同分布的未标记数据。

        下图显示了与传统 GNN 模型相比的样子。我们仍然有相同的输入(节点特征 X 和邻接矩阵 A)和相同的层数。然而,在最终嵌入时,来自 GNN 层 (k) 的 Z k 与来自未标记数据点的嵌入进行比较,以验证模型是否正确编码它们。

SR-GNN 为深度 GNN 模型添加了两种正则化。首先,域移位正则化(λ 项)最小化标记数据 (Z k ) 和未标记数据 (Z IID ) 的隐藏表示之间的距离。其次,可以改变实例的实例权重(β)以进一步逼近真实分布。
SR-GNN 为深度 GNN 模型添加了两种正则化。首先,域移位正则化(λ 项)最小化标记数据 (Z k ) 和未标记数据 (Z IID ) 的隐藏表示之间的距离。其次,可以改变实例的实例权重(β)以进一步逼近真实分布。

         我们将此正则化写为模型损失公式中的附加项,该公式基于训练数据的表示与真实数据的分布之间的距离(论文中提供了完整的公式)。

        在我们的实验中,我们将我们的方法与许多标准图神经网络模型进行比较,以衡量它们在节点分类任务上的性能。

        我们证明,添加 SR-GNN 正则化可以使带有偏差训练数据标签的分类任务提高 30-40%

使用节点分类的 SR-GNN 与 PubMed 数据集上有偏差的训练数据的比较。 SR-GNN 优于七个基线,包括 DGI 、 GCN 、 GAT 、 SGC 和 APPNP 。
使用节点分类的 SR-GNN 与 PubMed 数据集上有偏差的训练数据的比较。 SR-GNN 优于七个基线,包括 DGI 、 GCN 、 GAT 、 SGC 和 APPNP 。

使用节点分类的 SR-GNN 与 PubMed 数据集上有偏差的训练数据的比较。 SR-GNN 优于七个基线,包括 DGI 、 GCN 、 GAT 、 SGC 和 APPNP 。

 通过实例重新加权对线性 GNN 进行 Shift-Robust 正则化

        此外,值得注意的是,还有另一类 GNN 模型(例如 APPNP 、 SimpleGCN 等)基于线性运算来加速其图卷积。我们还研究了如何在存在有偏差的训练数据的情况下使这些模型更可靠

        虽然由于它们的不同体系结构不能直接应用相同的正则化机制,但我们可以通过根据它们与近似真实分布的距离重新加权训练实例来“纠正”训练偏差。这允许在不通过模型传递梯度的情况下纠正有偏差的训练数据的分布

        最后,深度和线性 GNN 的两个正则化可以组合成损失的广义正则化,它结合了域正则化和实例重新加权(详细信息,包括损失公式,可在论文中找到)。

结论

        有偏差的训练数据在现实世界场景中很常见,并且可能由于多种原因而出现,包括难以标记大量数据、用于选择标记节点的各种启发式或不一致技术、延迟标签分配等.

        我们提出了一个通用框架 (SR-GNN),它可以减少有偏差的训练数据的影响,并且可以应用于各种类型的 GNN,包括更深的 GNN 和这些模型的更新的线性化(浅层)版本。

致谢

        Qi Zhu 是 UIUC 的博士生。感谢我们的合作者 Natalia Ponomareva (Google Research) 和 Jiawei Han (UIUC)。感谢 Tom Small 和 Anton Tsitsulin 的可视化。

1我们注意到,文献中提出了许多分布转移的衡量标准。在这里我们使用CMD(因为它计算速度很快,并且在域适应文献中通常表现出良好的性能),但该概念推广到分布距离/域偏移的任何度量。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2023-02-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 分布偏移对绩效的影响
  •  通过实例重新加权对线性 GNN 进行 Shift-Robust 正则化
  • 结论
  • 致谢
相关产品与服务
命令行工具
腾讯云命令行工具 TCCLI 是管理腾讯云资源的统一工具。使用腾讯云命令行工具,您可以快速调用腾讯云 API 来管理您的腾讯云资源。此外,您还可以基于腾讯云的命令行工具来做自动化和脚本处理,以更多样的方式进行组合和重用。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档