最新《图神经网络》综述
图结构数据在多个领域展现了其普遍性和广泛的适用性,例如社交网络分析、生物化学、金融欺诈检测以及网络安全等。在利用图神经网络(Graph Neural Networks, GNNs)在这些领域取得显著成功方面,已经取得了重要进展。然而,在现实世界场景中,模型的训练环境往往远非理想,由于包括数据分布的不平衡、错误数据中噪声的存在、敏感信息的隐私保护以及对于分布外(Out-of-Distribution, OOD)场景的泛化能力等多种不利因素,导致GNN模型的性能大幅下降。为了解决这些问题,已经投入了大量努力来改进GNN模型在实际现实世界场景中的性能,以及提高它们的可靠性和鲁棒性。在本文中,我们提出了一份全面的综述,系统性地回顾了现有的GNN模型,着重于解决四个提及的现实世界挑战,包括在许多现有综述未考虑的实际场景中的不平衡、噪声、隐私和OOD问题。具体来说,我们首先强调现有GNN面临的四大关键挑战,为我们探索现实世界的GNN模型铺平道路。随后,我们提供了这四个方面的详细讨论,分析这些解决方案如何有助于提高GNN模型的可靠性和鲁棒性。最后但同样重要的是,我们概述了有前景的方向,并在该领域提供了未来的视角。
https://www.zhuanzhi.ai/paper/8dd37e1ab7dedcaf371808ea9ae4d71b
以节点和边代表相互连接的实体和关系的图结构数据,具有固有的复杂性和多功能性。图的互连特性使其能够模拟实体及其互动在其中扮演关键角色的广泛现实世界场景。分析图数据极为重要,因为它使我们能够洞察复杂模式、揭示隐藏结构,并理解互联系统的动态[1]、[2]。图数据的适用性横跨各个领域;例如,在社交网络分析中,图可以代表个体之间的关系[3],在生物信息学中,分子结构可以被建模为图[4],而且交通网络也可以被表达为图以优化路线和物流[5]。这些例子强调了图数据分析在解决不同领域中的多样化挑战中的重要性和广泛应用性。最近,图数据分析的格局已经被广泛采纳和图神经网络(Graph Neural Networks, GNNs)的显著成功所显著塑造[6]-[9]。GNNs已成为图学习的基石,在各种应用中展示出非凡的性能。GNNs背后的基本思想在于它们通过迭代地聚合和更新邻近节点的信息,捕捉图结构数据内的复杂关系[10]。这使得GNNs能够学习节点的有意义表征,捕捉图中的局部和全局模式[1]。GNNs的多功能性和有效性在各种现实世界应用中被突出展示。在电商平台,如阿里巴巴[11]利用GNNs理解用户行为,从而实现个性化产品推荐并提高用户整体参与度。社交媒体如Pinterest[12]利用GNNs进行内容推荐,成功地将用户与相关且吸引人的内容联系起来。此外,GNNs在模拟复杂物理系统[13]、[14]和加速药物发现过程[15]、[16]等场景中取得了显著成功。尽管当前GNN模型表现出色,但必须认识到它们的训练通常发生在理想化的环境中,其中训练数据是干净、标准化且全面的。然而,在现实世界场景中,GNN模型通常面临各种挑战,这些挑战显著地损害了它们的性能,甚至可能导致模型崩溃[17]、[18]。理想化训练条件与现实世界挑战之间的这种差异构成了GNNs部署中的一个关键问题。例如,在金融交易中的欺诈检测[19],欺诈案例相对于非欺诈案例的稀缺性导致了数据集不平衡。由于数据不平衡问题,GNNs可能难以有效学习与欺诈相关的模式。在生物信息学[20]中,生物数据中的实验错误或异常可能引入噪声,使GNNs难以准确预测分子结构或识别模式。在社交网络分析[21]中,GNN模型必须在从网络中提取有意义见解与保护用户隐私之间找到微妙的平衡。此外,在网络安全[22]中,用于检测网络威胁的GNNs可能在面对新型、以前未见过的分布外(OOD)攻击时遇到困难。图1中的示例性示例进一步阐明了现实世界社交网络场景中遇到的挑战。这些现实世界的例子强调了GNN模型面临的各种不利挑战的脆弱性,突显了为GNNs开发可靠和鲁棒解决方案的重要性。
为了应对GNN模型在现实世界场景中面临的众多挑战,研究者们投入了大量的努力来解决这些不利因素。为了全面和系统地总结在现实世界场景中采用的方法论,我们在本文中提出了一份彻底的综述。这份综述主要关注为解决GNN模型面对的四种普遍现实世界条件:不平衡、噪声、隐私和分布外问题而设计的解决方案。通过整合现有的研究努力,这份综述旨在提供一个关于当前形势的全面概述。此外,我们旨在展示可能的研究前沿,可以指导研究者回顾、总结,并制定未来策略以提高GNN模型在实际应用中的可靠性和鲁棒性。
本综述与现有综述的不同之处。到目前为止,已经有几篇文献综述从不同方面深入探讨了现实世界中的GNN[17]、[18]、[23]-[25],它们与我们的研究密切相关。虽然这些综述与我们的工作有关,但它们在特定焦点上也显示出差异。例如,Wu等人[23]关注GNN模型的三个方面:可靠性、可解释性和隐私。Dai等人[18]进行了更详细的讨论,涵盖隐私、鲁棒性、公平性和可解释性。Zhang等人[17],在[18]的基础上,探讨了问责性和环境福祉的新兴话题。这三项并行工作以信任的GNN为中心,从创建更可靠的AI系统的角度出发。与这些工作不同,我们的综述源于现实世界的考虑,专注于实际场景。此外,Oneto等人[24],在信任基础上扩展,涵盖了更宏观的元素,如在图上保证自动化操作,旨在实现更智能和负责任的GNN模型。据我们所知,与我们的综述最为接近的是[25],它从固有噪声、分布偏移和对抗攻击的角度总结了可靠的图学习。除此之外,我们的综述还涉及了现实世界场景中数据不平衡和隐私的普遍问题。值得注意的是,他们的综述[18]只涵盖了到2022年的方法,缺乏对过去两年最新发展的覆盖。
我们的贡献。这份综述旨在全面总结GNN模型在现实世界中的进展,同时为未来的探索铺平道路。它为研究者和实践者提供了一个概述和实际场景中GNN的最新发展,成为一份宝贵的资源。本综述的主要贡献如下:
分类法
为了深入了解现实世界场景中GNN模型,我们重点关注了关键的研究努力,深入探讨了它们的动机,并简洁地总结了它们的主要技术贡献。本文的总体结构展示在图2中。这份综述建立了一个新的分类法,将这些工作分为四个不同的类别:不平衡、噪声、隐私和分布外。这些类别为跨多种场景审查和分析这些工作提供了一个全面的框架。我们将简要概述这四个现实世界因素:
总结
本文提供了一个全面的概述,讨论了现实世界中的GNN是如何解决四个关键挑战的:不平衡、噪声、隐私和OOD。这些方面在大多数文献综述中往往被忽视。我们首先讨论了现有GNN模型的脆弱性和局限性,揭示了关键的挑战。随后,我们细致地介绍了现有GNN模型解决每个关键因素的框架和原则,并进行了详细分类。我们还突出了代表性工作的关键技术贡献,并以一些探索性讨论作为总结。尽管在解决现实世界中的GNN问题上取得了显著进展,但在这个领域未来研究的方向仍然充满希望,我们在这里进一步分析: