图大模型的前沿综述

算法进阶

发布于 2023-11-24 15:25:03

9740

发布于 2023-11-24 15:25:03

大模型是人工智能（尤其是机器学习）领域最具划时代意义的新突破之一。然而，相较于自然语言处理和计算机视觉等领域，大模型在图领域尚未达到相同的成功水平。

为了推广大模型在图领域的应用，清华大学朱文武教授团队首次提出了图大模型（Large Graph Model）的概念，系统地总结和梳理了相关概念、挑战和应用，他们进一步围绕动态性和可解释性，在动态图大模型和解耦图大模型方面取得了重要的研究进展。

1 图大模型

图大模型是一种具有大量参数的图机器学习模型，这些参数使其具有更强大的学习能力，能更好地理解、分析、以及处理图形相关任务。理想的图大模型应具备以下4个关键期望特征（如图1）：

图1 图大模型所需特征图示

1.1 具有缩放定律的图模型（Graph models with scaling laws）

缩放定律表明，大语言模型（LLM）的性能随着模型大小、数据集大小和训练计算量的增加而持续优化。这为提升模型捕捉图数据中复杂模式和关系的能力提供了方向。图大模型有望展现出较小模型所缺乏的新兴能力，但实现这一目标面临诸多困难，包括收集更多图数据、解决技术难题（如解决图神经网络的过平滑和过压缩问题）以及工程和系统挑战。

1.2 图基础模型（Graph foundation model）

图大模型在处理跨不同领域的不同图任务时具有更大价值，需要理解图的内在结构和属性。图预训练范式是开发图基础模型的有前途途径，可以减少对标签收集的依赖，并赋予模型生成图形的能力，为药物合成、代码建模和网络进化分析等应用提供可能性。然而，为所有图领域开发“通用图模型”极具挑战性，可能需要为不同“领域集群”开发多个图基础模型。

1.3 图上下文理解与处理能力（In-context graph understanding and processing abilities）

有效的图大模型可理解图上下文，包括节点、边、子图和整个图，并能处理新颖的图数据集和任务，无需密集的模型修改。这种能力与少样本/零样本图学习、多任务图学习和图分布外泛化能力密切相关，可促进这些能力。当训练和测试阶段的输入图数据和任务不同时，上下文学习能力至关重要，可使图大模型利用预训练知识，快速适应测试阶段并获得所需性能。

1.4 灵活的图推理能力（Versatile graph reasoning capabilities）

图推理是处理图任务的常见方法，但具体任务没有明确共识。包括分析拓扑属性（规模、节点度、连通性），多跳邻域推理（灵活明确），处理全局属性和模式（节点中心性、位置、整体属性、动态图演化）。

2 图表示基础

2.1 图域和可迁移性

大语言模型（LLM）作为基础模型，可以适应广泛的下游任务，因为它们共享一个通用的表示基础。然而，图数据可能不总是最适合处理所有图数据的表示基础。人们普遍认为，存在更多高级或抽象的常见图模式，可以在特定领域内的不同图和任务之间共享。尽管有了这些高级共享知识，创建能够在不同图领域表现良好的有效大模型仍然具有挑战性。

2.2 与自然语言对齐

大模型具备与人类互动并遵循指令的能力，但人类处理图表能力较差。为使大模型行为符合人类期望，特别是在自然语言情况下，我们总结了三种值得探索的策略以实现自然语言与图模型的交互。第一种是通过对齐图和文本的表征空间，但数据收集更具挑战性。第二种是将图转化为自然语言，但可能会丢失图的内部结构。第三种是通过其它表征空间作为桥梁，例如设计合适的算法来解决图任务，并理解和控制图学习模型的运行状态。已有一些努力，称为算法推理（algorithmic reasoning），具有巨大潜力。

3 图数据

大模型的成功依赖于大规模高质量数据集，例如GPT-3在5000亿个token的语料库上预训练，而CLIP在4亿个图像文本对上训练。NLP和CV的大量数据来自公开的人类生成内容，如网页或社交媒体照片。大规模图形数据不易访问，通常有两种场景：大量小规模图和单个/几个大规模图。Open Graph Benchmark是最具代表性的图机器学习公共基准之一，包含两个大型图数据集，但规模远低于NLP或CV中使用的数据集。创建更专业的图学习基准可以进一步促进图大模型的进展。

以下为收集更多图数据时有用的原则：

领域多样性：为了使大图模型能够处理不同的图应用，将模型暴露给不同的兴趣领域至关重要，以便大图模型可以跨各个领域采用并作为图的基础模型。
类型多样性：图的类型丰富，包括同质和异质、同质和异质、静态和动态、有向和无向、带权和无权、有符号和无符号等。图类型的多样性对于赋能大图模型也很重要处理不同的下游图表。
统计多样性：图也有不同的统计数据，例如大小、密度、度分布等。应考虑这种多样性以确保大图模型的有效性。
任务多样性：图任务也各不相同，从节点级、边级到图级，从分类和预测等判别任务到图生成等生成任务。增加预训练或后处理阶段的任务多样性有助于开发和评估有效的大图模型。
模态多样性：图作为通用数据表示，还可以组合不同模态的数据，例如文本、图像和表格数据，这可以进一步丰富大图模型的实用性。

综上，图大模型的开发高度依赖高质量图数据，收集难度大且成本高。因此社区的全员协作可能是推动这一进程的关键因素。

4 图模型

4.1 网络架构

图神经网络（GNN）和Graph Transformer是两种最主流的图深度学习架构。GNN采用消息传递范式，已广泛研究，但模型容量有限。图Transformer扩展了Transformer，以适应图数据，最成功的例子是Graphormer，在OGB大规模挑战赛中排名第一。GNN和图Transformer之间的主要区别在于结构编码策略和自注意力机制。具体可以从以下4个方面进行对比：

聚合与注意力：GNN 采用消息传递函数来聚合来自相邻节点的信息，而图Transformer则使用自注意力来权衡相邻节点的贡献。
建模图结构：GNN 自然地将图结构作为归纳偏差纳入消息传递函数中，而图Transformer采用预处理策略（例如结构编码）来建模结构。
深度和过平滑：深度 GNN 可能会受到过平滑的影响，导致其判别能力下降。而图Transformer在未出现类似的问题。一种合理的解释是，图Transformer自适应地关注更相关的节点，使它们能够有效地过滤和捕获信息模式。
可扩展性和效率：GNN 以其相对简单的操作，可以为某些任务提供计算优势。相比之下，图Transformer中节点对的自注意力机制可能需要大量计算资源，尤其是对于大规模图数据。

GNN和图Transformer在图大模型中取得了显著进展，考虑到现有图数据集的规模，GNN仍然是一个强大的架构模型，但随着训练图数据集规模的不断增加，图Transformer可能会通过增加参数数量变得更加强大，并逐渐成为主流方法。

4.2 预训练

图预训练是NLP中一种在特定任务前训练模型的方法，目的是捕获数据中的一般模式或知识。它包括对比方法和预测/生成方法，利用图中结构和语义信息引入借口学习任务，训练模型学习节点、边缘或图级表示，无需依赖标签。图预训练被认为是图大模型的基本范例。

可以用“四-E”原则总结图预训练：

编码（Encoding）图结构：与文本和图像数据预训练方法不同，图包含丰富的结构信息。因此，预训练图大模型需要联合考虑不同图数据集上的结构和语义信息。
缓解（Easing）数据稀疏与标签缺乏：图大模型具有高容量，易过拟合，使用大规模图数据集和各类图任务进行预训练可提高泛化性。
扩展（Expanding）应用领域：预训练图大模型可迁移知识到不同领域，提高模型适用性。在不同图数据集上预训练以捕捉通用结构，然后将知识应用、适配或微调到相似领域，提升模型性能。
提升（Enhancing）鲁棒性与泛化性：预训练图大模型可提高其鲁棒性和泛化能力，使其适应不同大小、结构和复杂性的图数据，并应对未见过的图数据或新图任务。

4.3 后处理

LLMs需要后处理增强对下游任务的适应能力，代表性的后处理技术包括提示、高效参数微调、利用人类反馈的强化学习以及模型压缩。

提示最初用于指导语言模型生成下游任务内容。语言提示和上下文学习模板在LLMs中表现出显著效果，图形提示通过有限标签增强任务性能。GPPT和GraphPrompt将图任务统一为边缘预测，ProG采用元学习来学习不同任务的提示。

高效参数微调是一种仅优化部分模型参数的技术，有助于模型适应新任务而不遗忘预训练知识，同时保留一般能力和特定任务适应性。图高效参数微调近期受到关注，如AdapterGNN和G-Adapter，通过合并适配器调整GNN，减少可调整参数数量，保持精度。S2PGNN提出搜索架构修改以提高微调阶段的适应性。

模型压缩通过知识蒸馏、剪枝和量化等技术减少模型内存和计算需求，在资源受限环境中部署大模型时特别有价值。量化在LLMs中广受欢迎，训练后量化（PTQ）无需重新训练。SGQuant探索了图学习中的PTQ，提出了多粒度量化技术。其他方法如Degree-Quant、BiFeat、Tango、VQGraph、A2Q和AdaQP采用量化感知训练方案，在后处理阶段独立使用。

4.4 LLM作为图模型

最近的研究探索了利用LLMs解决图形任务的潜力。其基本思想是将图数据转换为自然语言表示，将图问题视为常规NLP问题。NLGraph评估了GPT-3和GPT-4等LLM在八个自然语言图推理任务的表现，发现法学硕士在处理更复杂的图形问题时困难，可能捕获虚假相关性。同时，GPT4Graph评估了LLM在十个不同任务中的图理解能力，揭示了LLM在图推理方面的局限性，强调增强结构理解能力。LLMtoGraph测试了GPT-3.5和GPT-4对各种图形任务的表现，并做出了一些有趣的观察。

Graph-LLM 通过两种策略研究了 LLM 在文本属性图中的利用，包括 LLM-as-Enhancers 和 LLM-as-Predictor。InstructGLM 引入了可扩展的提示，以描述 LLM 指令调整的图结构和特征。实验证明了采用 LLM 进行图机器学习的巨大潜力。

表 1总结了与 LLM 相关的不同模型的图模型（文末可获取原论文）