前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >图自监督学习综述

图自监督学习综述

作者头像
DrugAI
修改2021-03-18 18:23:03
1.2K0
修改2021-03-18 18:23:03
举报
文章被收录于专栏:DrugAIDrugAI

1

研究背景

近年来,由于图结构数据的普遍存在,基于图的深度学习在人工智能领域引越来越受到研究者的关注和重视。然而,大多数关于图的深度学习工作都专注于(半)监督学习场景,在这种场景中,模型是基于人工标注信息从而进行下游任务训练。尽管(半)监督图学习取得了成功,但由于严重依赖这些标签信息,它仍然存在一些缺点:获取ground-truth标签的成本过高,过度拟合导致泛化能力较差,以及在标签相关的对抗攻击下鲁棒性较弱。

自我监督学习(SSL)是解决(半)监督学习不足的有前景的的学习范式。SSL通过训练模型来优化精心设计的辅助任务,其可以帮助模型从未标记的数据中学习更广义的表示,从而在下游任务中实现更好的性能和泛化。

将SSL应用于图域具有重要的意义,也具有重要的潜力和研究前景。首先,大多数图学习的工作过分强调标签的作用,而忽略了底层丰富的结构和贡献信息,而设计各种SSL辅助任务有助于缓解这种情况。此外,图标签信息的收集成本较高,这阻止了大多数现有的方法应用于现实世界的数据。相比之下,SSL减少了对人工标签的依赖。此外,图域在非欧几里得空间中具有更为普遍和复杂的数据结构,因此比CV/NLP域更适合构建各种SSL前置任务来获取监督信号。

与现有的SSL综述相比,本文的工作纯粹关注图域的SSL,并根据图的特征给出了更科学和详细的分类。此外,本文为这一方向提出了新的挑战,为图学习和自监督学习开辟了新的方向。

2

主要贡献

(1) 对图上与SSL相关的概念提供了统一的问题公式和清晰的定义。

(2) 根据辅助任务的设计对现有的基于图的 SSL工作提供了一个及时的综述和系统分类。

(3) 指出了当前研究的技术局限性,并为未来的工作提供了良好的方向。

3

相关概念

通常来说,对于非属性图来说,其可表示为其中为节点集合,为边的集合,图的边集合 ,图的拓扑结构表示为邻接矩阵,其中表示节点和之间存在链路,否则。属性图与非属性图是相反的概念,它是指节点和边与它们自己的特征(即属性)相关联的图。具体来说,节点和边的特征矩阵分别表示为和。在比较常见的场景中,只有节点具有特征,因此本文用来简称节点特征矩阵。时空图是一种特殊类型的属性图,可以看作是具有不同时间步长的动态特征的属性图。具体来说,在每个时间步长t, 动态特征矩阵记为。除了特征之外,节点和边的类型是分类法的另一个维度。对于具有多种节点或边类型的图,本文称其为异构图,否则,它是同构图。异质图也有一些特殊的类型: 二部图是具有两种节点和一种边的异质图,而复图是具有一种节点和多种边的异质图。本文还简单介绍了图神经网络模型,其广泛应用于图形分析任务。

3.1 下游任务类型

本文将下游任务分为节点级别,链接级别和图级别任务。神经网络通常充当编码器以生成将输入图嵌入到每个任务中。然后,将嵌入输入到输出端中以执行特定的下游任务。

(1)节点级别任务:主要针对图中节点的属性,因此节点表示对于这些任务是必不可少的。比如,节点分类是典型的节点级别任务,其中每个节点都有一个标签,给定要训练的部分节点的标签,目标是预测其余节点的标签。节点分类的典型输出端是将节点嵌入作为输入的多分类器

(2)链接级别任务:通常是推断出边的属性,并且节点(成对)的表示是主要重点。以链路预测为例,给定两个节点,目标是区分它们之间是否存在连接(即边缘)。输出端可以是以其中两个节点的嵌入作为输入二进制分类器。

(3)图级别任务:从数据集中的多个图形中学习并预测单个图形的属性。因此这些任务通常依赖于图形的表示。例如,在图分类任务中,每个图都有其标签,目标是训练模型以预测输入图的标签。一个通用的解决方案是聚合节点,并通过读取的方法聚合节点嵌入到图嵌入中,并将图嵌入到分类器中

3.2 自监督训练范式

(1)预训练微调(PF&FT)

PT&FT方法首先用辅助任务对编码器进行预训练,其可以看作是掉编码器参数的初始化。之后,通过共享编码器的参数对下游任务进行训练。

(2)联合学习(JL)

JL 方法共同训练辅助任务和下游任务,并通过特定的方法对两者的损失函数进行融合。这种方法可以看作是一种多任务学习方法,也可以认为辅助任务是作为下游任务的一个正则化手段。

(3)无监督表示学习(URL)

URL 方法与预训练方式的训练方法相同,唯一不同的是其固定了由预训练任务得到的参数,将其作为任务的固定表示。与其他类型的方法相比,URL 方法缺乏监督信息,因而难度较大。

4

图自监督学习方法

本文根据设计前置任务的动机将现有模型分为四类,其结构图在figure 2中给出,其简要摘要见Table 1。

4.1 Masked Feature Regression(MFR)

这个分类主要是由计算机视觉中的图像修复所产生的,其目的是填充图像的蒙版像素。对于待输出图数据,节点特征或者边通常使用 0 或者特定符号作为掩码,使用GNN 将带有掩码的特征数据来恢复原始数据,以此训练模型的泛化能力。

4.2 Auxiliary Property Prediction(APP)

与 MFR 相似,基于辅助属性的预测方法进一步探索了底层的图结构信息和属性信息,其包含基于回归和分类的方法。

4.2.1 基于回归的方法(R-APP)

R-APP主要在于预测内部的其他广泛的数值结构和属性图。为了利用固有的图结构来提取丰富的自我监督信号,有学者考虑预测一些具有代表性的节点属性,例如作为节点度,以形成本地结构感知的前置任务,与特定节点的属性不同,全局结构信息也不会被忽略。还有学者预测图中未标记的节点和预定义的群集的距离,其节点表示在训练中对全局定位更加敏感。

4.2.2 基于分类的方法(C-APP)

与R-APP相比,基于分类的方法通常依赖于构造伪标签来促进模型训练。比如,有学者提出M3S,其迭代训练编码器,并在每个训练阶段为那些未标记的节点分配伪标签。除了基于特征的聚类之外,还可以引入图分区的结构感知任务,其根据固有的拓扑结构(其中跨子集的连接最小)对节点进行分组。与基于聚类的方法不同,图属性预测是另一种有希望提供额外自我监督的方法。

4.3 Same-Scale Contrasting(SSC)

与前面提到的两种基于单个元素(如单个节点)构建任务的方法不同,对比学习方法通过预测图中两个元素之间的一致性以优化模型,具体来说,就是语义信息相似的样本之间的一致性。最大限度地提高语义关系(表示为正的一对),而那些不相关的语义信息(表示为负的一对)被最小化。在这里,进一步将SSC方法根据其对正/负对的定义分为两类。

4.3.1 基于上下文的方法(C-SSC)

C-SSC方法的主要思想是在嵌入空间中将上下文节点表示相近。上下文节点在图结构中通常在空间中相邻。这种定义背后的直觉是同质性假设,即图中具有相似语义信息的实体可能相互连接。

4.3.2 基于增强的方法(A-SSC)

A-SSC 方法对原始数据样本进行数据增强,并将来自同一原始样本的两个增广例视为正对,而来自不同原始样本的两个增广例为负对。这些方法的内在对比机制是基于互信息(MI)估计的。对于A-SSC来说,数据增强的定义是最重要的因素。

4.4 Cross-Scale Contrasting(CSC)

与SSC方法不同,这类方法通过对比图数据的不同尺度中的元素来学习表示,例如,节点-子图和节点-图对比。通常采用读出函数来获取一个图/子图的摘要。与A-SSC类似,这些方法大多固有MI最大化的思想。

4.5 Hybrid Self-supervised Learning

有些方法不是使用单一的任务,而是将不同类型的前置任务组合成多任务学习方式,以更好地发挥它们的优势。我们把这些方法称为混合自我监督学习。

5

挑战和未来方向

(1)图SSL的理论基础

尽管SSL在各个领域都取得了巨大的成功,但仍然缺乏理论基础。现有的方法大多是凭直觉设计的,并通过实验对其性能增益进行评价。迫切需要为图SSL建立坚实的理论基础。它有望弥合经验SSL与一系列图理论之间的鸿沟,包括图信号处理和谱图理论。

(2)图对比学习的增强

在视觉对比学习的最新突破中,数据增强对于在对比学习过程中保持表示不变性至关重要。由于图结构化数据的性质(例如,复杂和非欧几里得结构),图上的数据增强方案不经常被探索,从而影响了基于图增强的方法的有效性。现有的大多数图扩充都考虑考虑一致变换节点特征,下降边缘或其他替代方式。未来通过挖掘丰富的底层结构信息和属性信息,自适应地进行图增强或联合考虑更强的增强样本可能是有前途的方法。

(3)复杂类型图的前置任务

如表1所示,当前的大部分工作都集中在用于属性图的SSL上,很少关注复杂图类型,例如异构或时空图。主要的挑战是,前置任务设计需要特定图数据类型的领域知识。未来的一个机会是为复杂的图数据生成各种SSL任务,其中特定的数据特征是主要关注的焦点。此外,将SSL扩展到更普遍的图类型(例如,动态图或超图)也是一个有前途的方向。

6

总结

这项工作中,作者提出了一个关于在图结构数据上的自我监督学习主题的调查。首先详尽地介绍了相关的初步定义,回顾了近年来的研究成果,并对其进行了系统的分类。更重要的是,作者深入研究课题,揭示关键的挑战,并分析未来可能的方向。图形SSL具有广泛的应用潜力,将成为一个活跃和有前途的研究领域。

参考资料

引文链接:https://arxiv.org/abs/2103.00111

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-03-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
图数据库 KonisGraph
图数据库 KonisGraph(TencentDB for KonisGraph)是一种云端图数据库服务,基于腾讯在海量图数据上的实践经验,提供一站式海量图数据存储、管理、实时查询、计算、可视化分析能力;KonisGraph 支持属性图模型和 TinkerPop Gremlin 查询语言,能够帮助用户快速完成对图数据的建模、查询和可视化分析。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档