今天给大家介绍吉林大学计算机科学与技术学院杨博老师团队在ICLR2020的一篇论文,该研究针对MPNN现存的一些问题提出了一种新的图神经网络的几何聚合方式,其核心思想是:图上的聚合可以受益于图的连续空间,实验结果表明该研究具有显著效果。
1
背景
消息传递神经网络(MPNN),例如GNN,ChebNet,GG-NN,GCN等,对于基于图的学习具有强大的功能,应用范围从大脑网络到在线社交网络等领域。尽管现有的MPNN已成功应用于各种场景,但MPNN聚合器的两个基本弱点限制了它们表示图结构数据的能力:(1)丢失节点与其邻居节点的结构信息(这也是GCN存在的一个普遍性问题,很多学者都无法确定结构信息在图卷积中具体的作用到底是什么),现有的MPNN将邻域中的所有信息视为一个集合,而在进行聚合时会丢失节点的结构信息,如果不对此类结构信息进行建模,则现有的MPNN无法区分某些非同构图;(2)无法在异配图中捕获节点的大范围依赖关系,MPNN仅汇总来自附近节点的消息。具有这种聚合的MPNN倾向于学习图中近端节点的相似表示。这意味着它们可能是节点同形成立的分类,但可能不适用于其中节点同形不成立的分解图。例如一个分解图,其中相同类别的节点显示出很高的结构相似性但彼此相距很远。在这种情况下,MPNN的表示能力可能会受到很大限制,因为它们无法捕获来自遥远但信息量大的节点的重要特征。
作者针对以上两个缺点提出一种几何聚合方式(geometric aggregation scheme)来克服以上两个缺点。这种方式的核心思想在于图上的聚合可以受益于图的连续空间。与现有的MPNNs相比,这个结构抽取了Grpah中更多的结构信息,可以通过将原有的远节点映射为latent space中的相邻节点来传递信息。作者还提出了在GCN中执行该方案的实现方法,称为Geom-GCN,目的是在图上实现transductive learning(直推式学习)。作者分别在欧几里得(Euclidean)和双曲嵌入(hyperbolic embedded)空间中设计具有特定几何关系的结构邻域。针对具体应用,使用不同的embedding方法将graph映射到合适的latent space之中,并保留了合适的graph topology模型,实验证明Geom-GCN在很多数据集上达到了最先进的性能。
综上,该文章贡献是三方面的:i)针对图神经网络提出了一种新颖的几何聚合方案,该方案既可在图空间又可在潜空间工作,以克服上述两个缺点。ii)提出了一种用于图的跨语言学习的方案Geom-GCN的实现;iii)通过在几个具有挑战性的基准上与最新方法进行广泛的比较来验证和分析Geom-GCN。
2
模型(Geometric aggregation scheme)
如下图1-1所示,该scheme由三部分组成,其中node embedding是A1-A2, structural neighborhood是B1-B2,而bi-level aggregation是C。接下来分别介绍这个三个部分。
图1-1 Geometric aggregation scheme
(1)Node embedding: 属于基本功能模块,将nodes map映射到latent continuous space(隐连续空间),令G=(V,E),其中每个节点
都会有一个特征向量
,并且每个边
都连接两个节点。将graph中的节点映射到隐空间中,记做映射函数为
。在mapping的过程中,graph的结构和属性都保留下来了。
(2)Structural neighborhood: 基于图和隐空间,文章中构造了一个结构化的邻居,
,用来下一层聚合。其中
是节点集合,
是节点上的关系操作。
是
与直接相连的节点,
是隐空间中到中心节点小于给定距离的节点。
是一个定义在latent space上的函数,输入是有序对
,输出一个离散的变量
,表示空间中从节点
到
的集合关系,
其中
是几何关系的集合。
(3)Bi-level aggregation: 根据结构化的邻居
,提出了一个针对GNN的bi-level aggravation来更新节点的hidden features。bi-level aggravation包括两个聚合函数,这个函数既可以有效抽取邻居节点中的结构信息,也可以确保graph中的置换不变性。记
为l-th layer节点
的hidden feature,根据下面公式更新。
其中,Low-level aggregation p:聚合节点在某个关系
下的邻居的信息.这里用一个虚拟节点的概念来表示。High-level aggregation q:聚合节点
在多种关系
下的邻居的信息。Non-linear transform: 非线性变化。
3
如何克服两个缺点
为了克服第一个缺点,该方案通过利用隐空间中节点之间的几何关系,然后使用双层聚合有效地提取信息,从而对结构信息进行显式建模。通过映射到latent space来解决捕捉邻居节点的问题,通过bi-level aggregation来传递信息。对于第二个缺点,使用两种方法,(1)特征相似但是相距很远的节点可以在latent映射成临近节点,从而解决了长距离信息传递的问题,不过这对embedding方法提出了较高的要求,要求这些映射方法能够区分相似节点与不同节点。(2)结构信息使得中心节点能够区分不同的邻居节点。因而在whole graph来传递邻近节点的信息。
4
Gemo-GCN
这里是将上一节中提出的很抽象的Low-level aggregation p,和High-level aggregation q以及关系映射函数
给出具体的形式。关系映射函数
考虑了4种不同的位置关系。如下所示
Low-level aggregation p其实就是GCN中的平均操作。
High-level aggregation q本质就是拼接操作。
5
实验
该文章主要和GCN和GAT进行对比,数据集如下表4-1所示:
表4-1 Dataset
为了表示图的层次特征和同质性,使用了变量
,其中为gromov hyperbolicity,值越小,图的投影空间越双曲,图的层次性越强。
的定义方式如下:
网络同质性越强,
越大。实验方法对验证集采用超参数搜索方式,为了公平起见每种方法的搜索空间大小都是相同的。搜索参数包括隐藏单元数量,初始学习率,权重衰减和dropout。将Gemo-GCN,GCN和GAT的层数固定为2,使用Adam优化器,Gemo-GCN,GCN激活函数用ReLU函数,GAT激活函数用ELU函数。然后在10个随机分割的最终测试集上评估。对于所有的graph数据集,将每个类别的节点随机分为60%,20%,20%进行训练,验证和测试。
实验准确率如下表4-2所示(整体效果不错):
表4-2 Result
6
总结
文章解决了图上现有的消息传递神经网络的两个主要缺点,即判别结构的丢失和长期依赖。通过图嵌入将离散图映射到连续的几何空间,换言之,利用卷积原理:在有意义的空间上进行空间聚合,因此,该方法从图形的嵌入空间中提取或“恢复”了嵌入式空间丢失的信息。提出了一种通用的几何聚合方案,并用几种特定的Geom-GCN实现了该方案,并且实验证明了与最新技术相比具有明显的优势。在未来的工作中,我们将探索选择合适的嵌入方法,不仅取决于输入图,而且取决于目标应用程序,例如社交联系网络上的流行病动态预测。
参考资料
Geom-GCN: Geometric Graph Convolutional Networks . Hongbin Pei, Bingzhe Wei, Kevin Chen-Chuan Chang, Yu Lei, Bo Yang. 26 Sep 2019 (modified: 11 Mar 2020)
https://openreview.net/forum?id=S1e2agrFvS