图神经网络2-图表征学习

原创

皮大大

发布于 2023-11-23 23:10:04

2930

发布于 2023-11-23 23:10:04

公众号：尤而小屋作者：Peter 编辑：Peter

图表征学习（Graph Representation Learning，也称之为图表示学习）是专门针对图数据域的技术，旨在将图结构中的节点转化为具有连续数值的向量表示，以便在这些表示上进行进一步的机器学习任务，如分类、聚类、链接预测等。

图表示学习通常用于处理各种复杂的关系数据，如社交网络、知识图谱、蛋白质相互作用网络、文本数据中的语义关系等。

图表征学习的目标是尽可能多地保留图的拓扑信息，将节点映射为向量表示。

主要分为基于图结构的表示学习和基于图特征的表示学习。

许多复杂的系统具有图的形式，比如：

传统上，通常将一个图表征为$G=(V,E)$，其中V为节点集合，E为边集合。传统的图表征在图的处理和分析上面临的挑战：

图表征学习的两个目标：

基于表征进行下游任务：节点分类、节点聚类、图的可视化和链接预测。

下面介绍3大图表征学习方法：

图嵌入的2个目标：重建原始图结构和支持图推理。传统图嵌入方法最初是作为降维技术进行研究的：

对图距离矩阵使用多维尺度变换（Multi-Dimensional Scaling , MDS），基于Isomap学习的表征近似地保留了低维空间中节点之间的距离。
局部线性嵌入（Locally Linear Embedding, LLE）：将高维数据映射到低维空间中，同时保持数据的局部几何结构不变。LLE的基本思想是通过保持每个数据点与其最近邻之间的线性关系来描述数据的局部几何结构。
拉普拉斯映射（Laplacian Eigenmap, LE）：基于拉普拉斯矩阵的正则化来得到节点的表征
局部保留投影（Locality Preserving Projection, LPP）：它通过构建空间中各样本对之间的远近亲疏关系，并在投影中保持这种关系，在降维的同时保留空间中样本的局部邻域结构；是针对非线性LE的线性近似算法。

现代图嵌入分为3类：

常用的模型：矩阵分解、随机行走、深度神经网络及其变体等

图的结构和属性是在很大程度上影响图推理的两个重要因素。图结构包含一阶结构和高阶结构（二阶结构和群落结构）。

（1）保留图结构的图表征学习

图结构：邻域结构、高阶接近度和群落结构

随机游走DeepWalk：采用随机行走来捕捉邻域结构（类比NLP的Skip-Gram模型）
Node2Vec：定义节点图邻域概念，采用二阶随机行走策略来对邻域节点进行抽样；在广度优先抽样（Breadth-First Sampling, BFS）和深度优先抽样（Depth-First Sampling, DFS）之间平稳插值
LINE（LINE: Large-scale Information Network Embedding）：是一种基于局部相似性的目标传播（Locally Linear Embedding）方法，可保留一阶接近度和二阶接近度。LINE采用的是BFS策略

前面的3者都是属于浅层网络，很难捕捉到高度非线性的图结构，因此会得到次优的Embedding结果。

SDNE（Structural Deep Network Embedding）：是一种使用多个非线性层嵌入的深度模型，其可以捕捉高度非线性的网络结构。采用拉普拉斯特征映射LE的思想保留一阶接近度
M-NMF：模块化非负矩阵因子化模型

（2）保留图属性的图表征学习

重点：保留所有类型图的传递性和有符号图的结构平衡性

侧面信息可以分为两类：

（1）带有节点内容的图表征学习

MMDW（Matrix Factorization with DeepWalk）：一种半监督的图嵌入算法。基于DeepWalk衍生的矩阵分解方法 + SVM算法 + 标签信息来寻找最佳边界
TADW（Text Attributed DeepWalk）：将节点和节点属性融合在一起。TADW首先证明DeepWalk方法其实就是矩阵分解方法的等价形式，然后将其等价的矩阵分解模型进行扩展，使其支持对属性信息的嵌入。

（2）异质图表征学习

异质图由不同类型的节点和边组成。