ICLR 2023 | 大规模文本图训练框架GLEM

原创

一点人工一点智能

发布于 2023-01-30 19:36:59

1K0

发布于 2023-01-30 19:36:59

文章被收录于专栏：一点人工一点智能

原文：ICLR 2023 | 大规模文本图训练框架GLEM

文本图是近期NLP领域非常重要的研究方向之一，通过将文本角度的语言模型和结构角度的图神经网络相结合的方式，在很多NLP任务上取得优异效果。

文本图模型的一个问题在于，需要端到端的训练语言模型和图网络，而语言模型往往计算量非常大，图学习又需要对邻居节点信息融合，这导致文本图的训练很困难。之前的解决方法要么把语言模型尺寸缩小，要么是减小对图中邻居节点采样比例，这些都会在一定程度上影响文本图模型效果。

ICLR 2023的一篇文章提出了一种新的文本图模型训练框架，采用了EM优化的方式融合语言模型和图学习，以文本分类任务为切入点，在多个数据集上取得了SOTA的效果。

论文地址：https://arxiv.org/abs/2210.14709
代码地址：https://github.com/andyjzhao/glem

01 GLEM整体框架

GLEM的整体框架如下图所示。本文以文本分类问题为例，给定文本图，文本图中每个节点对应一段文本描述，图中一部分节点有label，另一部分节点没有label，目标是对无label节点进行预测。

GLEM主要包括文本建模模型（LM）和图神经网络（GNN）两个部分，采用EM的方式训练文本图模型：在E-step，固定GNN训练LM，拟合有label节点和GNN预测的无label节点的伪标签；在M-step，固定LM训练GNN，GNN输入LM产出的节点文本表示，以LM输出的节点伪标签为目标进行训练。

02 GLEM的求解思路

GLEM想同时根据文本信息和图结构信息预测节点label，利用变分推断的思路寻找该优化问题的证据下界（ELBO）：

这个优化问题可以通过EM的思路求解，在E-step优化q来最小化KL散度；在M-step优化p来最大化下面的pseudolikelihood：

这里面的q，指的是根据无label的文本信息来预测它们的label，而p是根据所有节点的文本信息以及图结构信息，预测所有节点的label。q对应的是利用LM结合节点的文本信息，预测每个节点的label；而pseudolikelihood中的p则对应GNN部分，利用节点文本信息、图结构信息、图中节点的伪标签，预测节点label。

理解了上面的推导过程和各个项的含义，就比较容易理解论文后续EM的设计原理了：

E-step：E-step部分，固定GNN训练LM，优化目标包括两项，第一项是使用有label节点训练LM模型，第二项是利用GNN的预测结果给所有无label节点附上伪标签，以此为目标训练LM。其中，第二项也可以看成是在让LM蒸馏GNN模型中通过图结构信息学到的知识。
M-step：M-step部分，固定LM训练GNN。使用LM产生的表示作为GNN的输入，拟合有label节点的真实label，以及无label节点使用LM产生的伪标签。其中后者也可以理解为让GNN蒸馏LM中学到的文本信息知识。

03 实验结果

文中主要实验结果如下，在3个数据集中，对比了不同GNN模型、不同文本输入等效果。对于LM模型，其中LM-Ft代表语言模型finetune效果，可以看到文本信息非常重要；而引入GLEM的图学习部分，带来效果的进一步提升。对于GNN模型，使用静态的特征（X系列）效果不如使用GLEM动态更新的embedding效果好。