前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >ICLR 2023 | 大规模文本图训练框架GLEM

ICLR 2023 | 大规模文本图训练框架GLEM

原创
作者头像
一点人工一点智能
发布2023-01-30 19:36:59
1K0
发布2023-01-30 19:36:59
举报
文章被收录于专栏:一点人工一点智能

原文:ICLR 2023 | 大规模文本图训练框架GLEM

文本图是近期NLP领域非常重要的研究方向之一,通过将文本角度的语言模型和结构角度的图神经网络相结合的方式,在很多NLP任务上取得优异效果。

文本图模型的一个问题在于,需要端到端的训练语言模型和图网络,而语言模型往往计算量非常大,图学习又需要对邻居节点信息融合,这导致文本图的训练很困难。之前的解决方法要么把语言模型尺寸缩小,要么是减小对图中邻居节点采样比例,这些都会在一定程度上影响文本图模型效果。

ICLR 2023的一篇文章提出了一种新的文本图模型训练框架,采用了EM优化的方式融合语言模型和图学习,以文本分类任务为切入点,在多个数据集上取得了SOTA的效果。

图片
图片
  • 论文地址:https://arxiv.org/abs/2210.14709
  • 代码地址:https://github.com/andyjzhao/glem

01  GLEM整体框架

GLEM的整体框架如下图所示。本文以文本分类问题为例,给定文本图,文本图中每个节点对应一段文本描述,图中一部分节点有label,另一部分节点没有label,目标是对无label节点进行预测。

GLEM主要包括文本建模模型(LM)和图神经网络(GNN)两个部分,采用EM的方式训练文本图模型:在E-step,固定GNN训练LM,拟合有label节点和GNN预测的无label节点的伪标签;在M-step,固定LM训练GNN,GNN输入LM产出的节点文本表示,以LM输出的节点伪标签为目标进行训练。

图片
图片

02  GLEM的求解思路

GLEM想同时根据文本信息和图结构信息预测节点label,利用变分推断的思路寻找该优化问题的证据下界(ELBO):

图片
图片

这个优化问题可以通过EM的思路求解,在E-step优化q来最小化KL散度;在M-step优化p来最大化下面的pseudolikelihood:

图片
图片

这里面的q,指的是根据无label的文本信息来预测它们的label,而p是根据所有节点的文本信息以及图结构信息,预测所有节点的label。q对应的是利用LM结合节点的文本信息,预测每个节点的label;而pseudolikelihood中的p则对应GNN部分,利用节点文本信息、图结构信息、图中节点的伪标签,预测节点label。

理解了上面的推导过程和各个项的含义,就比较容易理解论文后续EM的设计原理了:

  • E-step:E-step部分,固定GNN训练LM,优化目标包括两项,第一项是使用有label节点训练LM模型,第二项是利用GNN的预测结果给所有无label节点附上伪标签,以此为目标训练LM。其中,第二项也可以看成是在让LM蒸馏GNN模型中通过图结构信息学到的知识。
  • M-step:M-step部分,固定LM训练GNN。使用LM产生的表示作为GNN的输入,拟合有label节点的真实label,以及无label节点使用LM产生的伪标签。其中后者也可以理解为让GNN蒸馏LM中学到的文本信息知识。

03  实验结果

文中主要实验结果如下,在3个数据集中,对比了不同GNN模型、不同文本输入等效果。对于LM模型,其中LM-Ft代表语言模型finetune效果,可以看到文本信息非常重要;而引入GLEM的图学习部分,带来效果的进一步提升。对于GNN模型,使用静态的特征(X系列)效果不如使用GLEM动态更新的embedding效果好。

图片
图片

04  总结

本文介绍了ICLR 2023录取的GLEM,是一个针对大规模文本图的训练框架,利用EM的思路进行图学习和语言模型迭代训练,解决了端到端训练的效率问题。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 01  GLEM整体框架
  • 02  GLEM的求解思路
  • 03  实验结果
  • 04  总结
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档