本文发表在ICLR2021,将文本转化成图,从图的角度对NLP结果进行解释。
图数据的天然优势是为学习算法提供了丰富的结构化信息,节点之间邻接关系的设计成为了重要的先验信息和交互约束。然而,有一部分边上的消息是可以忽略的,论文首先提出方法在不影响模型预测效果的情况下,将图结构中冗余的边drop掉。通过分析剩余边上具有怎样的先验知识,实现对GNN的预测过程加以解释。
1.应用现状
近年来,图神经网络(GNNs)成为了一种可扩展和高性能的方法,能够将语言信息和其他结构偏置整合到NLP模型中。GNN 能够用于文本数据的表示,例如:语法和语义图、共指结构、知识库与文本链接等。也能够用在多种NLP任务中,例如:关系抽取,问题回答,语义语法解析,文本摘要,机器翻译,社交网络中的滥用语言检测等。
2.应用瓶颈——在NLP任务中的可解释性
虽然 GNN 性能较好,但模型还是相对复杂的,很难理解模型预测背后的“原因”。对于NLP从业者来说,知道给定的模型编码了哪些语言信息以及编码是如何发生的是非常重要的,GNN 可解释性差是实现这种分析的障碍。此外,这种不透明性降低了用户的信任,阻碍了有害偏置的发现,并使错误分析复杂化;在这篇论文中,着重于对 GNN 的事后分析,并对解释GNN的方法制定了以下要求:
1.定义
执行解释的一个简单方法是使用擦除搜索[1],这是一种归因的方法,在不影响模型预测的情况下,查找到可以被完全删除的最大特征子集。删除意味着模型丢弃的所有特征信息都能够被忽略。
2.擦除搜索应用于GNN
对于GNN 而言,擦除搜索需要找到可以完全丢弃的最大子图。对于上面提到的三点需求,擦除搜索只能满足(1)和(3),在易处理性上失败了。在实际场景中是不可行的,一次只删除一个特征的花销非常大,并且由于饱和性会低估特征的贡献;此外,在擦除搜索中,优化是针对每个例子单独进行的。由于使用另一个可选择的较小子图也可以做出类似的预测,即使是非冗余的边也会被积极地修剪,这可能会导致过拟合,作者将这个问题称为事后偏差(hindsight bias)。
约束优化过程
只有本文提出的方法的 amortized 版本近似复制了黄金标准,事实上,擦除搜索、GNNExplainer 和 non-amortized 的GRAPHMASK只召回了一小部分非冗余边。
图2 可视化每种方法的分数分配情况
擦除搜索、GNNExplainer 和 non-amortized 版本 GRAPHMASK 只保留一条黑色边,造成过拟合。集成梯度和信息瓶颈方法给出了不满意的结果,因为所有边边都有属性。只有amortized -GRAPHMASK能够正确地将属性分配给且仅分配给黑色和蓝色边,amortized 可以防止目标过拟合。
任务描述 给定一个查询句和一组上下文文档,在上下文中找到最能回答查询的实体。GNN图中的节点对应于查询和上下文中实体的提及,并在这些实体之间引入了四种类型的边:字符串匹配(MATCH)、文档级共现(DOC-BASED)、核心参考解析(COREF),没有任何其他边(COMPLEMENT)。
GRAPHMASK复制了原始模型的性能,虽然准确度下降0.4%,但是仅有27%的边被保留,保留的边大部分存在于底层(底层的边比较重要)。作者测量了每一层保留边的百分比,这些边发生在源于查询实体的路径上。观察发现,发生在源于查询的提及的路径上的边的比例按层急剧增加,从0层的11.8%,到1层的42.7%,在顶层达到73.8%。与预测答案相对应的一些提及在99.7%的情况下是一些保留边的目标。然而,预测实体与查询连接的几率(72.1%)与平均候选实体的几率(69.2%)几乎相同。因此,GNN不仅负责通过图传播证据到预测答案,还负责传播证据到备选候选实体。大多数路径采取两种形式之一,即一条COMPLEMENT边之后是一条MATCH或一条DOC-BASED边(22%),或者一条COMPLEMENT边之后是两条MATCH或DOC-BASED边(52%)。
图3 QA任务中边的保留情况
查询 "record label Phi" 的保留子图(占原始边的21%)。黑色边类型是DOC-BASED,蓝色是COMPLEMENT,黄色是MATCH,其中边上的数字表示在哪一层保留了这种边。可以看到 Japan 和 Johnny & Associates 之间第2层中的 DOC-BASED 类型边的情况。事实上,在第0层、第1层和第2层中,分别有49%、98%和79%的保留边也保留了它们的逆向边。换句话说,提及之间 "不定向 "的信息交换,使得它的表征更加丰富。
图4 GNN+LSTM模型的语义角色标注的实例分析(丢弃冗余弧)
任务描述 基于GNN的语义角色标注系统,识别给定谓词的论元,并将它们分配到语义角色上,见图4中句子下面的标签。该 GNN 模型依赖于自动预测的句法依赖树,允许信息双向流动。作者针对[2]中性能最好的模型,包括BiLSTM+GNN,以及GNN-only 模型。对于LSTM+GNN,遮蔽模型的性能变化非常小,F1 仅下降0.62%,却只保留了其中4%的消息。GNN-only 模型的性能变化同样很小,F1 下降了 0.79%,保留了16%的消息。
LSTM+GNN 模型(左)和 GNN-only 模型(右)的预测中使用的路径百分比(纵坐标),横坐标是谓词和预测角色之间距离。
[2] 的原始研究结果表明,GNN对于预测远离谓词的角色特别有用,LSTM对于传播信息的可靠性较低。GNN可以实现这一目标的方式是使用图中的路径;要么依赖整个路径,要么部分依赖路径中的最后几条边。其中连接谓词和论元的路径代表语义角色标注任务的重要特征。为了研究这个问题,作者在图5中绘制了从谓词到预测论元的路径的百分比,从而保留了以预测论元为终点的子路径(即至少一条边),通过观察图5发现:
表3 两种模型保留0、1或2条边的路径百分比,按路径长度和谓词类型划分
通过观察表3发现:
论文介绍了GRAPHMASK,这是一种适用于任何GNN模型的事后解释方法。通过学习每条消息的端到端可微分的hard gates,并在训练数据上进行摊销,GRAPHMASK 可扩展到其它的GNN模型,并且能够识别边和路径如何影响预测。作者应用提出的方法分析了两个NLP模型的预测——语义角色标签模型和问题回答模型。GRAPHMASK发现了这些模型依赖于哪些类型的边,以及它们在进行预测时如何运用路径。