前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >ACL2021 | 知识对比:基于外部知识的图神经虚假新闻检测

ACL2021 | 知识对比:基于外部知识的图神经虚假新闻检测

作者头像
zenRRan
发布2021-10-08 15:13:52
1.3K0
发布2021-10-08 15:13:52
举报

每天给你送来NLP技术干货!


论文解读者:北邮 GAMMA Lab 博士生 杨天持

题目: 知识对比:基于外部知识的图神经虚假新闻检测

会议: ACL 2021

论文代码:

https://github.com/BUPT-GAMMA/CompareNet_FakeNewsDetection

近年来,虚假新闻检测,旨在验证新闻文档是可信的还是伪造的,已越来越受到重视。大多数现有方法严重依赖新闻内容的语言和语义特征,未能有效利用外部知识,而外部知识很可能对确定新闻文档是否可信非常有帮助。在本文中,我们提出了一种名为 CompareNet 的新型端到端图神经模型,该模型通过实体将新闻与知识库 (KB) 进行比较以进行假新闻检测。考虑到假新闻检测与话题/主题相关,我们还整合了主题以丰富新闻的表示。具体地,我们首先为每个包含主题和实体的新闻构建一个有向异质文本图。基于该图,我们设计了一个异质图注意力网络,用于学习主题增强的新闻表示以及编码了新闻内容语义的基于上下文的实体表示。然后通过精心设计的实体对比网络(entity comparison network)将基于上下文的实体表示与相应的基于知识库的实体表示进行对比,以捕获新闻内容和知识库之间的一致性。最后,结合了实体对比特征的主题增强的新闻表示被输入到虚假新闻分类器中。两个基准数据集的实验结果表明,CompareNet 显著优于最先进的方法。

1 引言

随着互联网的快速发展,假新闻的生产、传播和消费的机会越来越大。这些主观故意的假新闻很可能会误导读者。假新闻还很容易误导舆论,从而引发严重的信任危机,扰乱社会秩序。众所周知,虚假新闻在2016年美国总统选举时,就产生了不良影响。因此,基于新闻文本的文本内容信息,设计开发有效的虚假新闻检测方法,以尽早发现虚假新闻非常重要。

一些现有的虚假新闻检测方法严重依赖各种手工的语言和语义特征来区分真假新闻。为避免这样的特征工程,一些深度神经网络的方法,如采用Bi-LSTM和卷积神经网络(CNN)等,相继被提出。然而,这些方法没有考虑到文档中的句子交互。表明可信新闻和虚假新闻通常会具有不同的句子交互模式,因此他们将新闻文档建模为一个句子完全图,并提出了一个用于假新闻检测的图注意力模型。尽管这些现有方法一定程度上是有效的,但它们仍然有未能充分利用外部知识库来帮助虚假新闻检测的不足。

维基百科等外部知识库包含大量高质量的结构化的主谓宾三元组和非结构化的实体描述,这可以作为检测虚假新闻的证据。如图1所示,关于“X光检查不能有效检测乳腺肿瘤”的新闻文档很可能被检测为虚假新闻,因为根据维基百科中的实体描述页面,“乳房X光检查”的目标正是为了尽早发现“乳腺癌”。因此[1]提出从真新闻和假新闻构建一个知识图谱,并应用TransE学习三元组分数,从而进行虚假新闻检测。然而,该方法的性能在很大程度上会受到所构建的知识图谱的影响。在本文中,为了充分利用外部知识,我们提出了一种新颖的端到端的图神经网络模型CompareNet,它以实体为桥梁将新闻与知识库直接进行对比,从而进行虚假新闻检测。在 CompareNet 中,我们还考虑使用主题来丰富新闻文档的表示以进一步提升检测效果,这是因为虚假新闻检测和主题高度相关。例如,“健康”主题的新闻文档更容易偏向于虚假,而“经济”主题的新闻文档则更容易偏向于可信。

具体地,我们首先为每个新闻文档构建一个有向异质文本图,其中包含句子、主题和实体作为节点。句子节点之间被双向全连接。而每个句子还与其最相关的主题节点双向相连。此外如果一个句子包含某个实体,则会建立一个从该句子节点到实体节点的单向链接。单向链接的目的是为了确保我们可以正确学得对新闻语义进行了编码的基于上下文的实体表示,并与此同时避免学习新闻表示的过程中,将真实知识库的实体信息直接引入到文档表示中,从而对检测产生误导的影响。基于该有向异质文本图,我们设计了一个异质图注意力网络来学习主题增强的新闻表示和基于上下文的实体表示。然后将学习到的基于上下文的实体表示与相应的基于知识库的实体表示进行对比,并使用精心设计的实体对比网络捕获新闻内容和外部知识库之间的语义一致性。最后,将主题增强的新闻表示和实体的对比特征结合起来进行最后的虚假新闻分类。

综上所述,我们的主要贡献包括:

  • 在本文中,我们提出了一种新颖的端到端的图神经模型CompareNet,它以实体作为桥梁,将新闻与外部知识直接进行对比从而进行虚假新闻检测。
  • 在 CompareNet 中也考虑了非常有效的主题信息。我们构建了一个包含了主题和实体的有向异质文本图,然后设计了异质图注意力网络来学习主题增强的新闻表示,最后一个新颖的实体对比网络用于将新闻与知识库进行对比。
  • 在两个基准数据集上的大量实验表明,我们的模型通过有效地结合外部知识和主题信息,在虚假新闻检测任务上明显优于最先进的模型。

[1] Content Based Fake News Detection Using Knowledge Graphs

2 方法

在本节中,我们将详细介绍所提出的虚假新闻检测模型 CompareNet,它直接将新闻与外部知识进行对以进行检测。如图2所示,我们还考虑了用主题丰富新闻的表示,因为虚假新闻检测通常是与主题高度相关的。具体来说,我们首先为每个包含主题和实体的新闻文档构建一个有向异质文本图,如上图所示。该文本图可以很好地捕捉句子、主题和实体之间的交互关系。基于该图,我们设计了一个异质图注意力网络来学习主题增强的新闻表示,以及对新闻文档语义进行编码的基于上下文的实体表示。为了充分利用外部知识库,我们将实体作为新闻文档和知识库之间的桥梁。因此我们使用一个精心设计的实体对比网络将基于上下文的实体表示与相应的基于知识库的实体表示进行对比。最后,将获得的实体对比特征与主题增强的新闻文档表示相拼接,最后用于虚假新闻检测。

2.1 有向异质文本图

对于每个新闻文档

d

,我们构建了一个包含主题和实体的有向异质文本图

\mathcal{G}=(\mathcal{V},\mathcal{E})

,如图2所示。图中共有三种节点:句子

S=\{s_1, s_2,\cdots, s_m\}

,主题

T=\{t_1, t_2,\cdots,t_ {K}\}

和实体

E=\{e_1,e_2,\cdots,e_n\}

,即

\mathcal{V}=S \cup T\cup E

。边集合

\mathcal{E}

表示句子、主题和实体之间的关系。构建图的细节描述如下。

我们首先将新闻文档拆分为一组句子。句子在图中彼此双向连接以建模每个句子与其他句子的交互。由于主题信息对于虚假新闻检测很重要,我们使用无监督的LDA模型从我们数据集中的所有文档的所有句子中挖掘潜在主题

T

。具体地,每个句子都被视为一个伪文档,并被分配到概率最大的前

P

相关主题。因此,每个句子也与它分配的前

P

个主题彼此双向连接,从而允许有用的主题信息在句子之间传播。请注意,我们还可以通过使用训练好的LDA推断新的新闻文档的主题来。我们识别文档

d

中的实体

E

,并使用实体链接工具 TAGME 将它们映射到维基百科。若一个句子

s

包含某个实体

e

,则建立一个从句子到实体

e

单向边,以便只允许从句子到实体的信息传播。这样,我们可以避免将真正的 实体知识直接集成到新闻表示中,而这可能会误导假新闻的检测。

2.2 异质图卷积

基于上述构建的有向异质文本图

\mathcal{G}

,我们设计了一个异质图注意力网络,用于学习新闻表示以及基于上下文的实体表示。它不仅考虑了不同类型的不同节点的权重,还考虑了异质图中的边方向。

形式化地,我们有具有不同特征空间的三种类型的节点

\mathcal{T}= \{\tau_1, \tau_2, \tau_3\}

:句子

S

、主题

T

和实体

E

。我们使用 LSTM 对句子

s=\{w_1, \cdots, w_m\}

进行编码,并得到它的向量表示

\mathbf{x}_s \in \mathbb{R}^M

。实体

e\in E

初始化为基于外部知识库学到的实体表示

\mathbf{e}_\text{KB} \in \mathbb{R}^M

(参见下节)。主题

t \in T

则用独热码

\mathbf{x}_t \in \mathbb{R}^K

初始化。

接下来,考虑图

\mathcal{G}=(\mathcal{V},\mathcal{E})

,其中

\mathcal{V}

\mathcal{E}

分别代表节点和边的集合。令

X \in \mathbb{R}^{|\mathcal{V}|\times M}

是一个矩阵,包含了所有节点的特征向量

\mathbf{x}_v \in \mathbb{R}^{M}

(其中每行

\mathbf{x}_v

是节点

v

的向量特征)。记

A

D

分别是邻接矩阵和度矩阵。则异质卷积层通过聚合相邻节点的特征

\mathbf{H}^{(l)}_{\tau}

来更新具有不同类型

\tau

的节点第(

l+1

) 层的表示

\mathbf{H}^{(l+1)}

。(初始地,

\mathbf{H}^{(0)}=X

):

\mathbf{H}^{(l+1)} = \sigma(\sum_{\tau \in \mathcal{T}} \mathcal{B}_{\tau} \cdot \mathbf{H}_{\tau}^{(l)} \cdot \mathbf{W}_{\tau}^{(l)} ) ,

其中

\sigma(\cdot)

表示激活函数。不同类型的节点有不同的变换矩阵

\mathbf{W}_{\tau}^{(l)}

,其中

\tau

是节点类型。变换矩阵

\mathbf{W}_{\tau}^{(l)}

考虑到了不同的特征空间并将它们投影到相同的隐式特征空间中。

\mathbf{\mathcal{B}}_{\tau} \in \mathbb{R}^{|\mathcal{V}|\times|\mathcal{V}_{\tau}|}

是注意力矩阵,每一行代表一个节点,列代表该节点类型为

\tau

的相邻节点。它的第

v

行第

v"

列中的元素

\beta_{vv"}

的计算如下:

\beta_{vv"} = \text{Softmax}_{v"}( \sigma (\mathbf{\nu}^T \cdot \alpha_{\tau}[ \mathbf{h}_{v} , \mathbf{h}_{v"} ])) ,

其中

\mathbf{\nu}

是注意力向量,

\alpha_{\tau}

是类型级别的注意力权重。

\mathbf{h}_v

\mathbf{h}_{v"}

分别是当前节点

v

及其相邻节点

v"

的表示。Softmax 函数用于在节点

v

的相邻节点之中进行归一化。

我们根据当前节点嵌入

\mathbf{h}_v

和类型嵌入

\mathbf{h}_{\tau} = \sum_{v"} \tilde{\mathbf{A}}_{vv"} \mathbf{h}_{v"}

来计算类型级注意力权重

\alpha_{\tau}

(其中类型嵌入为相邻的

\tau

类型节点嵌入的加权和

\mathbf{h}_{v"}

,加权矩阵

\tilde{\mathbf{A}} = {D}^{-\frac{1}{2}} (A+I) {D}^{-\frac{ 1}{2}}

是添加了自连接的归一化邻接矩阵,形式化如下所示:

\alpha_{\tau} = \text{Softmax}_{\tau} ( \sigma (\mathbf{\mu}_{\tau}^T \cdot [ \mathbf{h}_v ,\mathbf{h}_{\tau} ]) ) ,

其中

\mathbf{\mu}_{\tau}

\tau

类型的注意力向量。Softmax 函数将用于沿着类型进行归一化。

经过

L

层异质图卷积,我们最终可以得到所有节点(包括句子和实体)的聚合了邻域语义的表示。我们对句子们的表示

\mathbf{H}_s \in \mathbb{R}^N

使用最大池化以获得最终的主题增强的新闻文档嵌入表示

\mathbf{H}_d \in \mathbb{R}^{N}

。学得的对文档上下文语义进行了编码的实体表示将作为基于上下文的实体表示

\mathbf{e}_c \in \mathbb{R}^{N}

本文利用两个并行卷积神经网络(PCNN)作为新闻内容信息特征提取网络,定义标题的表示

\textbf{T} = [\textbf{w}_1,\textbf{w}_2,\cdots,\textbf{w}_m]^T

, 实体集的表示

\textbf{E} = [\textbf{e}1,\textbf{e}_2,\cdots,\textbf{e}_p]^T

,实体类型表示

\textbf{C} = [\textbf{c}_1,\textbf{c}_2,\cdots,\textbf{c}p]^T

\textbf{w}

,

\textbf{e}

\textbf{c}

分别是词

w

, 实体

e

, 实体类型

c

的表示。进一步定义概要层次初始表示

\textbf{P} = [\textbf{e}1,g(\textbf{c}_1),\textbf{e}_2,g(\textbf{c}_2),\cdots,\textbf{e}_p,g(\textbf{c}_p)]^T

,学习标题层次表示

\widehat{\textbf{T}}

和概要层次表示

\widehat{\textbf{P}}

,拼接经过MLP层最终得到一个新闻的特征表示

\mathbf{h}d

。*

\textbf{h}_d = f([\widehat{\textbf{T}};\widehat{\textbf{P}}]).

对于只包含id信息用户,则对其随机初始化得到用户初始特征表示

\mathbf{h}u

。由于这两种表示来自不同的语义空间,利用两个类型矩阵将

\mathbf{h}d

\mathbf{h}_u

映射到同一空间中。

2.3 实体对比网络

本小节将详细介绍提出的实体对比网络,该网络将学习到的基于上下文的实体嵌入

\mathbf{e}_c

与相应的基于知识库的实体嵌入

\mathbf{e}_\text{KB}

进行对比。基于下述假设我们认为这样的实体对比特征将可以提升虚假新闻检测的效果,即,从可信的新闻文档中学到的基于上下文的实体表示

\mathbf{e}_c

可以更好地与相应的基于知识库的实体表示

\mathbf{e}_\text{KB}

对齐;而对于虚假新闻,则相反。

2.4 基于知识库的实体表示

我们将首先介绍如何充分利用知识库(即维基百科)中的结构化的主谓宾三元组和非结构化的实体的文本描述,以学习基于知识库的实体表示

\mathbf{e }_\text{KB}

结构表示。我们可以应用广泛使用的知识图谱嵌入方法来获得结构化的实体嵌入表示。由于TransE 的简单性,这里我们采用 TransE从三元组中学习基于结构的实体表示

\mathbf{e}_s\in \mathbb{R}^{M}

。形式化,给定三元组

(h,r,t)

,TransE将关系

r

视为从头实体

h

到尾实体

t

的翻译向量

\mathbf{r}

,即

\mathbf{h}+\mathbf{r}=\mathbf{t}

文本表示。对于每个实体,我们将相应维基百科页面的第一段作为该实体的文本描述。然后我们使用LSTM 来学习对实体描述进行编码的基于文本的实体表示

\mathbf{e}_d \in \mathbb{R}^{M}

基于门控的整合。由于结构三元组和文本描述都为实体提供了有价值的信息,我们需要将这些信息整合到一个联合的表示中。特别地,由于我们有结构嵌入

\mathbf{e}_s

和文本嵌入

\mathbf{e}_d

,我们采用可学习的门控函数来整合这两个不同来源的实体嵌入。形式化地,

\mathbf{e}_\text{KB} = \mathbf{g}_e\odot \mathbf{e}_s+(\mathbf{1}-\mathbf{g}_e)\odot \mathbf{e}_d,

其中

\mathbf{g}_e \in \mathbb{R}^M

是一个门控向量(对应于实体

e

),用于对两个来源的信息之间做权衡,其元素的取值范围是

[0, 1]

\odot

表示对应元素乘法。门控向量

\mathbf{g}_e

意味着,对于

\mathbf{e}_s

\mathbf{e}_d

的每个维度,都将通过不同的权重进行相加。为了满足取值范围

[0, 1]

的约束,我们使用 Sigmoid 函数来计算门控向量

\mathbf{g}_e

\mathbf{g}_e=\sigma(\mathbf{{\tilde g}}_e) ,

其中

\mathbf{{\tilde g}_e} \in \mathbb{R}^M

是一个实值向量并在训练过程中进行学习。

在将两种类型的嵌入经过门控函数进行了融合后,我们获得了最终的基于知识库的实体嵌入

\mathbf{e}_\text{KB} \in \mathbb{R}^M

,它对三元组的结构信息和知识库中实体描述的文本信息进行了编码。

实体对比。然后我们在新闻文档和知识库之间,进行实体之间的对比,从而捕获新闻内容和知识库之间的语义一致性。我们计算每个基于上下文的实体表示

\mathbf{e}_c \in \mathbb{R}^{N}

与其对应的基于知识库的实体嵌入

\mathbf{e}_\text{KB} \in \mathbb{R}^M

之间的对比向量。

\mathbf{a}_i = f_\text{cmp} (\mathbf{e}_c, \mathbf{W}_e\cdot \mathbf{e}_\text{KB}) ,

其中

f_\text{cmp}(\cdot)

表示对比函数,

\mathbf{W}_e \in \mathbb{R}^{N\times M}

是一个变换矩阵。为了衡量嵌入之间的接近程度和相关程度,我们将此对比函数设计为:

f_\text{cmp} (x, y) = W_a [ x - y, x \odot y],

其中

W_a\in \mathbb{R}^{N \times 2N}

是变换矩阵,

\odot

是 hadamard积,即对应元素的乘积。最终输出的对比特征向量

\mathbf{C} \in \mathbb{R}^N

是通过在新闻文档中的所有实体的对比向量

\mathbf{A}=[\mathbf{a}_1,\mathbf{a}_2,...,\mathbf{a}_n]
E=\{e_1,e_2,...,e_n\}

上使用最大池化获得的。

2.5 模型训练

在获得对比向量

\mathbf{C} \in \mathbb{R}^N

和最终的新闻文档表示向量

\mathbf{H}_d \in \mathbb{R}^N

后,我们将它们拼接起来并输入到 Softmax分类层中。形式化地,

Z = \text{Softmax}(\mathbf{W}_o [\mathbf{H}_d,\mathbf{C}] + \mathbf{b}_o),

其中

\mathbf{W}_o

\mathbf{b}_o

是线性变换的参数矩阵和偏置向量。在模型训练中,我们使用参数的 L2正则以及训练数据上的交叉熵损失:

{\mathcal{L}} = - \sum_{i \in {D_\text{train}}} \sum_{j=1} {Y}_{ij} \cdot \text{log} \, Z_{ij} + \eta \, \| \Theta \|_2 ,

其中

{D_\text{train}}

是新闻文档的训练集,

{Y}

是对应的标签指标矩阵,

\Theta

是模型参数,

\eta

是正则化因子。我们采用梯度下降算法优化模型。

最后,对用户与新闻的表示分别再增加一层全连接层,通过点积形式计算候选新闻的点击概率

\hat{s}\langle u,d \rangle

点击预测的loss函数为:

\mathcal{L}_{1}= -[y_{u,d}\ln(\hat{y}_{u,d})+(1-y_{u,d})\ln(1-\hat{y}_{u,d})]

偏好正则器项的loss函数为:

\mathcal{L}_{2}=-\frac{1}{K}\sum_{k=1}^{K}\sum_{i\in\{u,d\}}\ln{P(k|\textbf{z}_{i,k})}

总的训练loss可以写成:

\mathcal{L}=\sum_{(u,d)\in\mathcal{T}_{\text{train}}}((1-\lambda)\mathcal{L}_{1}+ \lambda\mathcal{L}_{2})+ \eta\|\Theta\|

3 实验

这里介绍两个主要的实验。

3.1 主实验

表2 报告了二路分类的实验效果。由于 micro Precision

=

Recall

=

F1,这里我们只报告了 micro F1。正如我们所看到的,我们提出的模型 CompareNet 在所有指标上都明显优于所有最先进的基线方法。与最佳基线模型相比,CompareNet将 micro F1 和 macro F1 提高了近 3%。我们还发现,基于图神经网络的模型 GCN 和 GAT 都比包括 CNN、LSTM 和 BERT在内的序列深度神经模型表现得更好。原因是这些序列深度神经模型不能考虑句子之间的交互,而这对于虚假新闻检测非常重要,因为在真假新闻中观察到的交互模式是不同的。我们的模型CompareNet通过有效利用主题以及外部知识库进一步提升了虚假新闻检测。这些主题丰富了新闻表示,而外部知识库为虚假新闻检测提供了证据。

表3展示了四路分类的结果。一致地,可以捕获句子交互的图神经模型都优于深度神经模型。而我们的模型CompareNet 在所有指标上都实现了最佳性能。我们相信这是由于我们的模型CompareNet 受益于主题和外部知识。

3.2 消融实验

在本小节中,我们实验研究 CompareNet 中每个模块以及我们整合外部知识的方式的有效性。我们在LUN-test上运行5次并报告平均性能。如表4所示,我们测试了CompareNet在去除了结构化三元组、去除了整个外部知识、去除了主题以及同时去除主题和外部知识时的性能。在最后两行中,我们进一步测试了所构建的有向异质文本图和设计的实体对比函数。变体 CompareNet(无向)不考虑有向异质文本图中边的方向。变体模型 CompareNet(concatenate) 使用简单的拼接代替了实体对比函数。正如我们从表 4 中看到的那样,移除了结构化实体知识(即w/o Structured Triplets)会导致轻微的性能下降。但如果我们移除了整个外部知识(即,w/o Entity Cmp),则在 micro F1 和 macro F1 上的性能分别下降约 1.3% 和1.8%。移除主题(即w/o topics)会比较影响性能,这表明主题信息与外部知识一样重要。删除主题和外部知识(即 w/o Both)将导致性能大幅下降(4.0-5.0%)。这展示了主题和外部知识的重要性。变体模型CompareNet(undirected)虽然结合了主题和外部知识,但其性能低于 CompareNet w/o Entity Cmp 和 CompareNet w/o Topics。原因可能是 CompareNet(undirected) 直接将真正的实体知识聚合到图卷积中的新闻表示中了,因为它并没有考虑到边的方向,从而误导了分类器区分真假新闻。这验证了我们构建的有向异质文本图的必要性。最后一个变体 CompareNet(concatenate)的性能也低于 CompareNet w/o Entity Cmp,进一步表明直接拼接 真正的 实体知识并不是引入实体知识的好方法。与CompareNet 相比,它的性能下降了大约 2.0%。这些证明了在 CompareNet 中精心设计的实体对比网络的有效性。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-09-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 深度学习自然语言处理 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1 引言
  • 2 方法
    • 2.1 有向异质文本图
      • 2.2 异质图卷积
        • 2.3 实体对比网络
          • 2.4 基于知识库的实体表示
            • 2.5 模型训练
              • 在获得对比向量
                • 最后,对用户与新闻的表示分别再增加一层全连接层,通过点积形式计算候选新闻的点击概率
                • 3 实验
                  • 3.1 主实验
                    • 3.2 消融实验
                    相关产品与服务
                    灰盒安全测试
                    腾讯知识图谱(Tencent Knowledge Graph,TKG)是一个集成图数据库、图计算引擎和图可视化分析的一站式平台。支持抽取和融合异构数据,支持千亿级节点关系的存储和计算,支持规则匹配、机器学习、图嵌入等图数据挖掘算法,拥有丰富的图数据渲染和展现的可视化方案。
                    领券
                    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档