FLAT：基于 Flat-Lattice Transformer 的中文 NER 模型

口仆

发布于 2021-12-17 20:33:22

2.8K0

本文是 「FLAT: Chinese NER Using Flat-Lattice Transformer」 一文的学习笔记。

「摘要」：综合利用字符与词语信息的 Lattice 结构被证明对于中文的命名实体识别具有较好的效果，然而，由于 Lattice 结构较为灵活复杂，大部分现有的基于 Lattice 的模型很难完全利用 GPU 的并行计算能力，导致推理速度较慢。本论文提出了面向中文 NER 的 FLAT（「F」lat-「LA」ttice 「T」ransformer），其将 Lattice 结构转化为一个由片段（span）构成的平面（flat）结构，每个片段对应一个字符或潜在的词语，以及其在原始 Lattice 中的位置。得益于 Transformer 的能力以及精心设计的位置编码，FLAT 能够在充分利用 Lattice 信息的同时保持极佳的并行化能力。基于四个数据集的实验表明 FLAT 在模型表现与运行效率上要优于其他基于词汇的模型。

1 背景

「命名实体识别」（Named entity recognition，NER）在很多 NLP 下游任务中扮演着重要角色，与英文 NER 相比，中文 NER 往往更加困难，因为其涉及到词语的切分（分词）。「Lattice 结构」被证明能够更好地利用词语信息，避免分词中的错误传播。

如下图 (a) 所示，我们可以通过词表来得到一个句子中的潜在词语，形成一张有向无环图，其中每个节点表示一个字符或是一个潜在词语。Lattice 包括了一个由句子中的字符与潜在词语组成的序列，其并不完全依序排列，词语的首尾字符决定了其的位置（会与字符平行）。Lattice 中的部分词语对于 NER 来说相当重要，以下图为例，「人和药店」一词可以用来区分地理实体「重庆」与组织实体「重庆人」。

目前，利用 Lattice 结构进行 NER 的模型发展方向大致可以分为两类：

设计一个与 Lattice 输入兼容的模型，例如 「lattice LSTM」 与 「LR-CNN」。其中 lattice LSTM 利用一个额外的词语单元来编码潜在词语，并使用 attention 机制来融合每个位置的变数节点，如上图 (b) 所示；LR-CNN 则利用 CNN 来通过不同的窗口大小编码潜在词语。总的来看，RNN 和 CNN 都难以对长距离的依赖进行建模（长距离依赖对于NER 的指代等关系很有用），同时由于动态 Lattice 结构的复杂性，这些方法不能完全地利用 GPU 的并行计算能力。
将 Lattice 转化为图，使用图神经网络进行编码，例如 「Lexicon-based Graph Network」（LGN）与 「Collaborative Graph Network」（CGN）。由于图结构并不能完全消除 NER 对序列结构的依赖性，这些方法需要使用 LSTM 作为底层编码器，从而增加了模型的复杂性。

本论文针对当前相关模型的局限性，提出了面向中文 NER 的 「FLAT」 模型。FLAT 模型基于 Transformer 实现，能够利用全连接的 self-attention 来对序列中的长距离依赖建模。为了得到位置信息，Transformer 为序列中的每个 token 引入了位置表示（编码），类似地，在 FLAT 中针对 Lattice 结构设计了一种巧妙的位置编码，如上图 (c) 所示。具体来说，对于一个 token（字符或词语），其会包含两个位置索引：「头位置」与「尾位置」，基于这两个位置信息可以将一个 token 集合还原为 Lattice 结构，从而实现直接使用 Transformer 来建模 Lattice 输入。对于 FLAT 来说，Transformer 的自注意力机制可以使得字符直接与任意潜在词语交互，包括自包含词语，例如「药」的自包含词语有「药店」与「人和药店」。实验结果表明该模型在中文 NER 上的表现与推理速度要优于其他基于词汇的方法。

2 模型

2.1 Transformer 原理概述

本节将对 Transformer 的架构进行简要介绍。对于 NER 任务，我们只需要用到 Transformer encoder，其由「自注意力层」与「前馈网络」（FFN）两层组成，每个子层都接了残差连接与层归一化，如下图所示，其中 FFN 是一个位置独立的多层非线性感知机。

对于自注意力层，Transformer 通过独立计算多个头部的 attention 并将其结果按一定权重进行拼接以得到最终的输出，每个头部的计算公式如下：

\begin{align*} \operatorname{Att}(\mathbf{A}, \mathbf{V}) &=\operatorname{softmax}(\mathbf{A}) \mathbf{V} \tag{1}\\ \mathbf{A}_{\mathbf{i j}} &=\left(\frac{\mathbf{Q}_{\mathbf{i}} \mathbf{K}_{\mathbf{j}}^{\mathrm{T}}}{\sqrt{\mathrm{d}_{\text {head }}}}\right) \tag{2}\\ [\mathbf{Q}, \mathbf{K}, \mathbf{V}] &=E_{x}\left[\mathbf{W}_{q}, \mathbf{W}_{k}, \mathbf{W}_{v}\right] \tag{3} \end{align*}

其中 E 是 token 的嵌入（第一层）或上一层的输出，

\mathbf{W}_{\mathrm{q}}, \mathbf{W}_{\mathrm{k}}, \mathbf{W}_{\mathrm{v}} \in \mathbb{R}^{d_{\text {model }} \times d_{\text {head }}}

为可学习的参数，且 d_{\text {head }} 为每个头部的维数。此外，原始 Transformer 中通过绝对位置编码来捕获序列信息，而 FLAT 中则使用了 Lattice 的「相对位置」进行编码。

2.2 将 Lattice 转化为平面结构

基于词汇表从字符得到一个 Lattice 结构后，我们可以将其展成平面。Flat-lattice 可以被定义为一系列「片段」（span）的集合，每个片段对应一个 「token」、一个 「head」 与一个 「tail」，其中 token 是一个字符或词语，head 与 tail 定义该 token 的首字符与尾字符的在原始序列中的位置索引。对于字符来说，head 与 tail 是相同的。

我们可以通过一个简单的算法来将 flat-lattice 恢复到原始的结构：首先选择 head 与 tail 相同的 token，恢复字符序列；然后对于其他 token 基于 head 与 tail 构建跳跃路径。由于上述转换是可恢复的，文章假定 flat-lattice 能够保持 lattice 原始结构中的所有信息。

2.3 片段的相对位置编码

Flat-lattice 结构由不同长度的片段组成，为了编码片段之间的交互，本文提出了一种编码片段相对位置的方法：对于两个片段 x_i 与 x_j ，他们之间存在三种关系：「相交」、「包含」与「分离」，这取决与其头与尾的位置。我们将通过一个密集向量来建模这些关系，而不是直接对其进行编码，以包含片段间的更多的细节信息。具体来说，令\text { head }[i] 与\text { tail }[i] 表示片段 x_i 的头位置与尾位置，我们将通过以下四种相对距离来表明 x_i 与 x_j 之间的关系：

\begin{align*} &d_{i j}^{(h h)}=h e a d[i]-h e a d[j] \tag{4}\\ &d_{i j}^{(h t)}=h e a d[i]-\operatorname{tail}[j] \tag{5}\\ &d_{i j}^{(t h)}=\operatorname{tail}[i]-h e a d[j] \tag{6}\\ &d_{i j}^{(t t)}=\operatorname{tail}[i]-\operatorname{tail}[j] \tag{7} \end{align*}

最终的相对位置编码通过四个距离的简单非线性变化得到：

R_{i j}=\operatorname{ReLU}(W_{r}(\mathbf{p}_{d_{i j}^{(h h)}} \oplus \mathbf{p}_{d_{i j}^{(t h)}} \oplus \mathbf{p}_{d_{i j}^{(h t)}} \oplus \mathbf{p}_{d_{i j}^{(t t)}})) \tag{8}

其中 W_r 是可学习的参数，\oplus 表示连接算子（加权和），\mathbf{p}_{d} 的计算方式与原始 Transformer 相同：

\begin{align*} \mathbf{p}_{d}^{(2 k)} &=\sin \left(d / 10000^{2 k / d_{\text {model }}}\right) \tag{9}\\ \mathbf{p}_{d}^{(2 k+1)} &=\cos \left(d / 10000^{2 k / d_{\text {model }}}\right) \tag{10} \end{align*}

其中 d 表示四种距离中的一种，k 表示位置编码的维数的索引（具体的某一维，根据奇偶决定是正弦还是余弦）。自注意力的计算方式采用了原始方法的一个变种（与 transfomer-XL 和 XLNet 相同），具体公式为：

\begin{align*} \mathbf{A}_{i, j}^{*} &=\mathbf{W}_{q}^{\top} \mathbf{E}_{x_{i}}^{\top} \mathbf{E}_{x_{j}} \mathbf{W}_{k, E}+\mathbf{W}_{q}^{\top} \mathbf{E}_{x_{i}}^{\top} \mathbf{R}_{i j} \mathbf{W}_{k, R} \\ &+\mathbf{u}^{\top} \mathbf{E}_{x_{j}} \mathbf{W}_{k, E}+\mathbf{v}^{\top} \mathbf{R}_{i j} \mathbf{W}_{k, R} \end{align*} \tag{11}

其中 \mathbf{W}_{q}, \mathbf{W}_{k, R}, \mathbf{W}_{k, E} \in \mathbb{R}^{d_{\text {model }} \times d_{\text {head }}} 和 \mathbf{u}, \mathbf{v} \in \mathbb{R}^{d_{\text {head }}} 为可学习的参数。公式 (1) 中的 A 会被 A^{*} 替代，后续的计算方式与原始 Transformer 相同。

经过 FLAT 之后，我们仅将得到的字符表征进行输出，连接到「条件随机场」中进行实体识别（这一部分的原理之后会通过其他文章详述）。FLAT 的整体结构如下图所示：