① 一个形式为 ([w_{0}]_{\sigma},[w_{1}, \cdots ,w_{n}]_{\beta},\varnothing) 的初始状态 c_{0} (现在只有 ROOT 在堆 \sigma 中，没有被选择的单词都在缓冲区 \beta 中。
② 一个形式为 (\sigma,[]_{\beta},A) 的终点状态。

2) 转移

在状态之间有三种不同类型的转移：

① SHIFT：移除在缓冲区的第一个单词，然后将其放在堆的顶部 (前提条件：缓冲区不能为空)。
② Left\text{-}Arc_{r}：向依存弧集合 A 中加入一个依存弧 (w_{j},r,w_{i})，其中 w_{i} 是堆顶的第二个单词， w_{j} 是堆顶部的单词。从栈中移除 w_{i} (前提条件：堆必须包含两个单词以及 w_{i} 不是 ROOT )
③ Right\text{-}Arc_{r}：向依存弧集合 A 中加入一个依存弧 (w_{i},r,w_{j})，其中 w_{i} 是堆顶的第二个单词， w_{j} 是堆顶部的单词。从栈中移除 w_{j} (前提条件：堆必须包含两个单词)

下图给出了这三个转换的更正式的定义：

依赖解析的转换

1.4 神经网络依存解析器

虽然依赖项解析有很多深层模型，这部分特别侧重于贪心，基于转移的神经网络依存语法解析器。与传统的基于特征的判别依存语法解析器相比，神经网络依存语法解析器性能和效果更好。与以前模型的主要区别在于这类模型依赖稠密而不是稀疏的特征表示。

我们将要描述的模型采用上一部分中讲述的标准依存弧转换系统。最终，模型的目标是预测从一些初始状态 c 到一个终点状态的转换序列，对模型中的依存语法树进行编码的。

由于模型是贪心的，它基于从当前的状态 c=(\sigma, \beta, A) 提取特征，然后尝试一次正确地预测一次转移 T\in \{SHIFT, Left\text{-}Arc_{r},Right\text{-}Arc_{r}\}。回想一下， \sigma 是栈，\beta 是缓存， A 是对于一个给定的句子的依赖弧的集合。

1) 特征选择

根据该模型所需的复杂性，定义神经网络的输入是灵活的。对给定句子 S 的特征包含一些子集：

① S_{word}：在堆 \sigma 的顶部和缓冲区 \beta 的 S 中一些单词的词向量 (和它们的依存)。
② S_{tag}：在 S 中一些单词的词性标注 ( POS )。词性标注是由一个离散集合组成：\mathcal{P}=\{NN,NNP,NNS,DT,JJ, \cdots \}。
③ S_{label}：在 S 中一些单词的依存标签。依存标签是由一个依存关系的离散集合组成：\mathcal{L}=\{amod,tmod,nsubj,csubj,dobj, \cdots \}。

对每种特征类型，我们都有一个对应的将特征的 one-hot 编码映射到一个 d 维的稠密的向量表示的嵌入矩阵。

S_{word} 的完全嵌入矩阵是 E^{w}\in \mathbb{R}^{d\times N_{w}}，其中 N_{w} 是字典/词汇表的大小。
POS 和依存标签的嵌入矩阵分别为 E^{t}\in \mathbb{R}^{d\times N_{t}} 和 E^{l}\in \mathbb{R}^{d\times N_{l}}，其中 N_{t} 和 N_{l} 分别为不同词性标注和依存标签的个数。

最后，定义从每组特征中选出的元素的数量分别为 n_{word}，n_{tag}，n_{label}。

2) 特征选择的例子

作为一个例子，考虑一下对 S_{word}，S_{tag} 和 S_{label} 的选择：

① S_{word}：在堆和缓冲区的前三个单词：s_{1},s_{2},s_{3},b_{1},b_{2},b_{3}。栈顶部两个单词的第一个和第二个的 leftmost / rightmost 的子单词：lc_{1}(s_{i}),rc_{1}(s_{i}),lc_{2}(s_{i}),rc_{2}(s_{i}),i=1,2。栈顶部两个单词的第一个和第二个的 leftmost of leftmost / rightmost of rightmost 的子单词：lc_{1}(lc_{1}(s_{i})),rc_{1}(rc_{1}(s_{i})),i=1,2。S_{word} 总共含有 n_{word}=18 个元素。
② S_{tag}：相应的词性标注，则 S_{tag} 含有 n_{tag}=18 个元素。
③ S_{label}：单词的对应的依存标签，不包括堆/缓冲区上的 6 个单词，因此 S_{label} 含有 n_{label}=12 个元素。

注意我们使用一个特殊的 NULL 表示不存在的元素：当堆和缓冲区为空或者还没有指定依存关系时。

对一个给定句子例子，我们按照上述的方法选择单词，词性标注和依存标签，从嵌入矩阵 E^{w},E^{t},E^{l} 中提取它们对应的稠密的特征的表示，然后将这些向量连接起来作为输入 [x^{w},x^{t},x^{l}]。

在训练阶段，我们反向传播到稠密的向量表示，以及后面各层的参数。

3) 前馈神经网络模型

（关于前馈神经网络的内容也可以参考ShowMeAI的对吴恩达老师课程的总结文章深度学习教程 | 神经网络基础，深度学习教程 | 浅层神经网络和深度学习教程 | 深层神经网络）

这个神经网络包含一个输入层 [x^{w},x^{t},x^{l}]，一个隐藏层，以及具有交叉熵损失函数的最终 softmax 层。

我们可以在隐藏层中定义单个权值矩阵，与 [x^{w},x^{t},x^{l}] 进行运算，我们可以使用三个权值矩阵 [W^{w}_{1},W^{t}_{1},W^{l}_{1}]，每个矩阵对应着相应的输入类型，如下图所示。

然后我们应用一个非线性函数并使用一个额外的仿射层 [W_{2}]，使得对于可能的转移次数 (输出维度) ，有相同数量的 softmax 概率。

前馈神经网络模型

Softmax layer： p=\operatorname{softmax}\left(W_{2} h\right)
Hidden layer： h=\left(W_{1}^{w} x^{w}+W_{1}^{t} x^{t}+W_{1}^{l} x^{l}+b_{1}\right)^{3}
Input layer：\left[x^{w}, x^{t}, x^{l}\right]

注意在上图中，使用的非线性函数是 f(x)=x^{3}。

有关 greedy transition-based 神经网络依存语法解析器的更完整的解释，请参考论文：[A Fast and Accurate Dependency Parser using Neural Networks](https://cs.stanford.edu/~danqi/papers/emnlp2014.pdf)。

深度学习与自然语言处理教程 ◉ 斯坦福CS224n最全笔记

NLP教程(4) - 句法分析与依存解析

概述

笔记核心词

1.依存语法与依存结构

1.1 依存分析

1.2 基于转移的依存分析

1.3 Greedy Deterministic Transition-Based Parsing

1) 状态

2) 转移

1.4 神经网络依存解析器

1) 特征选择

2) 特征选择的例子

3) 前馈神经网络模型

2.参考资料

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐