NLP 点滴：文本相似度（下）

原创

肖力涛

修改于 2017-08-24 09:57:02

3.4K1

文章被收录于专栏：肖力涛的专栏肖力涛的专栏

接《NLP 点滴：文本相似度（中）》

神经网络语言模型

word2vec的思想最早起源于2003年Yoshua Bengio等人的论文A Neural Probabilistic Language Model：

Traditional but very successful approaches based on n-grams obtain generalization by concatenating very short overlapping sequences seen in the training set. We propose to fight the curse of dimensionality by learning a distributed representation for words which allows each training sentence to inform the model about an exponential number of semantically neighboring sentences. [16]

从文中摘要中的这段话我们可以看出，神经网络语言模型提出的初衷便是为了解决传统的n-gram模型中维度灾难的问题，用distributed representation词向量的形式来表示每一个词语。文中提出的模型利用了一个三层神经网络如下图(一般投影层算在输入层中，这里分开阐述)：

其中，对于语料库C，词典D的长度为(|D|=N)为语料库C的词汇量

大小。对于任意一个词，表示其前n-1个词语，类似于n-gram模型，二元

对为一个训练样本。我们

为词向量，词向量的维度为m。图中W,U分别为投影层和隐藏层以及隐藏层和输出层之间的权值矩阵，p,q分别为隐藏层和输出层上的偏置向量。

论文中给出的神经网络模型如下图：

其中C(i)表示第i个词的特征向量（词向量），我们看到图中第一层为词

的上下文的每个词向量，在第二层我们将输入层的n-1个词向量按顺序首尾拼接在一起，形成一个长向量，其长度为(n-1)m，输入到激活函数tanh双曲正切函数中，计算方式如下：

经过上述两步计算得到的

只是一个长度为N的向量，我们看到图中第三层还做了一次softmax（Softmax function）归一化，归一化后

就可以表示为：

为词

在词典D中的索引。在之前的背景知识n-gram模型

我们知道语言模型中很关键的便是F的确定，其中参数

如下：

词向量：

，以及填充向量（上下文词汇不够n时）

神经网络参数：

论文的主要贡献有一下两点：

1 . 词语之间的相似性可以通过词向量来表示不同于之前我们讨论的One-hot Representation表示方式，论文中指出在进行训练时，向量空间表达的词语维度一般为30、60或100，远远小于词典长度17000，避免了维度灾难。同时语义相似句子的概率是相似的。比如：某个语料库中的两个句子S1=”A dog is running in the room”, S2=”A cat is running in the room”，两个句子从语义上看仅仅是在dog和cat处有一点区别，假设在语料库中S1=1000即出现1000次而S2=1即仅出现一次，按照之前我们讲述的n-gram模型，p(S1)>>p(S2)，但是我们从语义上来看dog和cat在句子中无论从句法还是语义上都扮演了相似的角色，所以两者概率应该相似才对。

而神经网络语言模型可以做到这一点，原因是：1）在神经网络语言模型中假设了相似的词在词向量上也是相似的，即向量空间中的距离相近，2）模型中的概率函数关于词向量是光滑的，那么词向量的一个小变化对概率的影响也是一个小变化，这样下面的句子：

A dog is ruuning in the room A cat is running in the room The cat is running in the room A dog is walking in the bedroom The dog was walking in the bedroom

只要在语料库中出现一个，其他句子的概率也会相应增大。

2 .基于词向量的模型在概率计算上已经是平滑的，不需要像n-gram模型一样做额外的平滑处理，因为在softmax阶段我们已经做了归一化，有了平滑性。

我们最终训练得到的词向量，在整个神经网络模型中，似乎只是一个参数，但是这个副作用也正是word2vec中的核心产物。