word2vec的思想最早起源于2003年Yoshua Bengio等人的论文A Neural Probabilistic Language Model:
Traditional but very successful approaches based on n-grams obtain generalization by concatenating very short overlapping sequences seen in the training set. We propose to fight the curse of dimensionality by learning a distributed representation for words which allows each training sentence to inform the model about an exponential number of semantically neighboring sentences. [16]
从文中摘要中的这段话我们可以看出,神经网络语言模型提出的初衷便是为了解决传统的n-gram模型中维度灾难的问题,用distributed representation词向量的形式来表示每一个词语。 文中提出的模型利用了一个三层神经网络如下图(一般投影层算在输入层中,这里分开阐述):
其中,对于语料库C,词典D的长度为(|D|=N)为语料库C的词汇量
大小。对于任意一个词,表示其前n-1个词语,类似于n-gram模型,二元
对为一个训练样本。我们
为词向量,词向量的维度为m。图中W,U分别为投影层和隐藏层以及隐藏层和输出层之间的权值矩阵,p,q分别为隐藏层和输出层上的偏置向量。
论文中给出的神经网络模型如下图:
其中C(i)表示第i个词的特征向量(词向量),我们看到图中第一层为词
的上下文的每个词向量,在第二层我们将输入层的n-1个词向量按顺序首尾拼接在一起,形成一个长向量,其长度为(n-1)m,输入到激活函数tanh双曲正切函数中,计算方式如下:
经过上述两步计算得到的
只是一个长度为N的向量,我们看到图中第三层还做了一次softmax(Softmax function)归一化,归一化后
就可以表示为:
为词
在词典D中的索引。 在之前的背景知识n-gram模型
我们知道语言模型中很关键的便是F的确定,其中参数
如下:
,以及填充向量(上下文词汇不够n时)
论文的主要贡献有一下两点:
1 . 词语之间的相似性可以通过词向量来表示 不同于之前我们讨论的One-hot Representation表示方式,论文中指出在进行训练时,向量空间表达的词语维度一般为30、60或100,远远小于词典长度17000,避免了维度灾难。同时语义相似句子的概率是相似的。比如:某个语料库中的两个句子S1=”A dog is running in the room”, S2=”A cat is running in the room”,两个句子从语义上看仅仅是在dog和cat处有一点区别,假设在语料库中S1=1000即出现1000次而S2=1即仅出现一次,按照之前我们讲述的n-gram模型,p(S1)>>p(S2),但是我们从语义上来看dog和cat在句子中无论从句法还是语义上都扮演了相似的角色,所以两者概率应该相似才对。
而神经网络语言模型可以做到这一点,原因是:1)在神经网络语言模型中假设了相似的词在词向量上也是相似的,即向量空间中的距离相近,2)模型中的概率函数关于词向量是光滑的,那么词向量的一个小变化对概率的影响也是一个小变化,这样下面的句子:
A dog is ruuning in the room A cat is running in the room The cat is running in the room A dog is walking in the bedroom The dog was walking in the bedroom
只要在语料库中出现一个,其他句子的概率也会相应增大。
2 .基于词向量的模型在概率计算上已经是平滑的,不需要像n-gram模型一样做额外的平滑处理,因为在softmax阶段我们已经做了归一化,有了平滑性。
我们最终训练得到的词向量,在整个神经网络模型中,似乎只是一个参数,但是这个副作用也正是word2vec中的核心产物。
word2vec中用到了两个重要模型:CBOW(Continuous Bag-of-Words Model)和Skip-gram(Continuous Skip-gram Model)模型,文中作者Tomas Mikolov[17]给出了模型图如下:
由图中我们看出word2vec是一个三层结构的神经网络:输入层、投影层和输出层(这里我们发现word2vec与上面我们阐述的神经网络模型的显著区别是去掉了隐藏层)。对于图中左边的CBOW模型,是已知当前词
的上下文
的前提下预测当前词
;而正好相反,Skip-gram模型是已知当前词
的前提下来预测其上下文
。
CBOW模型的目标函数,即其对数似然函数形式如下:
而Skip-gram模型的优化目标函数则形如:
Mikolov在word2vec中提出了两套框架,Hieraichical Softmax和Negative Sampling,这里由于博文篇幅太长了,就不错过多阐述,只对基于Hieraichical Softmax的CBOW模型进行简单总结。
CBOW模型中,与之前神经网络语言模型类似
表示一个样本,其中
表示词
的前后各c个词语(共2c个),其三层结构我们可以细化如下:
中2c个词的词向量,每个词向量的维度都是m
对比我们之前讨论的最早的神经网络语言模型,CBOW模型的区别主要为以下三点:
word2vec对于词典D中的任意词
,Huffman树必存在一条从根结点到词
的路径
(且唯一)。路径
上存在个分支
(每条路径上的总结点数为
),将每个分支看做一次二次分类,每一次分类产生一个概率,将这些概率乘起来,便是所需的
。在二分类的过程中,可以利用Huffman编码值,即左树为1右树为0进行逻辑回归分类。
word2vec在求解的过程中主要利用了梯度下降的方法,调整学习率
,这里我们不再长篇大论的阐述,具体可以参考文献[14],对word2vec中的数学原理阐述的非常清晰。
word2vec从被发布起就是各种大红大紫,在谷歌的翻译系统中,得到了很好的验证。围绕本篇博文的主题,即文本相似度的度量,word2vec产生的词向量可以非常方便的让我们做这件事情,利用欧氏距离或者cos都可以。
在之前Wetest舆情项目,做句法分析时,需要找寻某一个词的同类词语,我们用用户的游戏评论训练word2vec,效果还是不错的如下图:
对于游戏的人工想到的维度词进行同类扩展,得到扩展维度词。 之前在应用时是自己师兄使用的python版word2vec,而Java对于word2vec有一个较好的东东DL4J,但其性能我并没有经过大规模预料测试,这个大家用的时候需谨慎。
OK,长舒一口气~,好长的一篇整理,整个文章虽然涵盖了好多个模型、算法,但是围绕的一个主题便是如何度量两个文本之间的相似性,从字面和语义两个角度对自己平时用过接触过的模型算法进行整理归纳,如有任何纰漏还请留言指出,我会第一时间改正。
最后,本文大多是在平时开发时遇到的问题的总结,也非常感谢组里的同事和大神给予的交流和帮助,欢迎大家来Wetest舆情逛逛,关注游戏舆情信息。 Wetest舆情:http://wetest.qq.com/bee/
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。