NLP 点滴 :文本相似度 (下)

《NLP 点滴 :文本相似度 (中)》

神经网络语言模型

word2vec的思想最早起源于2003年Yoshua Bengio等人的论文A Neural Probabilistic Language Model

Traditional but very successful approaches based on n-grams obtain generalization by concatenating very short overlapping sequences seen in the training set. We propose to fight the curse of dimensionality by learning a distributed representation for words which allows each training sentence to inform the model about an exponential number of semantically neighboring sentences. [16]

从文中摘要中的这段话我们可以看出,神经网络语言模型提出的初衷便是为了解决传统的n-gram模型中维度灾难的问题,用distributed representation词向量的形式来表示每一个词语。 文中提出的模型利用了一个三层神经网络如下图(一般投影层算在输入层中,这里分开阐述):

其中,对于语料库C,词典D的长度为(|D|=N)为语料库C的词汇量

大小。对于任意一个词,表示其前n-1个词语,类似于n-gram模型,二元

对为一个训练样本。我们

为词向量,词向量的维度为m。图中W,U分别为投影层和隐藏层以及隐藏层和输出层之间的权值矩阵,p,q分别为隐藏层和输出层上的偏置向量。

论文中给出的神经网络模型如下图:

其中C(i)表示第i个词的特征向量(词向量),我们看到图中第一层为词

的上下文的每个词向量,在第二层我们将输入层的n-1个词向量按顺序首尾拼接在一起,形成一个长向量,其长度为(n-1)m,输入到激活函数tanh双曲正切函数中,计算方式如下:

经过上述两步计算得到的

只是一个长度为N的向量,我们看到图中第三层还做了一次softmax(Softmax function)归一化,归一化后

就可以表示为:

为词

在词典D中的索引。 在之前的背景知识n-gram模型

我们知道语言模型中很关键的便是F的确定,其中参数

如下:

  • 词向量:

,以及填充向量(上下文词汇不够n时)

  • 神经网络参数:

论文的主要贡献有一下两点:

1 . 词语之间的相似性可以通过词向量来表示 不同于之前我们讨论的One-hot Representation表示方式,论文中指出在进行训练时,向量空间表达的词语维度一般为30、60或100,远远小于词典长度17000,避免了维度灾难。同时语义相似句子的概率是相似的。比如:某个语料库中的两个句子S1=”A dog is running in the room”, S2=”A cat is running in the room”,两个句子从语义上看仅仅是在dog和cat处有一点区别,假设在语料库中S1=1000即出现1000次而S2=1即仅出现一次,按照之前我们讲述的n-gram模型,p(S1)>>p(S2),但是我们从语义上来看dog和cat在句子中无论从句法还是语义上都扮演了相似的角色,所以两者概率应该相似才对。

而神经网络语言模型可以做到这一点,原因是:1)在神经网络语言模型中假设了相似的词在词向量上也是相似的,即向量空间中的距离相近,2)模型中的概率函数关于词向量是光滑的,那么词向量的一个小变化对概率的影响也是一个小变化,这样下面的句子:

A dog is ruuning in the room A cat is running in the room The cat is running in the room A dog is walking in the bedroom The dog was walking in the bedroom

只要在语料库中出现一个,其他句子的概率也会相应增大。

2 .基于词向量的模型在概率计算上已经是平滑的,不需要像n-gram模型一样做额外的平滑处理,因为在softmax阶段我们已经做了归一化,有了平滑性。

我们最终训练得到的词向量,在整个神经网络模型中,似乎只是一个参数,但是这个副作用也正是word2vec中的核心产物。

CBOW和Skip-gram模型

word2vec中用到了两个重要模型:CBOW(Continuous Bag-of-Words Model)和Skip-gram(Continuous Skip-gram Model)模型,文中作者Tomas Mikolov[17]给出了模型图如下:

由图中我们看出word2vec是一个三层结构的神经网络:输入层、投影层和输出层(这里我们发现word2vec与上面我们阐述的神经网络模型的显著区别是去掉了隐藏层)。对于图中左边的CBOW模型,是已知当前词

的上下文

的前提下预测当前词

;而正好相反,Skip-gram模型是已知当前词

的前提下来预测其上下文

CBOW模型的目标函数,即其对数似然函数形式如下:

而Skip-gram模型的优化目标函数则形如:

Mikolov在word2vec中提出了两套框架,Hieraichical Softmax和Negative Sampling,这里由于博文篇幅太长了,就不错过多阐述,只对基于Hieraichical Softmax的CBOW模型进行简单总结。

CBOW模型中,与之前神经网络语言模型类似

表示一个样本,其中

表示词

的前后各c个词语(共2c个),其三层结构我们可以细化如下:

  1. 输入层:包含

中2c个词的词向量,每个词向量的维度都是m

  1. 投影层:将输入层的2c个词向量做求和累加,即
  1. 输出层:输出层对应一颗二叉树,它是以语料中出现过的词作为叶子节点,以各词在语料中出现的次数作为权重构造出来的一颗Huffman树(Huffman coding),其叶子节点共N(=|D|)个对应语料库D中的各个词,非叶子节点为N-1个。

对比我们之前讨论的最早的神经网络语言模型,CBOW模型的区别主要为以下三点:

  1. 从输入层到投影层的操作,前者通过拼接,而后者通过累加求和
  2. 前者有隐藏层,后者无隐藏层
  3. 输出层前者是线性结构(softmax),后者是树形结构(Hierarchical softmax)

word2vec对于词典D中的任意词

,Huffman树必存在一条从根结点到词

的路径

(且唯一)。路径

上存在个分支

(每条路径上的总结点数为

),将每个分支看做一次二次分类,每一次分类产生一个概率,将这些概率乘起来,便是所需的

。在二分类的过程中,可以利用Huffman编码值,即左树为1右树为0进行逻辑回归分类。

word2vec在求解的过程中主要利用了梯度下降的方法,调整学习率

,这里我们不再长篇大论的阐述,具体可以参考文献[14],对word2vec中的数学原理阐述的非常清晰。

应用

word2vec从被发布起就是各种大红大紫,在谷歌的翻译系统中,得到了很好的验证。围绕本篇博文的主题,即文本相似度的度量,word2vec产生的词向量可以非常方便的让我们做这件事情,利用欧氏距离或者cos都可以。

在之前Wetest舆情项目,做句法分析时,需要找寻某一个词的同类词语,我们用用户的游戏评论训练word2vec,效果还是不错的如下图:

对于游戏的人工想到的维度词进行同类扩展,得到扩展维度词。 之前在应用时是自己师兄使用的python版word2vec,而Java对于word2vec有一个较好的东东DL4J,但其性能我并没有经过大规模预料测试,这个大家用的时候需谨慎。

OK,长舒一口气~,好长的一篇整理,整个文章虽然涵盖了好多个模型、算法,但是围绕的一个主题便是如何度量两个文本之间的相似性,从字面和语义两个角度对自己平时用过接触过的模型算法进行整理归纳,如有任何纰漏还请留言指出,我会第一时间改正。

最后,本文大多是在平时开发时遇到的问题的总结,也非常感谢组里的同事和大神给予的交流和帮助,欢迎大家来Wetest舆情逛逛,关注游戏舆情信息。 Wetest舆情:http://wetest.qq.com/bee/

参考文献

  1. 莱文斯坦距离
  2. Commons Lang
  3. Jaro–Winkler distance
  4. 字符串相似算法-(1) Jaro-Winkler Distance
  5. Probabilistic Latent Semantic Indexing Thomas Hofmann
  6. [Algorithm & NLP] 文本深度表示模型——word2vec&doc2vec词向量模型
  7. 数学之美番外篇:平凡而又神奇的贝叶斯方法
  8. 概率语言模型及其变形系列(1)-PLSA及EM算法 概率语言模型及其变形系列(2)-LDA及Gibbs Sampling
  9. [Algorithm] 使用SimHash进行海量文本去重 海量数据相似度计算之simhash短文本查找
  10. word2vec 中的数学原理详解 DL4J 机器翻译领域的新突破
  11. word2vec 中的数学原理详解
  12. 《统计自然语言处理第2版》 宗成庆
  13. A Neural Probabilistic Language Model
  14. Exploiting Similarities among Languages for Machine Translation

原创声明,本文系作者授权云+社区-专栏发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数值分析与有限元编程

共旋坐标法( 二 )

以平面杆单元为例,共旋坐标法的基本思想可由图1来描述。其中有两个坐标系和三个构型。共旋坐标法分别是整体坐标系Xg-Yg和局部坐标系xe-ye,整...

752
来自专栏机器之心

入门 | 想实现DCGAN?从制作一张门票谈起!

3018
来自专栏NewbieWeb

WebGL ThreeJS学习总结四

通过前段时间的学习,现在已经能使用ThreeJS框架制作一些简单3D效果,对原生WebGL也有了简单的了解;在学习过程中察觉到自己在数学方面欠缺的太多,所以我决...

851
来自专栏PPV课数据科学社区

使用Python进行描述性统计

【目录】 1 描述性统计是什么? 2 使用NumPy和SciPy进行数值分析   2.1 基本概念   2.2 中心位置(均值、中位数、众数)   2.3 发散...

3997
来自专栏机器学习算法原理与实践

word2vec原理(一) CBOW与Skip-Gram模型基础

    word2vec是google在2013年推出的一个NLP工具,它的特点是将所有的词向量化,这样词与词之间就可以定量的去度量他们之间的关系,挖掘词之间的...

852
来自专栏懒人开发

(3.10)James Stewart Calculus 5th Edition:Related Rates

一个球,体积增长速度为 100 cm^3/s, 求 这个球直径在50cm的时候,对应半径的增长变化率是多少? 分析 我们知道:

683
来自专栏大数据文摘

斯坦福CS224d深度学习课程第八弹: RNN,MV-RNN与RNTN

892
来自专栏Pulsar-V

SLAM初探(二)

相机标定 相机的内参矩阵 在OpenCV的3D重建中(opencv中文网站中:照相机定标与三维场景重建),对摄像机的内参外参有讲解: 外参:摄像机的旋转平移属于...

3235
来自专栏图形学与OpenGL

模拟试题A

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wpxu08/article/detail...

501
来自专栏机器之心

学界 | 斯坦福论文:马尔可夫链的生成对抗式学习

选自openreview 机器之心编译 参与:机器之心编辑部 ? 论文地址:https://openreview.net/pdf?id=S1L-hCNtl 摘要...

2805

扫码关注云+社区