前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >基于WMD(词移距离)的句子相似度分析简介

基于WMD(词移距离)的句子相似度分析简介

作者头像
里克贝斯
发布2021-05-21 15:14:14
9810
发布2021-05-21 15:14:14
举报
文章被收录于专栏:图灵技术域图灵技术域

word2vec

word2vec是只有一个隐层的全连接神经网络,对语料中的所有词汇进行训练并生成相应的词向量(Word Embedding)WI 的大小是VxN, V是单词字典的大小, 每次输入是一个单词, N是设定的隐层大小。word2vec的模型通过一种神经网络语言模型(Neural Network Language Model)

word2vec详解

NLP之word2vec简介

词袋模型(Bag of Words)

词袋模型(Bag-of-words model)是个在自然语言处理和信息检索(IR)下被简化的表达模型。此模型下,像是句子或是文件这样的文字可以用一个袋子装着这些词的方式表现,这种表现方式不考虑文法以及词的顺序。最近词袋模型也被应用在计算机视觉领域。词袋模型被广泛应用在文件分类,词出现的频率可以用来当作训练分类器的特征。关于”词袋”这个用字的由来可追溯到泽里格·哈里斯于1954年在Distributional Structure的文章。

连续词袋模型(CBOW)

  1. 移除前向反馈神经网络中非线性的hidden layer,直接将中间层的embedding layer与输出层的softmax layer连接;
  2. 忽略上下文环境的序列信息:输入的所有词向量均汇总到同一个embedding layer;
  3. 将future words纳入上下文环境

例子:苏宁易购/是/国内/著名/的/B2C/电商/之一

词移距离(Word Mover’s Distance)

举例:

文档1: Obama speaks to the media in Illinois

文档2: The President greets the press in Chicago

先去除Stop-words,保留加粗的动词、名词

需要有一种约束,将文档1中的每个词,以不同的权重强制地分配到文档2的所有词上去。

WMD的优化

现在计算两个文档之间的 WMD 距离,如果用 k-NN来计算距离就非常耗时。如果当前待检查文档跟中心query文档的 WMD 下界已经大到可以确定它不在query 文档的 k-NN 列表里,那就直接扔掉而不用再花时间求当前文档的 WMD 距离了。

Word Centroid Distance(WCD,定义在最后一个等号处,公式中的X是词向量, X是词向量组成的矩阵):

注意上述公式只需要用绝对值不等式与WMD约束定义计算即可。推导出的公式只需要进行矩阵运算,极大地减少了计算消耗。

RWMD(Relaxed word moving distance )

先去掉一个约束,计算相应的WMD,最终取最大值。

这两个 relax 过的优化问题的解,恰好对应于词向量矩阵的行空间和列空间上的最近邻问题,也是很好算的。最后定义 RWMD 为这两个 relaxed 优化问题的两个目标值中的最大值。

参考资料

Kusner M, Sun Y, Kolkin N, et al. From word embeddings to document distancesC//International Conference on Machine Learning. 2015: 957-966.

注意:本文章PPT为2018年机器学习课程期末作业

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2018-11-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • word2vec
  • 词袋模型(Bag of Words)
  • WMD的优化
  • 参考资料
    相关产品与服务
    NLP 服务
    NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档