前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >潜在语义分析(Latent Semantic Analysis,LSA)

潜在语义分析(Latent Semantic Analysis,LSA)

作者头像
Michael阿明
发布2020-07-13 12:06:23
2.9K0
发布2020-07-13 12:06:23
举报
  • 一种无监督学习方法,主要用于文本的话题分析
  • 其特点是通过矩阵分解发现文本与单词之间的基于话题的语义关系
  • 最初应用于文本信息检索,也被称为潜在语义索引(latent semantic indexing,LSI),在推荐系统、图像处理、生物信息学等领域也有广泛应用

文本信息处理中:

  • 传统的方法以单词向量表示文本的语义内容,以单词向量空间的度量表示文本之间的语义相似度
  • 潜在语义分析 旨在 解决这种方法不能准确表示语义的问题,试图从大量的文本数据中发现潜在的话题
  • 话题向量表示文本的语义内容,以话题向量空间的度量更准确地表示文本之间的语义相似度

潜在语义分析使用的是非概率的话题分析模型

  • 将文本集合表示为单词-文本矩阵
  • 对单词-文本矩阵进行奇异值分解,从而得到话题向量空间,以及文本在话题向量空间的表示

非负矩阵分解(non-negative matrix factorization,NMF)是另一种矩阵的因子分解方法,其特点是分解的矩阵非负。非负矩阵分解也可以用于话题分析。

1. 单词向量空间、话题向量空间

1.1 单词向量空间

文本信息处理的一个核心问题是对文本的语义内容进行表示,并进行文本之间的语义相似度计算

  • 利用向量空间模型(vector space model,VSM),也就是单词向量空间模型(word vector space model)。
  • 基本想法:用一个向量表示文本的“语义”,向量的每一维对应一个单词,其数值为该单词在该文本中出现的频数或权值
  • 基本假设: 文本中所有单词的出现情况表示了文本的语义内容; 文本集合中的每个文本都表示为一个向量,存在于一个向量空间; 向量空间的度量,如内积或标准化内积表示文本之间的“语义相似度”。
在这里插入图片描述
在这里插入图片描述
  • 单词文本矩阵是稀疏矩阵,元素为频数或权值
  • 权值:常用单词频率-逆文本频率(term frequency-inverse document frequency,TF-IDF)表示,其定义是
在这里插入图片描述
在这里插入图片描述

单词向量空间模型的优点

  • 是模型简单,计算效率高。因为单词向量通常是稀疏的,两个向量的内积计算只需要在其同不为零的维度上进行即可,需要的计算很少,可以高效地完成

单词向量空间模型也有一定的局限性

  • 内积相似度未必能够准确表达两个文本的语义相似度上
  • 因为自然语言的单词具有一词多义性(polysemy)及多词一义性(synonymy),所以基于单词向量的相似度计算存在不精确的问题

1.2 话题向量空间

话题(topic),就是指文本所讨论的内容或主题。

  • 一个文本一般含有若干个话题
  • 如果两个文本的话题相似,那么两者的语义应该也相似
  • 话题由若干个语义相关的单词表示
  • 同义词(如“airplane”与“aircraft”)可以表示同一个话题
  • 而多义词(如“apple”)可以表示不同的话题

这样,基于话题的模型就可以解决上述基于单词的模型存在的问题。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2. 潜在语义分析算法

潜在语义分析 利用 矩阵奇异值分解(SVD),对单词-文本矩阵进行奇异值分解

  • 左矩阵 作为话题向量空间
  • 对角矩阵右矩阵的乘积 作为 文本在话题向量空间的表示

潜在语义分析 根据 确定的话题个数k单词-文本矩阵x

进行截断奇异值分解

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.1 例子

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3. 非负矩阵分解算法

非负矩阵分解的算法是迭代算法

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2020-05-01 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. 单词向量空间、话题向量空间
    • 1.1 单词向量空间
      • 1.2 话题向量空间
      • 2. 潜在语义分析算法
        • 2.1 例子
        • 3. 非负矩阵分解算法
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档