文本信息检索
,也被称为潜在语义索引(latent semantic indexing,LSI),在推荐系统、图像处理、生物信息学等领域也有广泛应用文本信息处理中:
单词向量空间的度量
表示文本之间的语义相似度潜在语义分析使用的是非概率的话题分析模型
单词-文本
矩阵奇异值分解
,从而得到话题向量空间,以及文本在话题向量空间的表示非负矩阵分解
(non-negative matrix factorization,NMF)是另一种矩阵的因子分解方法,其特点是分解的矩阵非负。非负矩阵分解也可以用于话题分析。
文本信息处理的一个核心问题
是对文本的语义内容进行表示,并进行文本之间的语义相似度计算。
每一维对应一个单词
,其数值为该单词在该文本中出现的频数或权值单词频率-逆文本频率
(term frequency-inverse document frequency,TF-IDF)表示,其定义是
单词向量空间模型的优点
:
是模型简单,计算效率高
。因为单词向量通常是稀疏的,两个向量的内积计算只需要在其同不为零的维度上进行即可,需要的计算很少,可以高效地完成单词向量空间模型也有一定的局限性
:
内积相似度
未必能够准确表达两个文本的语义相似度上一词多义性
(polysemy)及多词一义性
(synonymy),所以基于单词向量的相似度计算存在不精确的问题
话题(topic),就是指文本所讨论的内容或主题。
这样,基于话题的模型就可以解决上述基于单词的模型存在的问题。
潜在语义分析 利用 矩阵奇异值分解(SVD),对单词-文本
矩阵进行奇异值分解
话题向量空间
文本在话题向量空间的表示
潜在语义分析 根据 确定的话题个数k
对单词-文本
矩阵x
进行截断奇异值分解
非负矩阵分解
的算法是迭代算法