用 LDA 和 LSA 两种方法来降维和做 Topic 建模

AI研习社

发布于 2018-09-25 16:21:56

8840

发布于 2018-09-25 16:21:56

文章被收录于专栏：AI研习社

本文为 AI 研习社编译的技术博客，原标题 2 latent methods for dimension reduction and topic modeling，作者为 Edward Ma。翻译 | dudubear、机智的工人校对 | 余杭审核 | 余杭

图片链接： https://pixabay.com/en/golden-gate-bridge-women-back-1030999/

在优秀的词嵌入方法出现之前，潜在语义分析模型（LSA）和文档主题生成模型（LDA）都是解决自然语言问题的好方法。LSA模型和LDA模型有相同矩阵形式的词袋表示输入。不过，LSA模型专注于降维，而LDA模型专注于解决主题建模问题。

由于有很多资料介绍这两个模型的数学细节，本篇文章就不深入介绍了。如果感兴趣，请自行阅读参考资料。为了让大家更好地理解，我不会做去停用词这样的预处理操作。但这是在使用LSA、LSI和LDA模型时非常关键的部分。阅读以下文章，你会了解以下内容：

潜在语义分析模型（LSA）
文档主题生成模型（LDA）
主旨概要

潜在语义分析（LSA）

2005年Jerome Bellegarda将LSA模型引入自然语言处理任务。LSA模型的目的是对分类任务降维。其主要思想是具有相似语义的词会出现在相似的文本片段中。在自然语言处理领域，我们经常用潜在语义索引（LSI）作为其别名。

首先，我们用m个文档和n个词作为模型的输入。这样我们就能构建一个以文档为行、以词为列的m*n矩阵。我们可以使用计数或TF-IDF得分。然而，用TF-IDF得分比计数更好，因为大部分情况下高频并不意味着更好的分类。

图片来源： http://mropengate.blogspot.com/2016/04/tf-idf-in-r-language.html

TF-IDF的主要思想是高频的词有可能不代表着很多的信息。换句话说，就是出现频率小的词在模型中有更高的权重。字词的重要性与它在同一文件中出现的次数成正比，但同时与其在语料库中出现的次数成反比。更详细的内容，请参考此博客（https://towardsdatascience.com/3-basic-approaches-in-bag-of-words-which-are-better-than-word-embeddings-c2cbc7398016）。

该模型的挑战是矩阵很稀疏（或维数很高），同时有噪声（包括许多高频词）。因此，使用分解 SVD 来降维。