文本主题模型之LDA(一) LDA基础

刘建平Pinard·唯品会资深开发工程师

　　　　文本主题模型之LDA(一) LDA基础

　　　　在前面我们讲到了基于矩阵分解的LSI和NMF主题模型，这里我们开始讨论被广泛使用的主题模型：隐含狄利克雷分布(Latent Dirichlet Allocation，以下简称LDA)。注意机器学习还有一个LDA，即线性判别分析，主要是用于降维和分类的，如果大家需要了解这个LDA的信息，参看之前写的线性判别分析LDA原理总结。文本关注于隐含狄利克雷分布对应的LDA。

1. LDA贝叶斯模型

　　　　LDA是基于贝叶斯模型的，涉及到贝叶斯模型离不开“先验分布”，“数据（似然）”和"后验分布"三块。在朴素贝叶斯算法原理小结中我们也已经讲到了这套贝叶斯理论。在贝叶斯学派这里：

先验分布 + 数据（似然）= 后验分布

　　　　这点其实很好理解，因为这符合我们人的思维方式，比如你对好人和坏人的认知，先验分布为：100个好人和100个的坏人，即你认为好人坏人各占一半，现在你被2个好人（数据）帮助了和1个坏人骗了，于是你得到了新的后验分布为：102个好人和101个的坏人。现在你的后验分布里面认为好人比坏人多了。这个后验分布接着又变成你的新的先验分布，当你被1个好人（数据）帮助了和3个坏人（数据）骗了后，你又更新了你的后验分布为：103个好人和104个的坏人。依次继续更新下去。

2. 二项分布与Beta分布

3. 多项分布与Dirichlet 分布

4. LDA主题模型

　　　　前面做了这么多的铺垫，我们终于可以开始LDA主题模型了。

　　　　我们的问题是这样的，我们有$M$篇文档，对应第d个文档中有有$N_d$个词。即输入为如下图：

　　　　我们的目标是找到每一篇文档的主题分布和每一个主题中词的分布。在LDA模型中，我们需要先假定一个主题数目$K$，这样所有的分布就都基于$K$个主题展开。那么具体LDA模型是怎么样的呢？具体如下图：

　　　　由于主题产生词不依赖具体某一个文档，因此文档主题分布和主题词分布是独立的。理解了上面这$M+K$组Dirichlet-multi共轭，就理解了LDA的基本原理了。

　　　　现在的问题是，基于这个LDA模型如何求解我们想要的每一篇文档的主题分布和每一个主题中词的分布呢？

　　　　一般有两种方法，第一种是基于Gibbs采样算法求解，第二种是基于变分推断EM算法求解。

　　　　如果你只是想理解基本的LDA模型，到这里就可以了，如果想理解LDA模型的求解，可以继续关注系列里的另外两篇文章。

（欢迎转载，转载请注明出处。欢迎沟通交流： liujianping-ok@163.com）