前言
LDA是一种概率主题模型:隐式狄利克雷分布(Latent Dirichlet Allocation,简称LDA)。...在LDA模型中,生成文档的过程有如下几步:
从狄利克雷分布αα中生成文档i的主题分布θiθi ;
从主题的多项式分布θiθi中取样生成文档i第j个词的主题Zi,jZi,j ;
从狄利克雷分布ηη中取样生成主题...但是在LDA中,这个多项分布都是不确定的,这个多项式分布又服从一个狄利克雷先验分布(Dirichlet prior)。...LDA模型中一篇文档生成的方式如下所示:
1 按照P(di)P(di)选择一篇文档didi ;
2 从狄利克雷分布αα中生成文档didi的主题分布θiθi ;
3 从主题的多项式分布θiθi中取样生成文档...didi第j个词的主题Zi,jZi,j ;
4 从狄利克雷分布ηη中取样生成主题Zi,jZi,j对应的词语分布βi,jβi,j ;
5 从词语的多项式分布βi,jβi,j中采样最终生成词语Wi,jWi,