前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >文本主题模型之LDA(三) LDA求解之变分推断EM算法

文本主题模型之LDA(三) LDA求解之变分推断EM算法

作者头像
刘建平Pinard
发布2018-08-07 11:02:49
1.1K0
发布2018-08-07 11:02:49
举报
文章被收录于专栏:机器学习算法原理与实践

文本主题模型之LDA(一) LDA基础

文本主题模型之LDA(二) LDA求解之Gibbs采样算法

    文本主题模型之LDA(三) LDA求解之变分推断EM算法

    本文是LDA主题模型的第三篇,读这一篇之前建议先读文本主题模型之LDA(一) LDA基础,同时由于使用了EM算法,如果你对EM算法不熟悉,建议先熟悉EM算法的主要思想。LDA的变分推断EM算法求解,应用于Spark MLlib和Scikit-learn的LDA算法实现,因此值得好好理解。

1. 变分推断EM算法求解LDA的思路

    首先,回顾LDA的模型图如下:

    变分推断EM算法希望通过“变分推断(Variational Inference)”和EM算法来得到LDA模型的文档主题分布和主题词分布。首先来看EM算法在这里的使用,我们的模型里面有隐藏变量θ,β,z,模型的参数是α,η。为了求出模型参数和对应的隐藏变量分布,EM算法需要在E步先求出隐藏变量θ,β,z的基于条件概率分布的期望,接着在M步极大化这个期望,得到更新的后验模型参数α,η。     问题是在EM算法的E步,由于θ,β,z的耦合,我们难以求出隐藏变量θ,β,z的条件概率分布,也难以求出对应的期望,需要“变分推断“来帮忙,这里所谓的变分推断,也就是在隐藏变量存在耦合的情况下,我们通过变分假设,即假设所有的隐藏变量都是通过各自的独立分布形成的,这样就去掉了隐藏变量之间的耦合关系。我们用各个独立分布形成的变分分布来模拟近似隐藏变量的条件分布,这样就可以顺利的使用EM算法了。     当进行若干轮的E步和M步的迭代更新之后,我们可以得到合适的近似隐藏变量分布θ,β,z和模型后验参数α,η,进而就得到了我们需要的LDA文档主题分布和主题词分布。     可见要完全理解LDA的变分推断EM算法,需要搞清楚它在E步变分推断的过程和推断完毕后EM算法的过程。

 2. LDA的变分推断思路

 

   

3. 极大化ELBO求解变分参数

    

4. EM算法之E步:获取最优变分参数

    

5. EM算法之M步:更新模型参数

    

6. LDA变分推断EM算法流程总结

    

(欢迎转载,转载请注明出处。欢迎沟通交流: liujianping-ok@163.com) 

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2017-05-22 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. 变分推断EM算法求解LDA的思路
  •  2. LDA的变分推断思路
  • 3. 极大化ELBO求解变分参数
  • 4. EM算法之E步:获取最优变分参数
  • 5. EM算法之M步:更新模型参数
  • 6. LDA变分推断EM算法流程总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档