前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)

潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)

作者头像
Michael阿明
发布2020-07-13 14:17:03
1.6K0
发布2020-07-13 14:17:03
举报

潜在狄利克雷分配(latent Dirichlet allocation,LDA),作为基于贝叶斯学习的话题模型,是潜在语义分析、概率潜在语义分析的扩展,于2002年由Blei等提出。LDA在文本数据挖掘、图像处理、生物信息处理等领域被广泛使用。

LDA模型是文本集合的生成概率模型

  • 假设每个文本话题的一个多项分布表示
  • 每个话题单词的一个多项分布表示
  • 特别假设文本的话题分布的先验分布是狄利克雷分布
  • 话题的单词分布的先验分布也是狄利克雷分布
  • 先验分布的导入使LDA能够更好地应对话题模型学习中的过拟合现象

LDA的文本集合的生成过程如下:

  • 首先随机生成一个文本的话题分布
  • 之后在该文本的每个位置,依据该文本的话题分布随机生成一个话题
  • 然后在该位置依据该话题的单词分布随机生成一个单词
  • 直至文本的最后一个位置,生成整个文本。重复以上过程生成所有文本

LDA模型是含有隐变量的概率图模型

  • 模型中,每个话题的单词分布,每个文本的话题分布,文本的每个位置的话题是隐变量
  • 文本的每个位置的单词是观测变量
  • LDA模型的学习与推理无法直接求解,通常使用吉布斯抽样(Gibbs sampling)和变分EM算法(variational EM algorithm),前者是蒙特卡罗法,而后者是近似算法

1. 狄利克雷分布

狄利克雷分布(Dirichlet distribution)是一种多元连续随机变量的概率分布,是贝塔分布(beta distribution)的扩展。在贝叶斯学习中,狄利克雷分布常作为多项分布的先验分布使用。

定义:

2. 潜在狄利克雷分配模型

在这里插入图片描述
在这里插入图片描述

LDA模型是概率图模型:

  • 特点:以狄利克雷分布为多项分布的先验分布
  • 学习:就是给定文本集合,通过后验概率分布的估计,推断模型的所有参数

利用LDA进行话题分析,就是对给定文本集合,学习到每个文本的话题分布,以及每个话题的单词分布

  • 可以认为LDA是PLSA(概率潜在语义分析)的扩展
  • 相同点:两者都假设话题是单词的多项分布,文本是话题的多项分布
  • 不同点:LDA使用狄利克雷分布作为先验分布,而PLSA不使用先验分布(或者说假设先验分布是均匀分布),两者对文本生成过程有不同假设
  • 学习过程:LDA基于贝叶斯学习,而PLSA基于极大似然估计
  • LDA的优点是:使用先验概率分布,可以防止学习过程中产生的过拟合(over-fitting)

3. 学习推理

LDA模型的学习与推理不能直接求解。

  • 通常采用的方法是吉布斯抽样算法变分EM算法
  • 前者是蒙特卡罗法,而后者是近似算法

4. sklearn.decomposition.LatentDirichletAllocation

sklearn.decomposition.LatentDirichletAllocation官网介绍

代码语言:javascript
复制
class sklearn.decomposition.LatentDirichletAllocation(n_components=10, 
doc_topic_prior=None, topic_word_prior=None, learning_method='batch',
learning_decay=0.7, learning_offset=10.0, max_iter=10, batch_size=128, 
evaluate_every=-1, total_samples=1000000.0, perp_tol=0.1, 
mean_change_tol=0.001, max_doc_update_iter=100, n_jobs=None, verbose=0, 
random_state=None)

n_components, optional (default=10),话题数量

实践参考:https://www.cnblogs.com/pinard/p/6908150.html

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2020/05/06 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. 狄利克雷分布
  • 2. 潜在狄利克雷分配模型
  • 3. 学习推理
  • 4. sklearn.decomposition.LatentDirichletAllocation
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档