前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >简单易学的机器学习算法——Latent Dirichlet Allocation(理论篇)

简单易学的机器学习算法——Latent Dirichlet Allocation(理论篇)

作者头像
felixzhao
发布2018-03-20 12:11:26
6K0
发布2018-03-20 12:11:26
举报
文章被收录于专栏:null的专栏

引言

LDA(Latent Dirichlet Allocation)称为潜在狄利克雷分布,是文本语义分析中比较重要的一个模型,同时,LDA模型中使用到了贝叶斯思维的一些知识,这些知识是统计机器学习的基础。为了能够对LDA原理有清晰的认识,也为了能够对贝叶斯思维有全面的了解,在这里对基本知识以及LDA的相关知识进行阐述,本系列包括两个部分:

  • Latent Dirichlet Allocation——理论篇
  • Latent Dirichlet Allocation——实践篇

在理论篇中将重点阐述贝叶斯相关的知识和LDA的基本思想,基本的知识点包括Gamma函数和分布,Beta函数和分布,Dirichlet函数和分布,贝叶斯定理,Gibbs采样等等。在接下来的文章,我们通过以下几个方面具体介绍LDA的核心思想:

  • 基础知识:二项分布,多项式分布,Gamma分布,Beta分布,Dirichlet分布,贝叶斯定理,共轭分布
  • 文本建模:Unigram Model,概率主题模型,Gibbs采样以及贝叶斯推理

一、基础知识

在贝叶斯思维以及LDA中需要使用到一些概率的知识,下面我们罗列下会使用到的一些基本知识。

1、二项分布

2、多项式分布

3、Gamma分布

这里写图片描述
这里写图片描述

Gamma函数Γ(x)具有如下的一些性质:

4、Beta分布

5、Dirichlet分布

注意到Beta分布是特殊的Dirichlet分布,即k=2k=2时的Dirichlet分布。

6、贝叶斯定理

贝叶斯定理中牵涉到概率的一些基本知识,包括:

  • 条件概率
  • 联合概率
  • 边缘概率

7、共轭分布

有了如上的贝叶斯定理,对于贝叶斯派而言,有如下的思考方式:

先验分布+样本信息⇒\Rightarrow 后验分布

二、文本建模

对于一篇文章,是文章中出现的次的过程,在文章中,我们已经知道每个词出现的概率,则在省城文章的过程中,我们在词库中根据概率取出每个词,形成一篇文章。

1、Unigram Model

1.1、频率派

1.2、贝叶斯派

这里写图片描述
这里写图片描述

2、概率主题模型

前面对文档的生成方式做了简单的介绍,其实在写文章的过程中,每一篇文章都会有一些主题,表示这篇文章主要讲的是关于哪方面的文章,如本篇文章主要是在介绍贝叶斯,LDA等等,而文章的基本组成单元式词,文章的主题则主要表现在词在不同组题的分布上,每一个词是在这些确定的主题上产生的,具体的如下图所示:

这里写图片描述
这里写图片描述

文章的主题最终体现在词在每个主题的分布上。在写文章的过程中,首先我们需要做的是确定文章的主题,在确定了文章的主题的前提下,我们产生每一个词,从而构成了整篇文章。

如果要写一篇文章,我们往往是先确定其主题,比如这篇文章是写社会的,还是写的技术类的,或者游记类的,在主题确定的条件下,如要写一篇关于机器学习方面的文章,在确定了主题的条件下,会谈及到损失函数,模型,神经网络,深度学习等等,每个词在这篇文章中的比重会有所不同。这便是文章的生成过程,即:

一篇文章,通常是由多个主题构成的,而每个主题大概可以用于该主题相关的频率最高的一些词来描述。

在上面们提及到一篇文章的生成过程,即:

  • 对于文章选择主题
  • 每个主题下对词汇的选择

2.1、频率派

2.2、贝叶斯派

上面介绍的思路中,对于文档选择主题的概率以及依据主题选择每一个词的概率都是固定的数,对于贝叶斯派来说,这是无法接受的,贝叶斯派认为所有的值都是随机变量,因此,在文档对应的主题以及依据指定的主题选择每一个词的概率都服从特定的分布。因此上述的过程可以通过如下的概率图模型表示:

3、LDA训练——Gibbs采样

3.1、Markov Chain的相关概念

3.2、Gibbs采样

这里写图片描述
这里写图片描述

这样的情况很容易推广到多维的情况:

这里写图片描述
这里写图片描述

上述两张图来自参考文献1。

3.3、LDA训练

LDA的训练过程如下所示:

这里写图片描述
这里写图片描述

4、LDA推理

LDA推理的过程与LDA训练的过程类似,具体过程如下所示:

这里写图片描述
这里写图片描述

两张图来自参考文献1。

参考文献

1、LDA数学八卦

2、通俗理解LDA主题模型

3、零基础小白使用LDA模型

4、LDA理解以及源码分析(二)

5、Xuan-Hieu Phan and Cam-Tu Nguyen. GibbsLDA++: A C/C++ implementation of latent Dirichlet allocation (LDA), 2007

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 引言
  • 一、基础知识
    • 1、二项分布
      • 2、多项式分布
        • 3、Gamma分布
          • 4、Beta分布
            • 5、Dirichlet分布
              • 6、贝叶斯定理
                • 7、共轭分布
                • 二、文本建模
                  • 1、Unigram Model
                    • 1.1、频率派
                    • 1.2、贝叶斯派
                  • 2、概率主题模型
                    • 2.1、频率派
                    • 2.2、贝叶斯派
                  • 3、LDA训练——Gibbs采样
                    • 3.1、Markov Chain的相关概念
                    • 3.2、Gibbs采样
                    • 3.3、LDA训练
                  • 4、LDA推理
                  • 参考文献
                  领券
                  问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档