前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >概率潜在语义分析(Probabilistic Latent Semantic Analysis,PLSA)

概率潜在语义分析(Probabilistic Latent Semantic Analysis,PLSA)

作者头像
Michael阿明
发布2020-07-13 12:09:23
1.1K0
发布2020-07-13 12:09:23
举报

概率潜在语义分析(probabilistic latent semantic analysis,PLSA),也称概率潜在语义索引(probabilistic latent semantic indexing,PLSI)

  • 利用概率生成模型对文本集合进行话题分析无监督学习方法
  • 最大特点:用隐变量表示话题
  • 整个模型表示 文本生成话题话题生成单词,从而得到单词-文本共现数据的过程
  • 假设每个文本由一个话题分布决定,每个话题由一个单词分布决定

1. 概率潜在语义分析模型

概率潜在语义分析 模型有生成模型,以及等价的共现模型

1.1 基本想法

  • 给定文本集合,每个文本讨论若干个话题,每个话题由若干个单词表示
  • 对文本集合进行概率潜在语义分析,就能够发现每个文本的话题,以及每个话题的单词
  • 话题是不能从数据中直接观察到的,是潜在

1.2 生成模型

1.3 共现模型

文本数据基于如下的概率模型产生(共现模型):

  • 首先有话题 z 的概率分布
  • 然后有话题 z 给定条件下 文本 的条件概率分布
  • 以及话题 z 给定条件下 单词 的条件概率分布

1.4 模型性质

概率潜在语义分析通过话题对数据进行了更简洁地表示,减少了学习过程中过拟合的可能性

2. 概率潜在语义分析的算法

概率潜在语义分析模型是含有隐变量的模型,其学习通常使用 EM算法

模型参数估计的EM算法:

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2020/05/01 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 概率潜在语义分析(probabilistic latent semantic analysis,PLSA),也称概率潜在语义索引(probabilistic latent semantic indexing,PLSI)
  • 1. 概率潜在语义分析模型
    • 1.1 基本想法
      • 1.2 生成模型
        • 1.3 共现模型
          • 1.4 模型性质
          • 2. 概率潜在语义分析的算法
          领券
          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档