文章/答案/技术大牛

发布

关于“潜在狄利克雷分配的Gibbs采样器推导”的问题

潜在狄利克雷分配（Latent Dirichlet Allocation，简称LDA）是一种用于主题建模的概率生成模型。它可以将文档集合中的每个文档表示为多个主题的混合，每个主题又表示为多个单词的分布。Gibbs采样器是一种用于从概率分布中采样的方法，可以用于LDA模型的参数估计。

在LDA模型中，假设有D个文档，K个主题，以及V个单词。LDA的目标是通过观察到的文档集合来估计每个文档的主题分布、每个主题的单词分布以及每个单词的主题分布。

Gibbs采样器是一种基于马尔可夫链蒙特卡洛（Markov Chain Monte Carlo，简称MCMC）的采样方法。它通过迭代地更新每个变量的值，从而逼近目标分布。对于LDA模型，Gibbs采样器可以通过迭代地更新每个单词的主题分配来估计模型的参数。

具体而言，Gibbs采样器的推导过程如下：

初始化每个单词的主题分配。
对于每个文档中的每个单词，根据当前的主题分配和其他单词的主题分配，计算该单词属于每个主题的概率。
根据计算得到的概率，重新分配每个单词的主题。
重复步骤2和步骤3，直到达到收敛条件。

通过多次迭代，Gibbs采样器可以得到LDA模型的参数估计结果，包括每个文档的主题分布、每个主题的单词分布以及每个单词的主题分布。

潜在狄利克雷分配在文本挖掘、信息检索、推荐系统等领域有广泛的应用。例如，在文本挖掘中，可以利用LDA模型来发现文档集合中的主题结构，从而实现文本分类、主题推荐等任务。

腾讯云提供了一系列与文本处理和机器学习相关的产品和服务，可以用于支持潜在狄利克雷分配的应用。例如，腾讯云的自然语言处理（NLP）服务可以用于文本的分词、词性标注等预处理任务；腾讯云的机器学习平台（Tencent Machine Learning Platform，简称TMLP）可以用于训练和部署LDA模型；腾讯云的云服务器（Cloud Virtual Machine，简称CVM）可以提供计算资源来支持模型的训练和推理。

更多关于腾讯云相关产品和服务的信息，您可以访问腾讯云官方网站：https://cloud.tencent.com/

页面内容是否对你有帮助？

有帮助

没帮助

关于“潜在狄利克雷分配的Gibbs采样器推导”的问题

、

我正在读一篇由Arjun Mukherjee撰写的关于"Gibbs Sampler Derivation for Latent Dirichlet Allocation“的文章。以下是该论文的url：http://www2.cs.uh.edu/~arjun/courses/advnlp/LDA_Derivation.pdf 我有一个关于论文方程式(16)的问题， This linki

浏览 29提问于2021-07-02得票数 0

1回答

Dirichlet分布单元测试

、

谁有可靠的数据可以用来为Dirichlet发行版的新实现编写一些单元测试？

浏览 3提问于2014-10-10得票数 2

3回答

主题发现/发现的最佳模型

、、、、

在简短的非结构化文档中发现主题的最佳模型是什么，例如。短信还是推特消息？潜在的狄利克雷分配？

浏览 2提问于2011-10-07得票数 3

回答已采纳

2回答

LDA和pLSA包(最好用于Python)

、

你推荐哪些用于pLSA (概率潜在语义分析)和LDA (潜在狄利克雷分配)的包用于Python？Java和C++也可以，但最好是Python。我们非常感谢您的经验。

浏览 6提问于2011-05-05得票数 4

1回答

如何使用Scikit-Learn和Python找到最佳集群数量

、

我正在使用Python的scikit-learn库学习集群，但我找不到一种方法来找到最佳的集群数量。我试图列出集群的数量，并将其传递到for loop中，并查看elbow，但我想找到更好的解决方案。我尝试过silhouette_score，但我得到的值非常低，有时甚至是负的。此外，我使用文本数据，我写了几个句子，可以*(比方说)分组，我有关于房子/家，关于学习，聚会，食物的句子…… 是否有可能因为使用文本数据而导致silho

浏览 0提问于2019-08-27得票数 0

1回答

如何检测任意文本文件或数据中的主题？事先不知道主题的数量

、、、、

我有文本数据，我想要发现它所具有的主题，我在维基百科等大型语料库上使用了经过训练的doc2vec，但结果不一致。是否有更好的方法来发现主题。

浏览 0提问于2019-05-13得票数 0

2回答

使用在线LDA对测试数据进行预测

、、、、

我使用的核心代码基于论文的原始在线LDA论文: Hoffman，Blei和Bach，“潜在狄利克雷分配的在线学习”。NIPS，2010。代码可以在上找到。我使用的是约167000个文档的训练集。代码生成lambda文件作为输出，我使用它来生成主题(，printtopics.py).But我不确定如何使用它来查找关于新测试数据的主题(类似于gensim中的

浏览 4提问于2018-11-07得票数 0

1回答

(gensim) LdaMallet vs LdaModel？

、、、

使用gensim.models.LdaMallet和gensim.models.LdaModel有什么区别？我注意到参数并不完全相同，我想知道什么时候应该使用一个参数而不是另一个参数？

浏览 89提问于2020-06-26得票数 4

回答已采纳

2回答

限制语料库文档字长的潜在狄利克雷分配(LDA)性能

、、、、

我一直在使用python(gensim包)中的潜在狄利克雷分配(LDA)生成客户评论集的主题。在生成标记时，我只从评论中选择长度为>= 3的单词(通过使用RegexpTokenizer)：tokenizer =RegexpTokenizer(r'\w{3,}') tokens = tokenizer.tokenize(rev

浏览 2提问于2016-04-17得票数 0

2回答

潜在狄利克雷分配(LDA)的文档数

、、

感谢您抽出时间来看这个问题。我最近从web上抓取了一些文本，并将输出保存为一个大约300页的.txt文件。我正在尝试实现LDA来构建主题，并且熟悉这样做的技术方面。然而，我的问题是，LDA使用一个文件还是多个文件(即，如果我正在检查200封电子邮件，我是否需要进行标记化，删除停用词和双关语，并阻止大文件，然后在实施LDA之前将每个电子邮件另存为单独的.txt文件，我现在面临的问题是，如果我将所有内容分解到单独的.txt文件中，文档<e

浏览 10提问于2013-10-28得票数 1

1回答

隐狄利克雷分配与文档聚类的关系

、、、、

我想澄清潜在狄利克雷分配(LDA)和文档聚类的一般任务之间的关系。我的理解正确吗？谢谢。

浏览 2提问于2011-07-07得票数 9

回答已采纳

1回答

基于潜在狄利克雷分配的主题预测

、、

我的代码的输出是两个包含概率的矩阵。一个文档主题概率和另一个单词主题概率。但我实际上不知道如何使用这些结果来预测新文档的主题。我使用的是Gibbs抽样。有人知道是怎么回事吗？谢谢

浏览 0提问于2011-04-07得票数 2

1回答

主题建模:如何使用我的拟合LDA模型为R中的新数据集预测新主题？

、、

我想使用新数据集的拟合潜在狄利克雷分配(LDA)模型来预测新主题(文档中相关单词的集合)。在这个过程中，我遇到了predictive.distribution()函数。但该函数将document_sums作为输入参数，该参数是拟合新模型后的结果的输出。我需要帮助来理解现有模型在新数据集和预测主题上的使用。以下是Johnathan Chang为该包编写的文档中的示例

浏览 5提问于2012-05-07得票数 5

1回答

在主题建模中使用Word2vec输出作为LDA的输入

、、

我读到过，最常见的主题建模技术(从文本中提取可能的主题)是潜在狄利克雷分配(LDA)。但最近我了解了另一个模型lda2vec。但是，我感兴趣的是，尝试将Word2Vec输出作为LDA的输入是否是一个好主意。你认为为了一些研究而遵循这种方法有意义吗？因为我正在做主题建模，需要一些新的方法。

浏览 16提问于2019-11-25得票数 1

1回答

使用LDA和Gensim推断新的未见文档的主题分布

、

假设我使用基本命令生成了一个潜在的Corpus1狄利克雷分配模型：我的问题是，我如何从“语料库2”中对新文档进行分类？我尝试使用以下命令print(ldamodel[Corpus2[1]])来

浏览 4提问于2017-07-29得票数 1

回答已采纳

2回答

基于潜在狄利克雷分配的文档聚类

、

在使用LDA算法识别所有文档的主题/聚类后，当新文档到达数据库时，我们是否需要重新运行整个过程，或者是否有其他方法可以通过模型直接将新文档映射到预定义的聚类/主题。

浏览 3提问于2015-10-26得票数 1

3回答

用于文档分类的监督潜在狄利克雷分配？

、、、、

我在一些组中有一堆已经属于人类机密的文档。有没有一个修改过的lda版本，我可以用它来训练模型，然后用它来对未知文档进行分类？

浏览 0提问于2012-11-26得票数 13

回答已采纳

1回答

如何求k-means的k值？

、、

我在包含多个150k文档的数据集上使用k-means，但是我不知道什么是好的k值。我试着用肘部的方法找到它，但是惯性值变化不大。(我使用sklearn)。 

浏览 0提问于2019-04-08得票数 0

3回答

使用Word2Vec进行主题建模

、、

我读到过，最常见的主题建模技术(从文本中提取可能的主题)是潜在狄利克雷分配(LDA)。然而，我感兴趣的是，尝试使用Word2Vec进行主题建模是否是一个好主意，因为它在向量空间中对单词进行聚类。最后，我感兴趣的是根据主题从文本中提取关键字。

浏览 3提问于2015-10-07得票数 19

4回答

文档相似度

、、

我使用tf/idf来计算两个文档之间的consine相似度。它有一些限制，性能不是很好。谢谢附言:还有什么源代码可以用来执行LDA的任务吗？？

浏览 0提问于2010-02-17得票数 5

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

关于“潜在狄利克雷分配的Gibbs采样器推导”的问题

相关·内容

关于“潜在狄利克雷分配的Gibbs采样器推导”的问题

Dirichlet分布单元测试

主题发现/发现的最佳模型

LDA和pLSA包(最好用于Python)

如何使用Scikit-Learn和Python找到最佳集群数量

如何检测任意文本文件或数据中的主题？事先不知道主题的数量

使用在线LDA对测试数据进行预测

(gensim) LdaMallet vs LdaModel？

限制语料库文档字长的潜在狄利克雷分配(LDA)性能

潜在狄利克雷分配(LDA)的文档数

隐狄利克雷分配与文档聚类的关系

基于潜在狄利克雷分配的主题预测

主题建模:如何使用我的拟合LDA模型为R中的新数据集预测新主题？

在主题建模中使用Word2vec输出作为LDA的输入

使用LDA和Gensim推断新的未见文档的主题分布

基于潜在狄利克雷分配的文档聚类

用于文档分类的监督潜在狄利克雷分配？

如何求k-means的k值？

使用Word2Vec进行主题建模

文档相似度

扫码

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐