如何将LDA与其他主题模型进行比较？_无法使用LDA训练模型对主题进行分类_Watson natural language processing使用什么模型进行主题建模？LDA？ - 腾讯云开发者社区

、、

我对主题建模领域很感兴趣，我即将开发自己的算法。我目前面临的问题是如何将我的工作结果与最先进的模型(如LDA )的结果进行比较。由于LDA的结果是不确定的(据我所知，如果算法第二次运行，它们不能被设置为相同)，我如何得出结论，即我的模型与使用不同配置集的LDA模型相比有多好？

浏览 12提问于2019-03-07得票数 0

1回答

在自然语言中比较几个语料库的最佳方法是什么？

、、、、

我一直在为一个研究项目(使用Gensim和python)用自然语言编写叙事报告的LDA主题模型。我有几个较小的语料库(每个语料库从1400到200个文档-我知道，这很小！)我想进行比较，但除了查看每个LDA模型(例如使用pyLDAviz)之外，我不知道如何进行比较。我的学术背景不是CS，而且我对NLP还是个新手。在语料库/主题模型中比较主题的一些好方法

浏览 0提问于2017-09-01得票数 4

1回答

python - sklearn潜在Dirichlet分配变换诉Fittransform

、

我正在使用sklearn的NMF和LDA子模块来分析未标注的文本。我阅读了文档，但不确定这些模块中的转换函数(NMF和LDA)是否与R的主题模型中的后验函数相同(请参见)。基本上，我正在寻找一个函数，它将允许我使用训练集数据训练的模型来预测测试集中的主题。我预测了整个数据集上的主题。然后将数据分解为训练集和测试集，对训练集模型进行训练，并利用该模型对测试集进行转换。虽然预期我不会得

浏览 3提问于2016-11-14得票数 7

回答已采纳

2回答

我研究过几个weeks.But的LDA和主题模型，由于我的数学能力较差，不能完全理解它的内部算法，我使用了GibbsLDA实现，输入了大量的文档，并将主题数设置为100，我得到了一个名为"final.theta“的文件，它存储了每个document.This中每个主题的主题比例，结果很好，我可以用主题比例来做很多其他的事情。但是当我在LDA上尝试Blei的C语言实现时，我只得到了一个名为final.gamma的文件，但我不知

浏览 0提问于2012-03-07得票数 4

1回答

文本数据中主题(集群)数量的选择

、、、、

在分析文本数据时，我正在寻找关于主题/集群数量选择的建议。特别是，我正在分析一个包含200000多个tweet的数据集，并在其上执行一个潜在的Dirichlet分配模型，以找到代表我数据集中tweet的主要主题的集群。此外，您认为有其他方法和/或常规规则可以依赖于选择集群的数量吗？

浏览 0提问于2021-09-05得票数 1

1回答

在Python中使用Gensim进行主题建模

、、、、

我希望在python中使用gensim包(用于LDA)的主题建模，以便为A类和B类训练一个模型，同时我对主题建模和Python都很陌生。有人知道我该怎么做吗？

浏览 3提问于2014-12-05得票数 1

回答已采纳

2回答

主题建模，但与已知的主题？

好的，通常是主题模型(如LDA，pLSI等)用于推断一组文档中可能以无监督方式出现的主题。我想知道是否有人对我如何将我的问题塞进LDA框架有任何想法，因为有非常好的工具可以解决LDA问题。在这种情况下，文档只能有一个主题。在这种情况下，单词是基的三重奏(目前而言)。这与经典的LDA模型的主要区别在于，我提前知道了

浏览 2提问于2013-05-28得票数 6

1回答

如何比较LDA和TF-国防军？

、、、、

我正在进行文本挖掘，以从文档中提取主题。我从潜在的Dirichlet分配(LDA)开始，这很有效，但后来我遇到了TF-以色列国防军的K-均值聚类，这对我来说效果更好。我想对两者进行评估，但我无法找到任何有用的验证或度量来比较这两种情况。如何将这两者与有用的度量进行比较呢？

浏览 0提问于2017-06-14得票数 2

2回答

使用Gensim获得LDA-模型的最佳主题数量的最佳方法是什么？

、、、、

我正试图在Gensim中获得LDA模型的最佳主题数.我发现的一种方法是计算每个模型的日志可能性，并相互比较，例如在上。因此，我研究了使用Gensim计算LDA模型的日志可能性，并看到了以下帖子：是否有更好的方式获得最佳数量的主题与Gensim？

浏览 5提问于2015-08-31得票数 11

1回答

在R中使用LDA对新文本进行分类

、、、

我第一次尝试使用R进行主题建模。因此，这可能是一个非常愚蠢的问题，但我被困，谷歌还没有给出一个明确的答案。 ap_lda <- LDA(AssociatedPress_train, k = 5, control = list(seed

浏览 0提问于2018-01-15得票数 4

回答已采纳

1回答

如何从已有的文本聚类中提取主题？

、、、

我已经尝试在原始文本语料库(预聚类)上使用LDA，并获得了许多主题，但是我不确定如何将这些主题映射到我现有的每个聚类上。有没有其他方法可以推荐LDA，或者LDA是正确的方法，我该如何继续呢？在线材料只展示了如何将lda主题映射到文档句子上，而不是预先存在的聚类。如果我这样做，并根据它们分配的主题对这些句子进行分割，我将得到与原始聚类不同的结果(这并不理想)。

浏览 38提问于2019-12-16得票数 1

回答已采纳

1回答

LDA直觉

、、、、

有人能解释LDA-主题模型是如何将单词分配给主题的吗？我理解LDA模型的生成特性，但是该模型如何认识到“拉布拉多”和“狗”是相似的词/在同一个集群/主题中？有一种相似性度量吗？LDA的学习参数是:主题词的分配、主题词的概率向量和文档主题概率向量。但它是如何学会的呢？

浏览 0提问于2020-05-03得票数 1

回答已采纳

3回答

主题发现/发现的最佳模型

、、、、

在简短的非结构化文档中发现主题的最佳模型是什么，例如。短信还是推特消息？潜在的狄利克雷分配？

浏览 2提问于2011-10-07得票数 3

回答已采纳

1回答

主题对齐/主题建模

、、、、

什么是最有效的方法来检测这篇文章是否主要是关于一个特定的主题，但没有大量的数据进行培训？我的任务是确定一份文件有多少是关于天气、假期或其他几个特定主题的。我期待LDA和TFIDF，但据我所知，这种方法是不受监督的，并很好地根据词汇量对大量文档进行聚类/分组。这些技术在控制算法应该关注的主题方面有一定的局限性。此外，在我的例子中，我没有太多的数据来训练模型。因此，我正在考虑生成一些特定主题的标记特征列表，然后用word2vec

浏览 0提问于2020-04-23得票数 1

1回答

两种LDA模型的比较

、、

我正在研究Twitter数据的主题建模。我提取数据并将其存储在MySQL表中。这些列是日期、位置、UserID、文本、tweetID、weekID(基于我指定的日期，它属于哪个星期)。我还收集了每周的数据，并为每周建立了一个LDA模型。我目前正在使用来自Gensim的pyLDAvis来可视化每周的主题。有没有办法比较我每周的LDA模型。我想比较一下它们，这样我就可以看到一个特定的话题是如何在几周内发生变化的。任何想法都是非常感谢的。我试图建立每周的<

浏览 5提问于2022-03-28得票数 0

1回答

是否使用( LDA，HDP)自动创建主题？

、

我正在做简历(简历)的分类工作，我已经使用了LDA。通过设置(N=3)，我在3个不同的CV (营销，计算机，沟通)概念上的结果是好的。现在的问题是，我如何为具有金融概念(或其他概念)的新简历创建新主题(当然是通过将其添加到现有主题中)？事实上，我的目标是每次都生成新的主题，以获得新的概念。我每天都会用不同的概念得到不同的简历，我对选择哪种算法(HDP，On_Line LDA)进行自动分类有疑问。

浏览 1提问于2014-01-27得票数 1

1回答

使用LDA主题模型作为分类模型输入

、、

我使用大的训练数据集制作LDA模型来制作主题模型。因此，我尝试使用这个LDA模型来对训练数据集中没有使用的新句子进行分类。欢迎使用Python分享示例代码。

浏览 4提问于2019-12-05得票数 0

1回答

文本处理，如何使用LDA分配一个主题-> 1文档？

、、、、

我有两个文件，我想从上面抽取两个主题(Music，Science)lda = gensim.models.ldamodel.LdaModel(corpus=my_corpus, id2word=corpus_dictionary, num_topics=2) print(lda.print_topicnot +

浏览 5提问于2015-04-12得票数 1

1回答

使用LDA随时间分布主题

、、、

我的目标是识别tweet的主题，并可视化主题的分布如何随着时间的推移而变化。据我所知，最好的方法是使用stm包，但我对它有一些问题。所以，我唯一的选择就是做一个简单的LDA。基于每个tweet的主题份额，我汇总了每年的主题份额，并将每个主题份额与每年的总份额进行比较(与这里的https://towardsdatascience.com/thats-mental-using-lda

浏览 78提问于2021-05-08得票数 1

1回答

使用Gensim或其他python LDA包来使用来自Mallet的经过训练的LDA模型

、、

我有一个在Java中通过Mallet训练的LDA模型。从Mallet LDA模型生成了三个文件，这允许我从文件运行模型并推断新文本的主题分布。现在，我想实现一个Python工具，它能够根据经过训练的LDA模型，在给定新文本的情况下推断主题分布。我不想在Python中重新训练LDA模型。因此，我想知道是否可以将经过训练的Mallet LDA模型加载到Gensim或任

浏览 18提问于2017-05-04得票数 5

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云