有必要将TF-IDF应用于gensim LDA模型中的新文档吗？

文章/答案/技术大牛

发布

2回答

如何在新闻文章中使用gensim for lda？

machine-learning、lda、gensim

我正在尝试从一个庞大的新闻文章语料库中检索主题列表，我计划使用gensim使用LDA来提取每个文档的主题分布。我想知道lda的gensim实现所需的处理文章的格式，以及如何将原始文章转换为该格式。我在维基百科上看到了关于使用lda的链接，但我发现语料库处于已处理状态，其格式在任何地方都没有提到

浏览 5提问于2012-04-02得票数 3

回答已采纳

1回答

在新语料库上进行LatentDirichletAllocation主题推理

python、scikit-learn、lda、topic-modeling

经过多次训练和调整模型的迭代(即添加停用词和同义词，改变主题的数量)，我对提炼出的主题相当满意和熟悉。作为下一步，我想将训练好的模型应用于新的语料库。是否可以将拟合的模型应用于一组新的文档，以确定主题分布。我知道这在gensim库中是可能的，在gensim库

浏览 14提问于2018-08-02得票数 3

回答已采纳

2回答

gensim

我在上关注“英语维基百科”的基因教程doc_lda = lda[doc_bow] LDA是否只需要词袋向量？

浏览 89提问于2017-06-27得票数 10

回答已采纳

1回答

使用一些外部tf-idf矩阵和术语列表中的gensim训练LDA模型

python-3.x、tf-idf、lda、topic-modeling、gensim

我已经有了一个tf-idf矩阵，其中行代表术语，列代表文档。现在，我想用给定的术语-文档矩阵训练一个LDA模型。第一步似乎是使用gensim.matutils.Dense2Corpus将矩阵转换为语料库格式。但是如何构造id2word参数呢？我有术语列表(#terms==#rows)，但是我不知道字典的格式，所以我不能用像gensim.corpora.Dictionary.load_from_tex

浏览 2提问于2014-11-28得票数 2

2回答

基于潜在狄利克雷分配的文档聚类

nlp、lda

在使用LDA算法识别所有文档的主题/聚类后，当新文档到达数据库时，我们是否需要重新运行整个过程，或者是否有其他方法可以通过模型直接将新文档映射到预定义的聚类/主题。

浏览 3提问于2015-10-26得票数 1

3回答

gensim.interfaces.TransformedCorpus -如何使用？

gensim、lda

在潜在的Dirichlet分配领域，我是相对较新的。我能够按照维基百科教程生成一个LDA模型，并且能够用我自己的文档生成一个LDA模型。我现在的步骤是尝试理解如何使用以前生成的模型来分类未见的文档。我把我的"lda_wiki_model“保存在 id2word =gensim.cor

浏览 5提问于2017-07-26得票数 9

回答已采纳

1回答

如何使用主题模型(LDA)输出来匹配和检索新的、相同主题的文档

text、lda、topic-modeling

我在语料库上使用一个LDA模型来学习它所涵盖的主题。我正在使用gensim包(例如，gensim.models.ldamodel.LdaModel)；如果需要，可以很容易地使用其他版本的LDA。我的问题是，使用参数化模型和/或主题词或主题is查找和检索包含主题的新文档的最有效方法是什么？具体来说，我想刮一个媒体API，以找到与我的原始语料库中<

浏览 5提问于2016-10-25得票数 0

回答已采纳

4回答

如何在具有gensim的语料库中过滤出tf-idf低的单词？

python、nlp、gensim

我正在使用gensim来完成一些NLP任务。我已经从dictionary.doc2bow创建了一个语料库，其中dictionary是corpora.Dictionary的对象。现在，我想在运行LDA模型之前过滤掉tf-idf值较低的术语。我查看了语料库类的，但找不到访问术语的方法。有什么想法吗？谢谢。

浏览 0提问于2014-07-11得票数 8

3回答

从gensim* LDA模型中提取主题分布*

gensim、lda、topic-modeling

我使用python中的gensim包为一些文本文件创建了一个LDA模型。我想获得学习模型的主题分布。在gensim ldamodel类中是否存在从模型中获取主题分布的方法或解决方案？例如，我使用一致性模型来寻找一个模型，该模型的值与1到5的主题数有关。得到最佳模型后，我使用g

浏览 1提问于2018-08-29得票数 2

回答已采纳

1回答

Gensim获取文档的主题(见文档)

python、lda、gensim

我知道，在对gensim的lda模型进行培训之后，我们可以通过以下方法获得一个看不见的文档的主题：doc_lda = lda[doc_bow] 但是，那些已经用于培训的文档呢？我的意思是，是否有一种方法可以获得语料库中用于培训的文档<

浏览 3提问于2014-04-12得票数 8

回答已采纳

1回答

如何在gensim中使用models.hdpmodel - Hierarchical Dirichlet过程获取文档主题

document、gensim、word、lda、hdp

我只是为了主题建模而学习gensim。当我使用 lda_model = gensim.models.ldamodel.LdaModel(...)结果lda_model有两个函数: get_topics()和get_document_topics()。我可以通过它们找到主题-word和文档-主题。但是，我想尝试一下： hdp_lda_model = gensim.models.hdpmodel.HdpModel(...)我只能在它的结果

浏览 108提问于2019-12-20得票数 1

回答已采纳

1回答

如何使用Gensim应用句子级别的LDA模型？

python、nlp、gensim、lda

是否有可能像Bao和Datta(2014)中提出的那样，使用Gensim应用句子级别的LDA模型？论文is here。它的独特之处在于它提出了“一个句子一个主题”的假设(p.1376)。“最直接的方法是将每个句子视为文档，并将LDA模型应用于句子集合，而不是文档。”(第1376页)。但是，我认为更合理的假设是一句话涉及一个主题。谢谢!

浏览 21提问于2019-04-15得票数 0

回答已采纳

2回答

将术语文档矩阵传递给Gensim* LDA模型*

python、numpy、machine-learning、nlp、gensim

我的术语文档矩阵是一种numpy矩阵格式，我有一本字典来表示术语文档矩阵。我能把这个传给gensim.mo

浏览 3提问于2014-12-01得票数 3

回答已采纳

1回答

理解LDA* /主题建模--过多的主题重叠*

python、nlp、gensim、lda、topic-modeling

我对主题建模/潜在Dirichlet分配很陌生，很难理解如何将这个概念应用于我的数据集(或者它是否是正确的方法)。我有少量的文学文本(小说)，并想提取一些一般性的话题使用LDA。我正在使用Python中的gensim模块以及一些nltk特性。在一次测试中，我把原来的课文(只有6篇)分成30块，每篇有1000个单词。然后，我将块转换成文档项矩阵，并运行算

浏览 0提问于2017-09-20得票数 10

回答已采纳

1回答

为什么TFIDF在Gensim中被视为模型

python、gensim

然而，在gensim中，tfidf似乎被视为自身的一个模型，就像LDA、LSI和其他模型一样。文档链接：

浏览 9提问于2018-07-25得票数 0

回答已采纳

1回答

基于Gensim的多个语料库的潜在Dirichlet分配

python、lda、topic-modeling、gensim

我有两个与gensim的使用有关的问题。 1)如何使用一个语料库创建一个模型，保存它，或者通过在另一个语料库上对模型进行训练来扩展它？有可能吗？( 2) LDA是否可以用来分类一个看不见的文档，或者需要通过将它包含在语料库中来重新创建模型？有没有一种在线的方式来做这件事，并看到变化的动态？我对LDA有<

浏览 1提问于2015-05-31得票数 0

回答已采纳

1回答

标签的LDA* (gensim)*

python、lda、gensim

我使用Gensim包进行主题建模。这个想法是为了理解flickr标签中的主题是什么。到目前为止，我使用的是这个代码(文档是标签)： texts = [[word for word in document.split(";") if word not in stoplist] forLDA，然后为每个主题打印最可能的10个单词。这是正确的吗？或者，我是否必须在文档的某个部分

浏览 3提问于2016-03-04得票数 2

2回答

从gensim的LDA获得统一的主题分布吗？

python、text-mining、lda、gensim

我试图学习每个文档在一个语料库中的主题分布。我有术语文档矩阵( dim: num_terms *no_docs的稀疏矩阵)作为LDA模型的输入(带有num_topics=100)，当我试图推断每个文档的向量时，我得到了它们的均匀分布。这是非常不可能的，因为文档有不同的主题。(term_doc) lda

浏览 0提问于2016-09-08得票数 2

回答已采纳

1回答

计算一致性评分中的错误- AttributeError：'dict‘对象没有属性'id2token’

python、scipy、nlp、gensim、topic-modeling

我是NLP的初学者，这是我第一次做主题建模。我能够生成我的模型，但是我不能产生一致性度量。id2word = dict((v, k) for k, v in tfidfv.vocabulary_.items()) 这是我的</e

浏览 6提问于2019-11-25得票数 0

回答已采纳

1回答

试图利用一个库进行一些主题建模，但并不顺利

python、gensim、lda、corpus

我有一个.csv术语文档矩阵，我想在python中使用gensim执行一些潜在的dirichlet分配。但是，我对Python或LDA并不特别熟悉。你的术语文件CSV矩阵有多大？如果它足够小=适合RAM，您可以：2)用gensim</em

浏览 2提问于2020-03-11得票数 0

回答已采纳

点击加载更多

如何在新闻文章中使用gensim for lda？

在新语料库上进行LatentDirichletAllocation主题推理