我遇到了与这个线程相同的错误:ValueError: cannot compute LDA over an empty collection (no terms),但所需的解决方案并不相同。
我正在和Sklearn一起开发一个笔记本,我已经完成了LDA和NMF。
我现在正在尝试使用Gensim做同样的事情:https://radimrehurek.com/gensim/auto_examples/tutorials/run_lda.htm
下面是我笔记本中的一段代码(用Python编写),描述了我想要做的事情:
dic = gensim.corpora.Dictionary(texts_lem)
dic.filter_extremes(no_below=10, no_above=0.8)
corpus = [dic.doc2bow(doc) for doc in texts_lem]
model = gensim.models.LdaModel(
corpus=corpus,
id2word=dic.id2token,
num_topics=10,
)
我正在使用笔记本另一部分中的现有texts_lem列表来执行Gensim LDA。我遵循这个指南:创建字典、过滤极端值、创建语料库并将其发送到LdaModel()。
不幸的是,它不起作用,并且注释filter_extremes的行也没有帮助(这是另一个出现相同错误的线程的答案)。
texts_lem是单词列表,如下所示:
[
['word', 'word', 'word', 'word'],
['word', 'word', 'word', 'word'],
['word', 'word', 'word', 'word'],
]
我的错误是:
ValueError: cannot compute LDA over an empty collection (no terms)
非常感谢你的帮助。
发布于 2021-04-28 21:30:06
只要不使用id2token即可。
你的模型应该是:
model = gensim.models.LdaModel(
corpus=corpus,
id2word=dic.id2token,
num_topics=10,
)
工作正常。谁知道这是怎么回事?
发布于 2021-04-30 19:30:58
如gensim LDA tutorial所示,在将dictionary.id2token
传递给LdaModel
之前,您需要“加载”字典。使用您的示例,代码应该是
dic = gensim.corpora.Dictionary(texts_lem)
dic.filter_extremes(no_below=10, no_above=0.8)
corpus = [dic.doc2bow(doc) for doc in texts_lem]
# Make a index to word dictionary.
temp = dic[0] # This is only to "load" the dictionary.
id2word = dic.id2token
model = gensim.models.LdaModel(
corpus=corpus,
id2word=id2word,
num_topics=10,
)
这是因为id2token
是以惰性方式初始化的,以节省内存(直到需要时才创建)。您可以参考文档here。
https://stackoverflow.com/questions/67229373
复制相似问题