如何将包含空格的文件路径传递给Gensim LDA Mallet包装器？

、、、、

我是主题模特儿哈佛图书馆的书名和主题。我使用Gensim Mallet包装与Mallet的LDA建模。当我试图得到一致性和困惑值来看模型有多好时，困惑无法计算出下面的例外。如果我使用Gensim的内置LDA模型而不是Mallet，我就不会得到相同的错误。我的语料库中包含的7M+文档长达50字，平均20字，所以文档很短。下面是我代码的相关部分： # TOPIC MODELING from gensim.models import CoherenceModel num_topics = 50 # Build Gensim's LDA model lda_model = gensim

浏览 5提问于2019-03-21得票数 1

1回答

在Google上使用mallet时错误代码126/127

、、、

from gensim.models.wrappers import LdaMallet # mallet_path = 'C:/Users/kmuth/Downloads/mallet-2.0.8/bin/mallet' # update this path mallet_path = '/content/drive/MyDrive/data/mallet/mallet-2.0.8/bin/mallet' ldamallet = gensim.models.wrappers.LdaMallet(mallet_path, corpus=doc_term_matr

浏览 16提问于2022-02-28得票数 0

2回答

ModuleNotFoundError:没有名为“gensim.models.wrappers”的模块

、、、、

我正在尝试使用LDA MAllet模型。但我面临着“没有模块名为'gensim.models.wrappers'”的错误。 I安装了gensim，“gensim.models.LdaMulticore”工作正常。 Java developer工具包安装了我已经下载了mallet-2.0.8.zip并解压缩到c:\ 上。这是我试图使用的代码：从os.environ.update({'MALLET_HOME':r'C:/mallet-2.0.8/'}) mallet_path = r'C:/mallet-2.0.8/bin/mallet

浏览 7提问于2021-03-31得票数 4

回答已采纳

2回答

如何在gensim上修复mallet

、、、

我在笔记本上写了LDA模型。我试图用mallet包装我的gensim LDA模型，得到以下错误： CalledProcessError:命令'../input/mymallet/mallet-2.0.8/bin/mallet import-file --preserve-case --keep-sequence --remove-stopwords -token-regex "\S+“--input /tmp/fbcc4b_corpus.txt --output /tmp/fbcc4b_corpus.mallet‘返回非零退出状态126。由于第二行引发的错误： mallet

浏览 122提问于2020-06-28得票数 1

1回答

gensim中malletmodel2ldamodel之后的主题词分布问题

、、、

在gensim LDA模型上训练LDA模型后，我通过包装器提供的malletmodel2ldamodel函数将模型转换为具有gensim锤子的模型。转换前后的主题词分布有很大不同。在转换后，mallet版本返回非常罕见的主题词分布。 ldamallet = gensim.models.wrappers.LdaMallet(mallet_path, corpus=corpus, num_topics=13, id2word=dictionary) model = gensim.models.wrappers.ldamallet.malletmodel2ldamodel(ldamallet) m

浏览 46提问于2019-02-14得票数 2

3回答

使用Mallet LDA实现的推理: LdaMallet对象没有属性‘pyLDAvis’

、、

可以用LDA的锤子实现来绘制pyLDAvis图吗？我使用LDA_Model没有问题，但是当我使用Mallet时，我会得到： 'LdaMallet' object has no attribute 'inference' 我的代码： pyLDAvis.enable_notebook() vis = pyLDAvis.gensim.prepare(mallet_model, corpus, id2word) vis

浏览 5提问于2018-05-15得票数 6

1回答

gensim LdaMallet提高了CalledProcessError，但在命令行运行mallet时没有出错。

、、、、

这个标题说明了一切。下面是一些测试代码： import os os.environ.update({'MALLET_HOME': r'C:/Users/somebody/a/place/LDA/mallet-2.0.8/', 'JAVA_HOME': r'C:/Program Files/Java/jdk1.8.0_131/'}) from gensim.corpora import mmcorpus, Dictionary texts = [['human', 'in

浏览 7提问于2017-05-23得票数 4

1回答

LDA Gensim Mallet将alpha设置为“auto”

、、

在Python.Gensim实现中，我使用LDA进行主题建模，允许我们将alpha设置为'auto‘，如下所示： alpha ({numpy.ndarray, str}, optional) – ’asymmetric’: Uses a fixed normalized asymmetric prior of 1.0 / topicno. ’auto’: Learns an asymmetric prior from the corpus (not available if distributed==True). 对于

浏览 2提问于2020-07-29得票数 1

回答已采纳

2回答

NameError:未定义名称'gensim‘

、、、

我已经导入了我需要的所有包 from gensim import corpora from gensim import models from gensim.models import LdaModel from gensim.models import TfidfModel from gensim.models import CoherenceModel 然后我需要运行LdaMallet模型，所以我像这样导入它们 from gensim.models.wrappers import LdaMallet 当运行下面的代码时，我得到了一些Namerror mallet_path = '

浏览 279提问于2019-01-27得票数 1

1回答

使用Python subprocess.CalledProcessError进行主题建模

、、

我需要为我的uni项目创建一个主题建模，我所做的就是尝试重复这个人正在做的事情：https://www.youtube.com/watch?v=TgXLq1XIdA0 到目前为止，我正在运行他的代码，直到第45行，我将它复制到这里： #creating our first topic model :) #importing the necessary libraries import gensim, nltk, os #defining lists to work on with #tokens from each file stored here texts = [] #files

浏览 48提问于2021-03-29得票数 0

1回答

如何修复此错误:在Mallet中返回非零退出状态1？

、、

请帮助我解决以下错误。我试了很多，但是没有任何帮助。代码： MALLET_PATH = './Mallet/bin/mallet' def topic_model_coherence_generator(corpus, texts, dictionary, start_topic_count=2, end_topic_count=10, step=1,cpus=1): models = [] coherence_scores = [] for topic_nums in tqdm(range(start_topic_count, end_topic

浏览 6提问于2020-03-13得票数 0

1回答

使用Gensim或其他python LDA包来使用来自Mallet的经过训练的LDA模型

、、

我有一个在Java中通过Mallet训练的LDA模型。从Mallet LDA模型生成了三个文件，这允许我从文件运行模型并推断新文本的主题分布。现在，我想实现一个Python工具，它能够根据经过训练的LDA模型，在给定新文本的情况下推断主题分布。我不想在Python中重新训练LDA模型。因此，我想知道是否可以将经过训练的Mallet LDA模型加载到Gensim或任何其他python LDA包中。如果是这样，我该怎么做呢？感谢您的回复或评论。

浏览 18提问于2017-05-04得票数 5

2回答

Python Gensim Mallet

、、、

我正在尝试使用Python上Gensim的Mallet包装器将LDA应用于主题建模。我正在运行的代码如下： MALLET_PATH = 'C:/mallet-2.0.8/bin/mallet' lda_mallet = gensim.models.wrappers.LdaMallet(mallet_path=MALLET_PATH, corpus=bow_corpus, num_topics=TOTAL_TOPICS, id2word=dictionary,

浏览 5提问于2020-04-02得票数 0

1回答

TypeError:应为字符串、字节或os.PathLike对象，而不是mallet中的_io.BufferedReader

、

我在这里学习了mallet 的教程。然而，在运行python脚本之后，我得到了这个错误。 Traceback (most recent call last): File "tm.py", line 38, in <module> lda_model = gensim.models.wrappers.ldamallet.LdaMallet( File "C:\Users\mmb\anaconda3\lib\site-packages\gensim\models\wrappers\ldamallet.py", line 126, in

浏览 8提问于2021-05-15得票数 0

1回答

2没有这样的文件或目录

、、、

我保存了一个LDAWallet模型：首先我坐了火车： mallet_path = 'mallet-2.0.8/bin/mallet' ldamallet = gensim.models.wrappers.LdaMallet(mallet_path, corpus=corpus, id2word=id2word, num_topics=14) 然后使用save方法保存模型： ldamallet.save('lda_v0.model') 在培训模式时，我忘记了将前缀设置为某个文件，因此，在培训时，我丢失了gensim创建的所有临时文件(doctopics等

浏览 4提问于2020-03-09得票数 0

1回答

包装器的Genism模块属性错误

、、、

我将为LDA找到最佳的主题数量。为此，我使用了GENSIM如下： def compute_coherence_values(dictionary, corpus, texts, limit, start=2, step=3): coherence_values = [] model_list = [] for num_topics in range(start, limit, step): model = gensim.models.wrappers.LdaMallet(mallet_path, corpus=corpus, num_topics=num

浏览 3提问于2021-04-14得票数 5

回答已采纳

3回答

python：[Errno 2]没有这样的文件或目录:FileNotFoundError

、

这是我第一次使用木槌LDA。基本上，我下载了mallet-2.0.8zip文件和JDK。我安装了JDK，将mallet-2.0.8解压到目标文件夹中。我设置了MALLET_HOME。这是我的密码 mallet_path='C:/Users/abc/mallet-2.0.8/bin/mallet' ldamallet=gensim.models.wrappers.LdaMallet(mallet_path,corpus=corpus,num_topics=20,id2word=id2word) 但是，它给出了错误： FILENOTFOUNDERRORERROR2 我试过了

浏览 1提问于2018-06-03得票数 3

1回答

相干图空白- nan的相干值

、、、、

谢谢你的光临。我试着为这个显示为空白的图表寻求一些帮助。我将遵循这篇教程#17 https://www.machinelearningplus.com/nlp/topic-modeling-gensim-python/，使用LDAMallet为不同数量的主题构建一个连贯性分数图。下面是我的代码： os.environ['MALLET_HOME'] = 'C:\\mallet\\mallet-2.0.8' mallet_path = 'C:\\mallet\\mallet-2.0.8\\bin\\mallet' dictionary = g

浏览 59提问于2019-04-24得票数 1

1回答

用于get_document_topics的LDA Mallet替代方案-测量每个文档的主题

、、

目前正在使用Python和Gensim Mallet包装器进行LDA分析。在训练模型并获得主题之后，我想看看主题是如何分布在各种文档中的。在普通的Gensim LDA分析中，可以使用get_document_topics函数，我可以使用它来迭代我的文件中的每个文档。但是，Mallet包装器没有此功能。我可以检索主题在一个特定文档上的分布，但找不到一个解决方案来收集和存储每个文档上的主题(例如，存储到一个列表或数据帧中)。我可以使用以下代码来获取一个文档上的主题分布： print (ldamallet[mm[6000]]) 这将返回以下输出： [(0, 0.3055555555555555),

浏览 40提问于2020-02-25得票数 2

2回答

Gensim Mallet包装器:如何获得所有文档的主题权重？

、、、、

我正在使用Gensim的Mallet包装器进行主题建模- LdaMallet(path_to_mallet_binary, corpus=corpus, num_topics=100, id2word=words, workers=6, random_seed=2) 虽然上面的工作速度惊人地快，但获取每个文档(n=40,000)的主题分布的步骤(见下文)花费了很长的时间。 #Store topic distributuon for all documents all_topics=[] for x in tqdm(range(0, len(doc_list))): all_topic

浏览 37提问于2020-06-13得票数 0

1回答

、、、、

我正在尝试使用Gensim的Mallet包装器。当我运行以下代码时： import os import gensim os.environ.update({ 'MALLET_HOME': r":C\Users\me\OneDrive - My Company\Documents\Projects\Current\mallet-2.0.8" }) lda_mallet = gensim.models.wrappers.LdaMallet( r"C:\Users\me\OneDrive - My C

浏览 9提问于2019-09-12得票数 0

回答已采纳

3回答

保存的Gensim LdaMallet模型不能在不同的控制台中工作

、、、

我正在训练巨蟒的ldamallet模型并保存它。我还保存了培训字典，我可以用它为以后看不见的文档创建语料库。如果我在同一个控制台内执行每一个动作(即训练一个模型，保存经过训练的模型，加载保存模型，推断看不见的语料库)，那么一切都可以正常工作。但是，我想在不同的控制台/计算机中使用经过训练的模型。在培训时，我传递了前缀，以查看模型创建的临时文件。在对模型进行培训时，将创建以下文件： 'corpus.mallet‘ 'corpus.txt‘ “博士主题” Inferencer.mallet的 'state.mallet.gz‘ 'topickeys.txt‘

浏览 1提问于2019-05-29得票数 0

1回答

LDA多处理冷冻

、、、

所以我试着在数据集上运行LDA槌。它接受引理标记和一堆文本，这是我们的数据集。问题是当我们运行时，会弹出一条冻结消息，所有已经运行的旧方法都会重新开始运行。它说，这是由于多处理开始之前，另一个完成。不知道该怎么解决。这是在MacOS上运行的。代码和输出如下。 import gensim from gensim.models.coherencemodel import CoherenceModel from gensim.corpora import Dictionary from gensim.models.ldamodel import LdaModel import os.path de

浏览 8提问于2022-06-17得票数 0

回答已采纳

1回答

lda中所有主题中出现的单词

、、、

我使用gensim lda进行主题建模，并获得如下结果：主题1: word1 word2 word3 word4 主题2: word4 word1 word2 word5 主题3: word1 word4 word5 word6 但是，在相同的lda上使用mallet不会在主题之间产生重复的单词。我有大约20个文档，每个文档>1000个单词，我在这些文档上训练lda。如何摆脱出现在多个主题中的单词？

浏览 5提问于2018-02-08得票数 0

1回答

Gensim木槌虫？多次加载保存的模型失败

、、、、

我正在尝试加载一个保存的gensim lda槌： ldamallet = gensim.models.wrappers.LdaMallet(mallet_path, corpus=corpus, num_topics=n_topics,id2word=id2word) ldamallet.save('ldamallet') 当测试新查询(使用原始语料库和字典)时，第一次加载时一切似乎都很好。 ques_vec = [dictionary.doc2bow(words) for words in data_words_list] for i, row in enumerate(

浏览 0提问于2018-08-10得票数 1

1回答

如何处理Mallet中cmd行中的空格？

、、、、

如果我在中运行cmd中没有空格的路径，这是可以的。 Mallet导入-dir--输入E:\Mallet\mallet-2.0.8RC3\sample-data\web\en -输出E:\Mallet\topicout\weben.mallet -保持顺序-删除-停止词上面没问题。我将\n下面的文件复制到路径包含空格的另一个文件夹中。我在下面使用引号，但不起作用。Cmd提示错误数据\eco。您能帮我处理这个命令路径中的空格吗？输入“F：\0经济学家数据\eco数据\最终经济学家1991-2016年从Abi Proquest\所有文章\cn article\cn_1991”-输出“F：\0经济

浏览 2提问于2019-03-09得票数 1

回答已采纳

1回答

PyLDAvis可视化与生成的主题不一致

、、、、

我正在使用PyLDAvis来可视化来自Mallet的LDA结果。在此之前，我需要gensim库的包装器： model = gensim.models.wrappers.ldamallet.malletmodel2ldamodel(model_list[8]) 当我打印找到的主题时，它们的顺序是从0到10。但是，当我使用pyLDAvis可视化主题时，主题顺序(0-10)与打印的主题不一致。示例： (5, '0.042*"euro" + 0.030*"smartpho" + 0.022*"camera" + 0.020*"

浏览 102提问于2019-12-13得票数 2

2回答

如何在gensim中使用mallet设置主题模型的随机种子？

、、、

我一直试图通过使用mallet作为gensim中的库来保持主题建模的输出稳定。然而，我发现mallet可以设置随机种子，但我在gensim中看不到任何参数来设置它。

浏览 1提问于2018-10-11得票数 2

1回答

FileNotFoundError：[Errno 2]没有这样的文件或目录: mallet路径

、、、、

所以这段代码之前是工作的，现在我得到了这个错误-请帮助:( mallet_path = 'C:/mallet/mallet-2.0.8/bin/mallet.bat' ldamallet_test = gensim.models.wrappers.LdaMallet(mallet_path, corpus=bow_corpus_test, num_topics=20, id2word=dictionary_test) ? ?

浏览 8提问于2019-04-03得票数 1

回答已采纳

1回答

LDA Mallet Gensim CalledProcessError

、

看上去很多人都和Mallet有问题。 import os from gensim.models.wrappers import LdaMallet os.environ.update({'MALLET_HOME':r'C:/Users/myusername/Desktop/Topic_Modelling/mallet-2.0.8'}) mallet_path = r'C:/Users/myusername/Desktop/Topic_Modelling/mallet-2.0.8/bin/mallet' model = gensim.mod

浏览 17提问于2021-07-29得票数 0

回答已采纳

9回答

Gensim mallet CalledProcessError:返回的非零退出状态

、、、、

我在试图访问jupyter笔记本中的gensims木槌时出错了。我将指定的文件'mallet‘与我的笔记本放在同一个文件夹中，但似乎无法访问它。我试着从C驱动器路由到它，但仍然得到了相同的错误。(请帮助:) import os from gensim.models.wrappers import LdaMallet #os.environ.update({'MALLET_HOME':r'C:/Users/new_mallet/mallet-2.0.8/'}) mallet_path = 'mallet' # update this

浏览 1提问于2019-03-21得票数 6

回答已采纳

1回答

在mallet中进行hLDA主题建模的cmd

我正在尝试使用hLDA在已经检查过的mallet.Ihave 中进行主题建模。使用cmd bin\mallet train-topics --input tutorial.mallet 根据这个。默认情况下，将执行LDA主题建模。如何将其更改为hLDA？任何建议都会很有帮助。

浏览 5提问于2017-03-10得票数 1

1回答

如何将对象传递到使用hyperopt优化的函数中？

、

我是hyperopt包的新手。现在，我想优化我的LDA模型，它是在gensim中实现的。LDA模型经过优化，使训练数据的轮廓得分最大化。现在，我的问题是“如何将训练数据(numpy.ndarray)传递给从hyperopt调用的目标函数？”我看了一些教程和一些。他们将训练数据设置为全局变量。但在我的情况下，很难将训练数据设置为全局变量。我编写了以下代码来使用hyoeropt优化LDA。我堆积了将训练数据传递给gensim_objective_function函数的方法，因为我将把gensim_lda_optimaze放在调用gensim_lda_optimaze函数的系统中。如何实现这一

浏览 0提问于2015-12-17得票数 3

1回答

如何在gensim中使用models.hdpmodel - Hierarchical Dirichlet过程获取文档主题

、、、、

我只是为了主题建模而学习gensim。当我使用 lda_model = gensim.models.ldamodel.LdaModel(...) 结果lda_model有两个函数: get_topics()和get_document_topics()。我可以通过它们找到主题-word和文档-主题。但是，我想尝试一下： hdp_lda_model = gensim.models.hdpmodel.HdpModel(...) 我只能在它的结果中找到get_topics()，没有像get_document_topics()这样的东西。所以我找不到文档和主题的关系。但它应该在某个地方。我从https

浏览 108提问于2019-12-20得票数 1

回答已采纳

1回答

为什么用Mallet进行LDA时不能选择beta参数？

我最近正在使用Mallet进行LDA主题建模。我认识到我能够将算法的Alpha超参数传递给Mallet，但是LDAMallet类不包含任何beta参数的变量。你们能告诉我这是怎么回事吗？我知道我可以每隔n个时间间隔开启超参数优化，这将重新计算参数的最佳值，但即使在那里，我也不知道它们是按照什么标准进行优化的。最好的，尼罗

浏览 22提问于2020-05-18得票数 1

1回答

Mallet是否会停止处理大型数据集？

、、、、

我正在尝试使用LDA Mallet将我的tweet分配给主题，当我向它提供多达500,000条tweet时，它工作得很好，但当我使用我的整个数据集时，它似乎停止工作，大约有2,500,000条tweet。你对此有什么解决方案吗？当我运行代码时，我会监控CPU和RAM的使用情况，以此来确保代码确实在运行(我使用Jupyter notebook)。我使用下面的代码将我的tweet分配给主题。 import os from gensim.models.wrappers import LdaMallet os.environ.update({'MALLET_HOME':r'

浏览 16提问于2019-06-19得票数 0

1回答

csv矩阵在一个模型中的主题相似性

、、

我想要生成一个主题到主题矩阵，以找到类似的主题，以生成内部集群的函数gensim.models.ldamodel.diff从gensim LDA。如何将生成的数据保存到包含主题和单元格中的距离(在本例中为hellinger距离)的csv中？此代码不适用于我： from gensim import models import pandas dateiname_model1 = "lda.model" model1 = models.LdaModel.load(dateiname_model1) topic_over_topic = model1.diff(model1, a

浏览 2提问于2018-05-31得票数 1

回答已采纳

2回答

CalledProcessError:返回的非零退出状态1

、、、

当我试图逃跑时： def remove_stopwords(texts): return [[word for word in simple_preprocess(str(doc)) if word not in stop_words] for doc in texts] def make_bigrams(texts): return [bigram_mod1[doc] for doc in texts] # Remove Stop Words data_words_nostops1 = remove_stopwords(data_words1) # Form Bigra

浏览 3提问于2019-05-15得票数 1

回答已采纳

2回答

如何在新闻文章中使用gensim for lda？

、、

我正在尝试从一个庞大的新闻文章语料库中检索主题列表，我计划使用gensim使用LDA来提取每个文档的主题分布。我想知道lda的gensim实现所需的处理文章的格式，以及如何将原始文章转换为该格式。我在维基百科上看到了关于使用lda的链接，但我发现语料库处于已处理状态，其格式在任何地方都没有提到

浏览 5提问于2012-04-02得票数 3

回答已采纳

3回答

对于动态主题模型，有没有高效的python库，最好是扩展Gensim？

、、、、

我正在尝试使用主题模型对twitter流数据进行建模。Gensim是一个易于使用的解决方案，它的简单性令人印象深刻。它有一个真正的LSI在线实现，但不是LDA。对于像twitter这样不断变化的内容流，动态主题模型是理想的选择。有没有什么方法，或者甚至是黑客--一种实现，或者甚至是一种策略，我可以使用Gensim来达到这个目的？是否有其他派生(最好)自Gensim或独立的python实现？我更喜欢python，因为我想尽快开始，但如果有一些工作的最佳解决方案，请提出来。谢谢。

浏览 2提问于2014-03-18得票数 6

3回答

如何在训练Mallet LDA之前将文档细分为句子

、

你们有什么建议可以让我在训练MALLET LDA之前把文档细分成句子吗？提前谢谢你

浏览 11提问于2018-02-18得票数 1

回答已采纳

3回答

Python子进程调用预编译java

、、、

这可以从windows命令行执行： c:\mallet\bin\mallet run 我试过了 subprocess.call(['c:\mallet\bin\mallet', 'run']) 得到一个错误 WindowsError: [Error 2] The system cannot find the file specified 我试过了 subprocess.call(['c:/mallet/bin/mallet', 'run']) 并得到错误 WindowsError: [Error 193] %1 is not a

浏览 7提问于2015-03-27得票数 1

回答已采纳

2回答

无法运行Mallet TopicModel

、、

我试图运行Mallet`s的主题建模，但得到了以下错误： Couldn't open cc.mallet.util.MalletLogger resources/logging.properties file. Perhaps the 'resources' directories weren't copied into the 'class' directory. Continuing. Exception in thread "main" java.lang.IllegalArgumentException: Trouble

浏览 1提问于2014-07-04得票数 0

2回答

Gensim LDA :错误:无法在空集合(无术语)上计算LDA

、、、

我遇到了与这个线程相同的错误：ValueError: cannot compute LDA over an empty collection (no terms)，但所需的解决方案并不相同。我正在和Sklearn一起开发一个笔记本，我已经完成了LDA和NMF。我现在正在尝试使用Gensim做同样的事情：https://radimrehurek.com/gensim/auto_examples/tutorials/run_lda.htm 下面是我笔记本中的一段代码(用Python编写)，描述了我想要做的事情： dic = gensim.corpora.Dictionary(texts_le

浏览 1021提问于2021-04-23得票数 0

回答已采纳

1回答

如何在Java中从外部jar捕获异常

、、

我尝试使用运行LDA算法。当我尝试使用一组参数运行LDA时，它是可以的，但是对于另一组，我有以下错误： 09-Oct-2014 23:50:24.354 INFO [http-nio-8084-exec-127] cc.mallet.topics.ParallelTopicModel.estimate <50> LL/token: -8.73265 09-Oct-2014 23:50:24.657 INFO [http-nio-8084-exec-127] null.null [beta: 0.00795] 09-Oct-2014 23:50:24.657 INFO [htt

浏览 2提问于2014-10-09得票数 2

回答已采纳

1回答

LDA Mallet CalledProcessError

、、、

我正在尝试实现以下代码： import os os.environ.update({'MALLET_HOME':r'c:/mallet-2.0.8/'}) mallet_path = 'C:\\mallet-2.0.8\\bin\\mallet' ldamallet = gensim.models.wrappers.LdaMallet(mallet_path, corpus=bow, num_topics=20, id2word=dictionary) 但是，我一直收到这样的错误：命令'C:\mallet-2.0.8\bin\mal

浏览 1提问于2018-10-16得票数 3

1回答

如何将主导主题、贡献百分比和主题关键字返回到原始模型

、、、

LDA Mallet主题建模有很多示例，但没有一个示例显示如何将主导主题、贡献百分比和主题关键字添加到原始数据框架中。假设这是数据集和我的代码数据集： Document_Id Text 1 'Here goes one example sentence that is generic' 2 'My car drives really fast and I have no brakes' 3 'Your car is slow and needs no brakes' 4

浏览 0提问于2019-11-07得票数 2

2回答

如何保存Gensim LDA模型列表？

、、、

我在一个列表中存储了不同的LDA模型(在相同的文本上，但都有不同的#主题)。现在，我想将这个列表和其中的所有型号保存到我的磁盘上。然而，我不确定这是如何工作的。我应该把is当做一个列表还是一个LDA模型？在gensim website上，我找到了以下代码： from gensim.test.utils import datapath >>> >>> # Save model to disk. >>> temp_file = datapath("model") >>> lda.save(temp_file

浏览 60提问于2019-06-27得票数 0

回答已采纳

1回答

运行时错误:尝试在python简单LDA实现中完成当前进程之前启动新进程。

、、、、

我尝试使用简单的LDA和LDAMulticore在一个非常大的数据集中运行潜在的Dirichlet分配。但是在执行两天后得到以下错误“尝试在当前进程完成其引导阶段之前启动一个新进程。 from gensim.models.coherencemodel import CoherenceModel print('started') Lda = gensim.models.ldamodel.LdaModel ldamodel = Lda(corpus, num_topics=50, id2word = id2word, passes=40,iterations=100, chunk

浏览 8提问于2022-08-06得票数 0

1回答

利用gensim库进行记忆高效的LDA训练

、、、、

今天我刚开始写一个脚本，用gensim库来训练大型语料库的LDA模型(最少3000万个句子)。下面是我使用的当前代码： from gensim import corpora, models, similarities, matutils def train_model(fname): logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO) dictionary = corpora.Dictionary(line.lower().spl

浏览 3提问于2016-02-24得票数 3

回答已采纳