关于Gensim从词典创建语料库的问题_如何从具有gensim的受限词汇中过滤出语料库中的单词？_关于博客创建的WordPress、PHP问题 - 腾讯云开发者社区

、

我是Gensim的新手，我正在学习Gensim，并遵循了下面的示例：https://www.machinelearningplus.com/nlp/gensim-tutorial/ 我不确定从字典中创建语料库的最后一行在创建字典时，我们已经使用simple_preprocess逐行处理“文档”。我在想，在使用字典创建语料库时，我们需要再次使用simp

浏览 20提问于2020-06-21得票数 0

1回答

Gensim:在没有载入RAM的情况下，从大型语料库创建字典？

、、、

主题建模库Gensim提供了能力来流一个大型文档，而不是存储在内存中。流在将语料库转换为鞠躬的阶段是可能的，但字典必须是首先创建的，显然这需要加载完整的语料库：是否有一种不同时加载整个语料库的方法来创建词典？这是我

浏览 0提问于2022-11-26得票数 0

回答已采纳

1回答

将LDA应用于使用gensim进行训练的语料库

、、、、

我有大约20,000个文档的语料库，我必须训练这些数据集，以便使用LDA进行主题建模。=logging.INFO)mm = gensim.corpora.MmCorpus('questions.mmchunksize=3000, passes=20)每当我运行这个程序时，我都会遇到这样的错误： 2013-04-28 09:5

浏览 0提问于2013-04-28得票数 2

3回答

Gensim:如何从保存的lda模型加载语料库？

、、

当我保存我的LdaModel lda_model.save('model')时，它保存了4个文件：lda_model = LdaModel.load('model')

浏览 6提问于2020-03-24得票数 1

回答已采纳

1回答

为什么LDA gensim的实现需要语料库和字典？

、、、、

我正在检查gensim LDA实现，它说它需要一个语料库和一个语料库字典？这是什么原因呢？

浏览 36提问于2020-03-08得票数 0

1回答

使用LDA进行主题建模

、、

通过定义主题来定义语料库和字典以构建LDA模型时，如何区分主题关键字它在给出一个明确的主题编号的同时工作，但我希望它被迭代。准备词典和语料库 from gensim import corpora corpus = [dictionary.doc2bow(doc) for doc in doc_clean] 构建LDA模型 lda_model = gensim.models.lda

浏览 6提问于2019-06-17得票数 0

回答已采纳

2回答

Gensim数据解析

、

好的，这是一个关于向Gensim python库提供训练数据时需要什么数据结构的具体问题。特别是，必须隐含地理解所提供的任何数据中的文档构成(否则，例如，它将无法找到tf-idf)。例如，出于培训目的，在该库的教程中使用了wikipedia转储。维基百科转储以XML格式提供。是什么让gensim理解独立的文档？这种理解是建立在xml元素的基础上的吗？

浏览 12提问于2017-02-22得票数 0

回答已采纳

4回答

pyLDAvis:尝试可视化主题时出现验证错误

、、、

我尝试使用gensim为300000条记录生成主题。在尝试可视化主题时，我得到了一个验证错误。('dictionary1.dict')lda = gensim.models.LdaModel.load('topic.model') data = pyLDAvis.gensim.prepare(lda, c, d) 在py

浏览 173提问于2017-12-28得票数 8

3回答

在mac中导入gensim

、

在python中导入gensim时，我遇到了问题。打字时：追溯(最近一次调用)：文件""，第1行，文件"/Library/Python/2.7/site-packages/gensim/init.py"，第6行，在gensim导入解析、matutils、接口、语料库、模型、相似性、汇总ImportError:无法导入名称解析此外，当我查看&

浏览 6提问于2015-12-01得票数 0

回答已采纳

1回答

在Python中使用Gensim进行主题建模

、、、、

我有两节课的单词清单。假设n项在A类中，m项在类B中。我希望在python中使用gensim包(用于LDA)的主题建模，以便为A类和B类训练一个模型，同时我对主题建模和Python都很陌生。我的意思是，我应该把每个班级的所有包和使用的gensim合并起来，还是应该单独使用每个项目的包？谢谢!

浏览 3提问于2014-12-05得票数 1

回答已采纳

1回答

如何有效地将Gensim语料库转换为numpy数组(或scipy稀疏矩阵)？

、、

假设我有一个(可能)很大的语料库，大约有2.5M个语料库和500个特征(在使用gensim对原始数据运行LSI之后)。我需要语料库来使用scikit-learn训练我的分类器。但是，我需要首先将语料库转换为numpy数组。语料库创建和分类器训练器在两个不同的脚本中完成。所以问题是，我的集合大小预计会增长，在这个阶段我已经没有足够的内存(机器上的3

浏览 5提问于2015-12-31得票数 4

1回答

如何使用csr_matrix初始化gensim语料库变量？

、、、、

我将X作为一个csr_matrix，它是我使用scikit的tfidf向量器获得的，y是一个数组。我的计划是使用LDA创建特性，但是，我没有找到如何用X作为csr_matrix初始化gensim的语料库变量。换句话说，我不想像gensim文档中所示的那样下载一个语料库，也不想将X转换成一个密集的矩阵，因为它会消耗大量的内存，计算机可能会挂起。简而言之，我的

浏览 1提问于2013-03-27得票数 7

回答已采纳

1回答

删除Gensim中的文档

、、、

我正在使用Gensim执行NLP任务，目前我有一个包含空文档的语料库。我不想重新运行我的代码，尽管这是一种选择，我只想删除没有任何内容的文档。这些文档已经保存为TF-IDF语料库，并想知道是否有方法可以删除这些空文档。我可以找出哪些文档是空的，但是语料库文件是一个迭代器，而不是任何类型的数据结构，即列表。谢谢, 卡梅伦

浏览 22提问于2016-07-28得票数 0

回答已采纳

1回答

我得到运行时警告:在double_scalars中遇到无效的值，在使用ldaseq时除以在double_scalars中遇到的零

、、、、

在gensim中使用ldaseqmodel时，我得到了运行时警告：D:\Anaconda3\lib\site-packages\gensim\models\ldaseqmodel.py:293: RuntimeWarning:除以在double_scalars中遇到的零收敛=np.fabs(绑定-

浏览 4提问于2020-10-11得票数 0

2回答

将术语文档矩阵传递给Gensim* LDA模型*

、、、、

我的术语文档矩阵是一种numpy矩阵格式，我有一本字典来表示术语文档矩阵。我能把这个传给gensim.models.ldamodel.LDA

浏览 3提问于2014-12-01得票数 3

回答已采纳

1回答

基于Gensim的多个语料库的潜在Dirichlet分配

、、、

我有两个与gensim的使用有关的问题。 1)如何使用一个语料库创建一个模型，保存它，或者通过在另一个语料库上对模型进行训练来扩展它？有可能吗？( 2) LDA是否可以用来分类一个看不见的文档，或者需要通过将它包含在语料库中来重新创建模型？有没有一种在线的方式来做这件事，并看到变化的动态？我对LDA有相当基本的理解，并使用、lda、和gensim

浏览 1提问于2015-05-31得票数 0

回答已采纳

2回答

如何在新闻文章中使用gensim* for lda？*

、、

我正在尝试从一个庞大的新闻文章语料库中检索主题列表，我计划使用gensim使用LDA来提取每个文档的主题分布。我想知道lda的gensim实现所需的处理文章的格式，以及如何将原始文章转换为该格式。我在维基百科上看到了关于使用lda的链接，但我发现语料库处于已处理状态，其格式在任何地方都没有提到

浏览 5提问于2012-04-02得票数 3

回答已采纳

2回答

如何对大型DataFrame使用Gensim* Doc2vec infer_vector()？*

、、

我已经使用Gensim的doc2vec为大型语料库创建了文档向量。sentences=gensim.models.doc2vec.TaggedLineDocument('file.csv')现在我正在使用Gensim<em

浏览 11提问于2017-12-20得票数 2

1回答

我有几千个文档，我想在 gensim doc2vec 模型中使用，但每个文档只有 5 克，而不是原始词序的全文。在 gensim 网站 (https://radimrehurek.com/gensim/auto_examples/tutorials/run_doc2vec_lee.html) 上的 doc2vec教程中，使用全文创建了一个语料库，然后在该语料库上训练模型。有没有可能创建

浏览 1提问于2020-02-22得票数 1

1回答

为什么用gensim计算相似度需要字典的大小？

、、

为了使用gensim.similarities.docsim.Similarity类计算单词之间的相似度，需要提供语料库和字典的大小。在我的例子中，语料库是使用word2vec模型计算的词向量。我想知道为什么gensim需要这么大的字典？另外，如果这里需要用于创建word2vec模型的字典的大小，或者语料库的字典的大小，我想要

浏览 0提问于2020-06-23得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云