gensim:在doc2vec词汇表中检索词频

gensim是一个用于主题建模和文本相似度计算的Python库。它提供了一种简单而高效的方法来处理大规模文本语料库，并且支持多种常见的文本表示模型，包括词袋模型、TF-IDF模型和Word2Vec模型。

在gensim中，可以使用doc2vec模型来检索词频。doc2vec是一种基于Word2Vec模型的扩展，它不仅可以学习到单词的向量表示，还可以学习到文档的向量表示。通过将文档中的每个单词与文档本身关联起来，doc2vec模型可以捕捉到单词在文档中的上下文信息，从而更好地表示文档的语义。

要使用gensim进行词频检索，可以按照以下步骤进行：

准备文本语料库：将要检索的文本语料库准备好，可以是一个文本文件或一个文本列表。
构建doc2vec模型：使用gensim的Doc2Vec类来构建doc2vec模型。可以设置一些参数，如向量维度、窗口大小、最小词频等。
构建词汇表：使用build_vocab()方法来构建词汇表，将文本语料库中的单词映射到唯一的整数ID。
训练模型：使用train()方法来训练doc2vec模型，通过迭代语料库中的文档来更新模型的参数。
检索词频：使用infer_vector()方法来获取文档的向量表示，然后可以使用most_similar()方法来检索与给定文档最相似的文档。

gensim官方文档：https://radimrehurek.com/gensim/

腾讯云相关产品和产品介绍链接地址：

腾讯云文智（自然语言处理）：https://cloud.tencent.com/product/tiia
腾讯云智能语音交互（语音识别）：https://cloud.tencent.com/product/asr
腾讯云智能图像处理（图像识别）：https://cloud.tencent.com/product/tii
腾讯云智能视频分析（视频识别）：https://cloud.tencent.com/product/vca
腾讯云智能音频处理（音频识别）：https://cloud.tencent.com/product/ais
腾讯云智能人脸识别（人脸识别）：https://cloud.tencent.com/product/fr
腾讯云智能文本审核（内容审核）：https://cloud.tencent.com/product/ims

gensim:在doc2vec词汇表中检索词频

、、、、

我刚刚在doc2vec模型词汇表中遇到了的单词统计。我想知道是否有其他方法可以检索单词频率，而不是 for word, vocab_obj in model.wv.vocab.items(): print(str(word) + str(vocab_obj.count)) 也许有一种更好的方式通过gensim库(即在txt文件中输出单词和频率)？

浏览 20提问于2018-01-30得票数 0

3回答

有没有办法从doc2vec模型中获得词汇表的大小？

、、

我正在使用gensim doc2vec。我想知道是否有任何有效的方法来了解doc2vec的词汇表大小。一种粗糙的方法是计算单词总数，但是如果数据是巨大的(1GB或更多)，那么这将不是一种有效的方法。

浏览 5提问于2017-01-12得票数 7

回答已采纳

1回答

理解函数build_vocab在Doc2Vec中的作用

、、、、

我最近开始研究Doc2Vec模型。我已经理解了它的机制和它是如何工作的。我正在尝试使用gensim框架来实现它。我已经将我的训练数据转换为TaggedDocument。但我有一个问题:这一行<code>D0</code>的作用是什么？它是为了创建代表文本的随机向量吗？谢谢你的帮助

浏览 120提问于2020-11-17得票数 0

回答已采纳

1回答

Gensim build_vocab花费太长时间

、、、

我试着用gensim库对5000万个可变长度的句子进行doc2vec模型的训练。一些教程(如。( )在实际的训练过程之前有一个model.build_vocab步骤。这部分已经运行了3个小时，没有任何更新。这一步对培训过程是否必要？为什么这一步要花这么长时间，因为它只是对数据的线性传递？在python 3.6.0中使用gensim版本3.4.0

浏览 3提问于2018-04-22得票数 3

回答已采纳

1回答

Word2vec - KeyError

、

我训练了一个来自gensim包的word2vec。尽管我在model.train()方法中传递了一个单词，但它并没有出现在模型的词汇表中。会否出现这种情况呢？为甚麽会这样呢？

浏览 0提问于2016-10-18得票数 1

回答已采纳

1回答

gensim doc2vec "intersect_word2vec_format“命令

、、

只需阅读gensim页面上的doc2vec命令。我对命令“intersect_word2vec_format”很好奇。我对这个命令的理解是，它允许我将经过预先训练的word2vec模型中的向量值注入到我的doc2vec模型中，然后使用预训练的word2vec值来训练我的doc2vec模型，而不是从我的文档语料库生成单词向量值。结果是，我得到了一个更精确的doc2vec模型，因为我使用的是经过预先训练的w2v值，与相对较小的文档语料库相比，该值是从更大的数据集生成的。我对这个命令的理解是否正确？

浏览 9提问于2017-09-02得票数 2

回答已采纳

6回答

更新gensim word2vec模型

、

我有一个用gensim训练过的超过98892个文档的word2vec模型。对于没有出现在句子数组中的任何给定句子(即，我在其上训练模型的集合)，我需要用该句子更新模型，以便下次查询它时会给出一些结果。我是这样做的： new_sentence = ['moscow', 'weather', 'cold'] model.train(new_sentence) 并将其打印为日志： 2014-03-01 16:46:58,061 : INFO : training model with 1 workers on 98892 vocabulary and

浏览 1提问于2014-03-02得票数 38

3回答

在自然语言处理中有没有减少词汇表大小的好方法？

、、、

在处理文本分类、问答等任务时，从语料库生成的原始词汇量通常太大，包含许多“不重要”的单词。我见过的最流行的减少词汇量的方法是丢弃停用词和低频词。例如，在gensim中 gensim.utils.prune_vocab(vocab, min_reduce, trim_rule=None): Remove all entries from the vocab dictionary with count smaller than min_reduce. Modifies vocab in place, returns the sum of all counts that were

浏览 0提问于2020-02-11得票数 1

1回答

Gensim Doc2vec - KeyError：“训练语料库中未见标签/无效标记”

、、

我正在使用gensim的Doc2vec从新闻文章中学习特性。我可以成功地训练我的文件。但是，我很难从模型中检索文档向量以供进一步处理。示例代码(直接采用)： from gensim.models.doc2vec import Doc2Vec, TaggedDocument from gensim.test.utils import common_texts documents = [TaggedDocument((doc), [i]) for i, doc in enumerate(common_texts)] model = Doc2Vec(documents, vector_size=

浏览 0提问于2018-12-15得票数 2

1回答

如何通过R中的网格使用TaggedDocument函数(Gensim \ Doc2Vec)？

、、、

我试图通过网络在R环境中运行Python的gensim包。更具体地说，我正在尝试构建一个doc2vec模型，为此需要准备一个标记和标记集。 TaggedDocument函数是我遇到问题的地方。下面是我试图在R中复制的python的一个例子： import pandas as pd import numpy as np from gensim.models.doc2vec import Doc2Vec, TaggedDocument from nltk.tokenize import word_tokenize data = ["this is the first sentence&#

浏览 8提问于2020-04-30得票数 1

1回答

如何在gensim中使用build_vocab？

、、、

Build_vocab扩展了我以前的词汇量？例如，我的想法是，当我使用doc2vec(s)来训练一个模型时，它只是从数据集中构建词汇表。如果我想扩展它，我需要使用build_vocab() 我应该在哪里使用它？我应该把它放在"gensim.doc2vec()“后面吗？例如： sentences = gensim.models.doc2vec.TaggedLineDocument(f_path) dm_model = gensim.models.doc2vec.Doc2Vec(sentences, dm=1, size=300, window=8, min_c

浏览 1提问于2018-02-09得票数 3

回答已采纳

1回答

Gensim Doc2Vec为模型生成巨大文件

、、、、

我正在尝试从gensim包运行doc2vec库。我的问题是，当我训练和保存模型时，模型文件相当大(2.5GB)，我尝试使用这一行： model.estimate_memory() 但这并没有改变什么。我还试图更改max_vocab_size以减少空间。但没有运气。有人能帮我处理这件事吗？

浏览 3提问于2017-07-19得票数 5

回答已采纳

1回答

gensim Doc2Vec单词不在词汇表中

、、、、

我正在训练一个包含1600个文档的txt文件'full_texts.txt‘的full_texts.txt。一旦我训练了模型，我希望使用相似的方法，而不是单词和句子。然而，由于这是我第一次使用gensim，我无法得到一个解决方案。如果我想通过下面提到的单词寻找相似之处，但我得到了一个错误，即word doesnt exist in the vocabulary和另一个问题是如何检查整个文档的相似性？我已经阅读了很多问题，像这个和查找，但仍然不知道我做错了什么。 from gensim.models import Doc2Vec from gensim.models.doc2vec i

浏览 2提问于2019-04-27得票数 2

1回答

AttributeError: python模块中的“list”对象没有属性“word”

、、、、

在使用doc2vec进行培训时，我得到了以下错误： AttributeError: 'list' object has no attribute 'words' in python gensim module 这是我的密码： # Extracting titles from csv to list with open(query+'_titles.csv', 'rb') as f: reader = csv.reader(f) titlelist = list(reader) # build model = doc

浏览 2提问于2018-01-04得票数 1

回答已采纳

1回答

有没有一种方法可以在训练doc2vec模型之前加载预先训练好的词向量？

、

我正在尝试建立一个大约有10k个句子的doc2vec模型，然后我将使用这个模型在一些新句子的模型中找到最相似的句子。我已经使用我拥有的语料库(10k个句子)训练了一个gensim doc2vec模型。这个模型可以在一定程度上告诉我一个新句子是否与语料库中的一些句子相似。但是，有一个问题:新句子中可能存在语料库中不存在的单词，这意味着它们没有单词嵌入。如果发生这种情况，预测结果将不会很好。据我所知，经过训练的doc2vec模型确实有一个文档向量矩阵和一个单词向量矩阵。因此，我的想法是加载一组预先训练的词向量，其中包含大量的单词，然后训练模型以获得文档向量。这有意义吗？是否可以使用gensim？

浏览 1提问于2019-07-12得票数 0

1回答

如何加载训练过的模型，并用它训练doc2vec？

、、、

我有一个准备去word2vec模型，我已经训练过了。我已将其序列化为CSV文件： word, v0, v1, ..., vN house, 0.1234, 0.4567, ..., 0.3461 car, 0.456, 0.677, ..., 0.3461 我想知道的是如何在gensim中加载单词向量模型，并使用它来训练段落或doc2vec模型。这个说我可以以"# C text format“的形式加载一个模型，但我不知道这到底意味着什么。什么是"C文本格式“首先，但更重要的是：如何加载word2vec模型并将其用于doc2vec培训？

浏览 1提问于2016-04-23得票数 1

回答已采纳

1回答

Gensim Doc2vec finalize_vocab内存错误

、、、

我正在尝试训练一个使用gensim的Doc2Vec模型，它有114百万个独特的文档/标签和大约3M个单词的词汇量。我在Azure上有115 on的Ram linux机器。当我运行build_vocab时，迭代器解析所有文件，然后抛出内存错误，如下所示。 Traceback (most recent call last): File "doc_2_vec.py", line 63, in <module> model.build_vocab(sentences.to_array()) File "/home/meghana/.local

浏览 7提问于2017-08-29得票数 1

回答已采纳

1回答

如何正确标记Gensim TaggedDocument()的文档列表

、、

我想用Gensim TaggedDocument()标记一个文档列表，然后将这些文档作为Doc2Vec()的输入传递。我读过关于TaggedDocument 的文档，但我不知道参数words和tags到底是什么。我试过： texts = [[word for word in document.lower().split()] for document in X.values] texts = [[token for token in text] for text in texts] model = gensim.models.Doc2Vec(te

浏览 0提问于2018-04-03得票数 2

回答已采纳

1回答

优化窗口7中的gensim(C compilier and BLAS)

、、、、

我想优化gensim以在Window7中运行Window7 1C编译器我按照以下指令安装gensim： pip install --upgrade gensim 然而，在这个页面()中，它是说在安装gensim之前需要C编译器。在安装gensim之前，请确保您有一个C编译器，以使用优化(编译) doc2vec培训(70x加速比博客)。我应该在使用pip之前做些什么吗？ 2个BLAS 在本教程中，说训练时间如果使用BLAS库，这应该不会超过3秒。如果没有使用BLAS库，这应该不超过2分钟，所以如果您重视时间，请使用BLAS。因此，为了优化，我似乎不得不安装

浏览 3提问于2017-10-31得票数 0

回答已采纳

1回答

gensim doc2vec给出了未确定的结果

、、

我正在使用gensim python库中的Doc2Vec模型。每次向模型提供相同的句子数据，并将参数: Doc2Vec的seed设置为固定数量时，模型在构建后会给出不同的向量。出于测试目的，每当我给出一个未改变的输入数据时，我都需要一个确定的结果。我搜索了很多，但没有找到保持gensim结果不变的方法。我用它的方式有什么问题吗？感谢您提前回复。下面是我的代码： from gensim.models.doc2vec import Doc2Vec model = Doc2Vec(sentences, dm=1, dm_concat=1, size=100, window=5, hs=0,

浏览 7提问于2017-12-20得票数 0

回答已采纳

1回答

将Doc2Vec语句组合成段落向量

、

在Gensim的Doc2Vec中，如何将句子向量组合成段落的单个向量？我知道你可以对整个段落进行培训，但显然最好是对个别句子、语境等进行培训(我认为.) 有什么建议或正常用例吗？另外，如何从模型中检索句子/段落向量？

浏览 1提问于2015-08-05得票数 1

回答已采纳

2回答

基于Doc2Vec的情感分类

、、、

对于如何将Doc2Vec(使用Gensim)用于IMDB情感分类数据集，我感到困惑。在对语料库进行训练后，得到了Doc2Vec嵌入，并利用该模型建立了Logistic回归模型。我如何使用它来为新的评论做预测？sklearn -以色列国防军有一种转换方法，可用于训练数据训练后的测试数据，其在Gensim Doc2Vec中的等效性是什么？

浏览 6提问于2019-12-27得票数 0

回答已采纳

1回答

为什么Gensim doc2vec给AttributeError：'list‘对象没有属性’word‘？

、、

我正在尝试使用下面的代码来实验gensim doc2vec。据我从教程中了解到的，它应该是有效的。然而，它给出了AttributeError：'list‘对象没有属性’word‘. from gensim.models.doc2vec import LabeledSentence, Doc2Vec document = LabeledSentence(words=['some', 'words', 'here'], tags=['SENT_1']) model = Doc2Vec(document, size = 100

浏览 5提问于2016-04-08得票数 10

回答已采纳

1回答

如何获取python中gensim中单词的最近文档

、、、

我使用doc2vec模型构建文档向量，如下所示。 from gensim.models import doc2vec from collections import namedtuple dataset = json.load(open(input_file)) docs = [] analyzedDocument = namedtuple('AnalyzedDocument', 'words tags') for description in dataset: tags = [description[0]] words = descrip

浏览 1提问于2019-07-22得票数 1

回答已采纳

3回答

Gensim: doc2vec是一个模型还是一个操作？与R执行的差异

、、、、

我的任务是将文档向量模型投入生产。我是一个R用户，所以我的原始模型在R中。我们的途径之一是用Python重新创建代码和模型。我对Doc2vec的Gensim实现感到困惑。在R中工作的过程如下：离线单词向量是使用text2vec包中的函数(即GloVe或GlobalVectors )在大型语料库上训练的，这给了我一个大的Word矢量文本文件。在ML步骤发生之前，使用来自Doc2Vec库的TextTinyR函数将每个文本从一个更小、更具体的训练语料库中转换成一个向量。这不是机器学习的步骤。没有模特受过训练。Doc2Vec函数有效地聚合了句子中的单词向量，其意义与找到向量

浏览 45提问于2021-06-17得票数 1

回答已采纳

1回答

将gensim doc2vec嵌入导出到单独的文件中，以便稍后与keras嵌入层一起使用。

、、、

我对gensim还是个新手，现在我正在尝试解决这个问题，这涉及到在keras中使用doc2vec嵌入。我无法在keras中找到现有的doc2vec实现--就我所见的所有示例而言，到目前为止，每个人都只是使用gensim来获取文档嵌入。一旦我在gensim中训练了我的doc2vec模型，我就需要以某种方式将嵌入权重从genim导出到keras中，这并不是很清楚如何做到这一点。我看到了 model.syn0 假设给出了word2vec嵌入权重(根据)。但目前还不清楚如何对文档嵌入执行相同的导出。有什么建议吗？我知道通常我只能直接从gensim模型中获得每个文档的嵌入，但我想稍后对keras中的

浏览 15提问于2018-02-27得票数 2

回答已采纳

1回答

训练一个doc2Vec模型实际上需要多少数据？

、、

我一直在使用gensim的库来训练doc2Vec模型。在对不同的训练数据集进行了实验之后，我对什么是doc2Vec模型的理想训练数据大小感到非常困惑？我将在这里分享我的理解。请随时纠正我/建议改变- 关于通用数据集的培训----如果我想使用对通用数据集进行培训的模型，那么在特定的用例中，我需要对很多数据进行培训。关于上下文相关数据集的培训----如果我想对具有与我的用例相同上下文的数据进行培训，通常训练数据大小可以有一个较小的大小。但是，在这两种情况下，用于培训的单词数量是多少呢？在一般情况下，当错误图达到“肘点”时，我们停止训练ML模型，在此情况下，进一步的训练对减少

浏览 2提问于2018-01-02得票数 6

回答已采纳

1回答

如何使用Gensim doc2vec执行高效的查询？

、、、、

我正在用下面的用例研究一个句子相似算法:给定一个新句子，我想从给定的集合中检索它的n个最相似的句子。我正在使用Gensim v.3.7.1，我已经培训了word2vec和doc2vec模型。后者的结果优于word2vec，但我在使用Doc2Vec模型执行高效查询时遇到了困难。该模型使用分布式的单词实现包(dm = 0)。我过去经常使用内置方法model.most_similar()来推断相似性，但是一旦我开始使用更多的数据进行训练，这是不可能的，而我想要对这些数据进行查询。也就是说，我想在我的训练数据集的子集中找到最相似的句子。我的快速修正是用余弦相似度将新句子的向量与集合上的每个向量进行比

浏览 0提问于2019-05-14得票数 3

回答已采纳

1回答

如何在gensim中获取给定主题的文档向量

、、、

我有大约9000个文档，我正在使用Gensim的doc2vec嵌入我的文档。我的代码如下： from gensim.models import doc2vec from collections import namedtuple dataset = json.load(open(input_file)) docs = [] analyzedDocument = namedtuple('AnalyzedDocument', 'words tags') for description in dataset: tags = [description[0]

浏览 15提问于2019-07-20得票数 0

回答已采纳

1回答

当我将唯一的整数id作为标记传递时，Gensim doc2vec生成的向量比给定的文档多。

、、、

我试图使用doc2vec制作gensim示例的文档向量。我通过了TaggedDocument，它包含9个文档和9个标记。 from gensim.test.utils import common_texts from gensim.models.doc2vec import Doc2Vec, TaggedDocument idx = [0,1,2,3,4,5,6,7,100] documents = [TaggedDocument(doc, [i]) for doc, i in zip(common_texts, idx)] model = Doc2Vec(documents, vector_

浏览 1提问于2021-07-31得票数 0

回答已采纳

1回答

缺少Gensim doc2vec infer_vector方法

、、

尝试使用Gensim的doc2vec时，有一个很大的障碍。我导入gensim.models.doc2vec.Doc2Vec并在一组tweet上成功地对其进行了培训。我能够很好地提取我的文档向量，使用模型[‘DOC_0123.’“。我现在的问题是，我试图为一个新的、看不见的文档获取向量表示，这样我就可以将该向量反馈到分类器中。据我所知，使用doc2vec进行此操作的唯一方法是infer_vector()。然而，当我试图调用这个方法时，我会得到以下内容： AttributeError: Doc2Vec对象没有属性“infer_vector” 我能够使用doc2vec文档中描述的所有其他方法：

浏览 6提问于2015-08-27得票数 2

4回答

如何将Gensim doc2vec与预先训练好的词向量一起使用？

、、、、

我最近偶然发现Gensim中添加了doc2vec。如何在doc2vec中使用预先训练好的词向量(例如，在word2vec原始网站中找到的)？或者，doc2vec是从用于段落向量训练的相同句子中获得单词向量吗？谢谢。

浏览 1提问于2014-12-14得票数 44

1回答

使用doc2vec和LogisticRegression对输入文本进行分类

、、、、

我正在尝试使用Python语言中的doc2vec将用户输入文本分为两类。我有以下代码来训练模型，然后对输入文本进行分类。问题是，我找不到任何对字符串进行分类的方法。我是新手，所以请忽略错误。下面是类引用的链接 # gensim modules from gensim import utils from gensim.models.doc2vec import TaggedDocument from gensim.models import Doc2Vec # random shuffle from random import shuffle # numpy import numpy

浏览 3提问于2017-02-21得票数 1

2回答

使用map对doc2vec删除停止词的列表进行预处理而不丢失词序

、、、

我正在用doc2vec实现一个简单的gensim，而不是a word2vec 我需要删除停止词，而不丢失正确的顺序列表的列表。每个列表都是一个文档，正如我对doc2vec所理解的，模型将有一个TaggedDocuments列表作为输入。 model = Doc2Vec(lst_tag_documents, vector_size=5, window=2, min_count=1, workers=4) dataset = [['We should remove the stopwords from this example'], ['Otherwise th

浏览 0提问于2021-04-25得票数 0

回答已采纳

2回答

如何衡量Doc2vec模型的准确性？

、、

我有一个不同酒店的评论数据集。我正在尝试使用酒店的评论来查找类似的酒店。因此，我使用Doc2vec算法来实现这一点。有没有办法使用Gensim而不是使用Gensim的most_similar()函数来测量Doc2Vec模型的精度

浏览 44提问于2020-04-04得票数 1

回答已采纳

1回答

带有google预训练向量的gensim(1.0.1) Doc2Vec

对于gensim(1.0.1) doc2vec，我尝试加载google预先训练过的单词向量，而不是使用Doc2Vec.build_vocab。 wordVec_google = gensim.models.KeyedVectors.load_word2vec_format('GoogleNews-vectors-negative300.bin', binary=True) model0 = Doc2Vec(size=300, alpha=0.05, min_alpha=0.05, window=8, min_count=5, workers=4, dm=0, hs=1)

浏览 2提问于2017-07-11得票数 1

1回答

在gensim中，word2vec模型和doc2vec模型的wmdistance是多少？

我想比较两个字符串之间的相似性，我可以用word2vec模型或gensim中的doc2vec模型来计算wmd距离。但我不能理解doc2vec模型的wmd是如何工作的。 def preprocess(doc): return doc.lower().split() s1 = 'i would like five rooms' s2 = 'i would like four rooms' s1 = preprocess(s1) s2 = preprocess(s2) model1 = gensim.models.KeyedVectors.load

浏览 17提问于2019-07-18得票数 1

1回答

Doc2Vec输入格式

、

在ubuntu上运行gensim Doc2Vec Doc2Vec用错误拒绝我的输入 AttributeError：'list‘对象没有属性’word‘ import gensim from gensim.models import doc2vec as dtv from nltk.corpus import brown documents = brown.tagged_sents() d2vmodel = > dtv.Doc2Vec(documents, size=100, window=1, min_count=1, work

浏览 2提问于2018-06-22得票数 0

回答已采纳

1回答

Gensim doc2vec关于ngram的培训

、、

在gensim网站()上的doc2vec教程中，创建了一个包含全文的语料库，然后在该语料库上训练模型。它看起来像这样： [TaggedDocument(words=['hundreds', 'of', 'people', 'have', 'been', 'forced', 'to', 'vacate', 'their', 'homes', 'in', 'the', 'southern',.

浏览 1提问于2020-02-22得票数 1

3回答

未定义名称'doc2vec‘

、、

我正在尝试使用doc2vec进行文本分类，但是在导入之后，当我试图在一个函数中使用它时，它显示doc2vec in not defined。请帮助我确定应该安装哪些库才能使用doc2vec。这里我有两个列，分别叫做Action(文本或句子)和Category(实际标签)。 from gensim.models import Doc2Vec import gensim from gensim.models.doc2vec import TaggedDocument def label_sentences(corpus, label_type): labeled = [] for

浏览 103提问于2020-05-29得票数 0

1回答

Gensim Doc2Vec Most_Similar

、、、、

我对Gensim的most_similar模型中的Doc2Vec方法有困难。当我运行most_similar时，我只得到前10个标记文档的相似性(基于它们的标记--总是从0到9)。对于这段代码，我使用了topn=5，但是我使用了topn=len(文档)，而且我仍然只获得前10个文档的相似性附有标签的文件： tokenizer = RegexpTokenizer(r'\w+') taggeddoc=[] for index,wod in enumerate(model_data): wordslist=[] tagslist=[] tokens = t

浏览 1提问于2018-02-11得票数 0

2回答

如何使用gensim快速文本包装器训练单词嵌入表示？

、、、、

我想用fastext来训练我自己的单词嵌入。然而，在遵循了教程之后，我无法正确地完成它。到目前为止，我尝试了：在： from gensim.models.fasttext import FastText as FT_gensim # Set file names for train and test data corpus = df['sentences'].values.tolist() model_gensim = FT_gensim(size=100) # build the vocabulary model_gensim.build_vocab(sentence

浏览 44提问于2019-07-15得票数 1

回答已采纳

1回答

doc2vec不精确余弦相似度

、、、、

我在400万张唱片上训练了doc2vec模型。我想找到最相似的句子，我从我的数据，但我得到了非常坏的结果。数据样本： Xolo Era (Black, 8 GB)(1 GB RAM). Sugar C6 (White, 16 GB)(2 GB RAM). Celkon Star 4G+ (Black & Dark Blue, 4 GB)(512 MB RAM). Panasonic Eluga I2 (Metallic Grey, 16 GB)(2 GB RAM). Itel IT 5311(Champagne Gold). Itel A44 Pro (Champagne, 16 G

浏览 1提问于2018-07-25得票数 1

1回答

带监督数据预定义标签的Doc2Vec gensim

、、、

我正在尝试使用gensim的doc2vec来创建一个模型，该模型将被训练成一组文档和一组标签。标签是手动创建的，需要将其放入培训程序中。到目前为止，我有两个列表:一个句子列表，以及一个与该句子对应的标签列表。我需要特别使用doc2vec。以下是我迄今所尝试过的。 from gensim import utils from gensim.models import Doc2Vec tweets = ["A tweet", "Another tweet", "A third tweet", ... , "A thousandth-somet

浏览 0提问于2018-07-09得票数 0

回答已采纳

1回答

Gensim's Index2word中的Doc2vec引发一个属性错误

、

我训练了一个doc2vec (gensim.models.Doc2Vec)模型，现在我使用了这一行： print(dict([(model.index2word[i], similarity) for i, similarity in enumerate(model.similar_by_word('igdumd32.dll@0x', topn=False))])['igdumd64.dll@0x']) 但是它会产生这样的错误: AttributeError：'Doc2Vec‘对象没有属性'index2word’ 我使用gensim 1.0.1

浏览 3提问于2017-03-31得票数 3

回答已采纳

1回答

在gensim实现中，DBOW doc2vec的word2vec映射来自哪里？

、、

我试图在doc2vec和word2vec中使用gensim。由于PV方法可以同时生成word2vec和doc2vec，所以我认为PV是正确的模型。因此，我通过指定PV-DM的gensim来创建一个使用dm=1的模型。我的问题如下：当我在word2vec对象上调用train时，train模型会和doc2vec一起被训练吗？？似乎属性wv包含word2vec，甚至在培训之前就可用。这是word2vec的静态版本吗？我还创建了DBOW模型，并注意到它还包含wv。这也是我在上一个问题中提到的word2vec的静态版本吗？

浏览 0提问于2019-06-06得票数 2

回答已采纳

1回答

什么是doc2vec训练迭代？

、、、、

我是doc2vec的新手。我最初试图理解doc2vec，下面提到的是我使用Gensim的代码。正如我想要的那样，我得到了两个文档的经过训练的模型和文档向量。然而，我想知道在几个时代再培训这一模式的好处，以及如何在Gensim中做到这一点？我们可以使用iter或alpha参数来完成它，还是必须在一个独立的for loop中进行训练？请让我知道我应该如何修改下面的代码，以训练20个时代的模型。另外，我想知道word2vec模型也需要多个训练迭代。 # Import libraries from gensim.models import doc2vec from collections impo

浏览 3提问于2017-10-18得票数 3

回答已采纳

1回答

如何用新句子更新Doc2Vec模型？

我使用维基百科进行Doc2Vec模型培训。没有足够的内存一次训练这个模型。因为，当我尝试用所有句子建立词汇表时，我的python就会中断。所以，我想把这个过程分成几个部分。我选择很少的文档，训练模型，保存模型，打开旧模型，尝试用新的句子标签来更新它。我的第一次训练代码 model = gensim.models.Doc2Vec(min_count=5, window=10, size=300, sample=1e-3, negative=5, workers=3) model.build_vocab(sentences.to_array()) sentences_list=senten

浏览 1提问于2015-11-25得票数 1

1回答

分布式Word2Vec & Doc2Vec

、、、

我想实现一个基于Gensim的分布式主题建模管道。不幸的是，Gensim只支持分布式LSA和LDA。我读到Word2Vec和Doc2Vec往往比LSA和LDA有更好的结果。然而，我也读到了一些关于预先训练过的Word2Vec和Doc2Vec模型的文章。是否有一种以分布式方式使用Word2Vec或Doc2Vec的方法？

浏览 8提问于2022-10-31得票数 0

1回答

如何使用“可迭代”对象构建Doc2Vec模型

、、、

由于我在中提出的问题，我的代码正在耗尽内存。然后，我编写了第二段代码，使其具有一个可迭代的alldocs，而不是内存中的所有alldocs.我根据的解释修改了我的代码。我不熟悉流的概念，我无法解决我得到的错误。此代码读取给定path.The上下文的所有文件夹的所有文件，每个文件的文件名及其上下文包含在两个lines.For实例中：会址09-en0010-07-00000 鸽子，剪贴画，剪贴画，图片，图片，自由鸟，印度，网页图标，剪贴画，偶然发现了 google书签雅虎书签php脚本java脚本jsp脚本许可脚本html教程css教程第一个代码： # coding: utf-8

浏览 1提问于2017-02-21得票数 0

回答已采纳