在deeplearning4j中导入gensim doc2vec模型_尝试在gensim中创建doc2vec模型时出现键入错误_在gensim中，word2vec模型和doc2vec模型的wmdistance是多少？ - 腾讯云开发者社区

、、、、

我已经用gensim训练了一个doc2vec模型，并希望将其导入到Deeplearning4j中，以便部署该模型。对于word2vec模型，我知道这可以通过将模型保存为 model.wv.save_word2vec_format("word2vec.bin", binary=True) 在Java中使用导入if Word2Vec w2vModel = WordVectorSerializer.readWord2VecModel("word2vec.bin"); 有没有类似的方法来导入doc2vec模型？

浏览 39提问于2020-11-26得票数 0

回答已采纳

1回答

如何通过R中的网格使用TaggedDocument函数(Gensim \ Doc2Vec)？

、、、

我试图通过网络在R环境中运行Python的gensim包。更具体地说，我正在尝试构建一个doc2vec模型，为此需要准备一个标记和标记集。 TaggedDocument函数是我遇到问题的地方。下面是我试图在R中复制的python的一个例子： import pandas as pd import numpy as np from gensim.models.doc2vec import Doc2Vec, TaggedDocument from nltk.tokenize import word_tokenize data = ["this is the first sentence&#

浏览 8提问于2020-04-30得票数 1

1回答

gensim doc2vec给出了未确定的结果

、、

我正在使用gensim python库中的Doc2Vec模型。每次向模型提供相同的句子数据，并将参数: Doc2Vec的seed设置为固定数量时，模型在构建后会给出不同的向量。出于测试目的，每当我给出一个未改变的输入数据时，我都需要一个确定的结果。我搜索了很多，但没有找到保持gensim结果不变的方法。我用它的方式有什么问题吗？感谢您提前回复。下面是我的代码： from gensim.models.doc2vec import Doc2Vec model = Doc2Vec(sentences, dm=1, dm_concat=1, size=100, window=5, hs=0,

浏览 7提问于2017-12-20得票数 0

回答已采纳

2回答

基于Doc2Vec的情感分类

、、、

对于如何将Doc2Vec(使用Gensim)用于IMDB情感分类数据集，我感到困惑。在对语料库进行训练后，得到了Doc2Vec嵌入，并利用该模型建立了Logistic回归模型。我如何使用它来为新的评论做预测？sklearn -以色列国防军有一种转换方法，可用于训练数据训练后的测试数据，其在Gensim Doc2Vec中的等效性是什么？

浏览 6提问于2019-12-27得票数 0

回答已采纳

3回答

Gensim: doc2vec是一个模型还是一个操作？与R执行的差异

、、、、

我的任务是将文档向量模型投入生产。我是一个R用户，所以我的原始模型在R中。我们的途径之一是用Python重新创建代码和模型。我对Doc2vec的Gensim实现感到困惑。在R中工作的过程如下：离线单词向量是使用text2vec包中的函数(即GloVe或GlobalVectors )在大型语料库上训练的，这给了我一个大的Word矢量文本文件。在ML步骤发生之前，使用来自Doc2Vec库的TextTinyR函数将每个文本从一个更小、更具体的训练语料库中转换成一个向量。这不是机器学习的步骤。没有模特受过训练。Doc2Vec函数有效地聚合了句子中的单词向量，其意义与找到向量

浏览 45提问于2021-06-17得票数 1

回答已采纳

3回答

未定义名称'doc2vec‘

、、

我正在尝试使用doc2vec进行文本分类，但是在导入之后，当我试图在一个函数中使用它时，它显示doc2vec in not defined。请帮助我确定应该安装哪些库才能使用doc2vec。这里我有两个列，分别叫做Action(文本或句子)和Category(实际标签)。 from gensim.models import Doc2Vec import gensim from gensim.models.doc2vec import TaggedDocument def label_sentences(corpus, label_type): labeled = [] for

浏览 103提问于2020-05-29得票数 0

1回答

在gensim中，word2vec模型和doc2vec模型的wmdistance是多少？

我想比较两个字符串之间的相似性，我可以用word2vec模型或gensim中的doc2vec模型来计算wmd距离。但我不能理解doc2vec模型的wmd是如何工作的。 def preprocess(doc): return doc.lower().split() s1 = 'i would like five rooms' s2 = 'i would like four rooms' s1 = preprocess(s1) s2 = preprocess(s2) model1 = gensim.models.KeyedVectors.load

浏览 17提问于2019-07-18得票数 1

1回答

在word2vec中可以使用gensim deeplearning4j.word2vec模型吗？

、、、

我是deeplearning4j的新手，我想用单词向量作为分类器的输入来制作句子分类器。我以前使用python，其中向量模型是使用gensim生成的，我想使用这个新的分类器使用这个模型。在word2vec中可以使用gensim的deeplearning4j.word2vec模型吗?我是如何做到的？

浏览 5提问于2017-04-26得票数 6

回答已采纳

1回答

将gensim doc2vec嵌入导出到单独的文件中，以便稍后与keras嵌入层一起使用。

、、、

我对gensim还是个新手，现在我正在尝试解决这个问题，这涉及到在keras中使用doc2vec嵌入。我无法在keras中找到现有的doc2vec实现--就我所见的所有示例而言，到目前为止，每个人都只是使用gensim来获取文档嵌入。一旦我在gensim中训练了我的doc2vec模型，我就需要以某种方式将嵌入权重从genim导出到keras中，这并不是很清楚如何做到这一点。我看到了 model.syn0 假设给出了word2vec嵌入权重(根据)。但目前还不清楚如何对文档嵌入执行相同的导出。有什么建议吗？我知道通常我只能直接从gensim模型中获得每个文档的嵌入，但我想稍后对keras中的

浏览 15提问于2018-02-27得票数 2

回答已采纳

1回答

流水线和GridSearch用于Doc2Vec

、、、

我现在有下面的脚本，可以帮助找到doc2vec模型的最佳模型。它的工作原理如下:首先根据给定的参数训练几个模型，然后对分类器进行测试。最后，它输出最佳的模型和分类器(我希望)。数据示例数据(data.csv)可以在这里下载：注意到数据的结构应该是一个理想的分类器，具有1.0的准确性。脚本 import sys import os from time import time from operator import itemgetter import pickle import pandas as pd import numpy as np from argparse import Arg

浏览 2提问于2018-05-10得票数 7

回答已采纳

1回答

如何获取python中gensim中单词的最近文档

、、、

我使用doc2vec模型构建文档向量，如下所示。 from gensim.models import doc2vec from collections import namedtuple dataset = json.load(open(input_file)) docs = [] analyzedDocument = namedtuple('AnalyzedDocument', 'words tags') for description in dataset: tags = [description[0]] words = descrip

浏览 1提问于2019-07-22得票数 1

回答已采纳

2回答

如何衡量Doc2vec模型的准确性？

、、

我有一个不同酒店的评论数据集。我正在尝试使用酒店的评论来查找类似的酒店。因此，我使用Doc2vec算法来实现这一点。有没有办法使用Gensim而不是使用Gensim的most_similar()函数来测量Doc2Vec模型的精度

浏览 44提问于2020-04-04得票数 1

回答已采纳

1回答

Gensim doc2vec关于ngram的培训

、、

在gensim网站()上的doc2vec教程中，创建了一个包含全文的语料库，然后在该语料库上训练模型。它看起来像这样： [TaggedDocument(words=['hundreds', 'of', 'people', 'have', 'been', 'forced', 'to', 'vacate', 'their', 'homes', 'in', 'the', 'southern',.

浏览 1提问于2020-02-22得票数 1

1回答

在gensim实现中，DBOW doc2vec的word2vec映射来自哪里？

、、

我试图在doc2vec和word2vec中使用gensim。由于PV方法可以同时生成word2vec和doc2vec，所以我认为PV是正确的模型。因此，我通过指定PV-DM的gensim来创建一个使用dm=1的模型。我的问题如下：当我在word2vec对象上调用train时，train模型会和doc2vec一起被训练吗？？似乎属性wv包含word2vec，甚至在培训之前就可用。这是word2vec的静态版本吗？我还创建了DBOW模型，并注意到它还包含wv。这也是我在上一个问题中提到的word2vec的静态版本吗？

浏览 0提问于2019-06-06得票数 2

回答已采纳

1回答

如何在gensim中获取给定主题的文档向量

、、、

我有大约9000个文档，我正在使用Gensim的doc2vec嵌入我的文档。我的代码如下： from gensim.models import doc2vec from collections import namedtuple dataset = json.load(open(input_file)) docs = [] analyzedDocument = namedtuple('AnalyzedDocument', 'words tags') for description in dataset: tags = [description[0]

浏览 15提问于2019-07-20得票数 0

回答已采纳

1回答

Gensim Doc2vec - KeyError：“训练语料库中未见标签/无效标记”

、、

我正在使用gensim的Doc2vec从新闻文章中学习特性。我可以成功地训练我的文件。但是，我很难从模型中检索文档向量以供进一步处理。示例代码(直接采用)： from gensim.models.doc2vec import Doc2Vec, TaggedDocument from gensim.test.utils import common_texts documents = [TaggedDocument((doc), [i]) for i, doc in enumerate(common_texts)] model = Doc2Vec(documents, vector_size=

浏览 0提问于2018-12-15得票数 2

1回答

缺少Gensim doc2vec infer_vector方法

、、

尝试使用Gensim的doc2vec时，有一个很大的障碍。我导入gensim.models.doc2vec.Doc2Vec并在一组tweet上成功地对其进行了培训。我能够很好地提取我的文档向量，使用模型[‘DOC_0123.’“。我现在的问题是，我试图为一个新的、看不见的文档获取向量表示，这样我就可以将该向量反馈到分类器中。据我所知，使用doc2vec进行此操作的唯一方法是infer_vector()。然而，当我试图调用这个方法时，我会得到以下内容： AttributeError: Doc2Vec对象没有属性“infer_vector” 我能够使用doc2vec文档中描述的所有其他方法：

浏览 6提问于2015-08-27得票数 2

1回答

什么是doc2vec训练迭代？

、、、、

我是doc2vec的新手。我最初试图理解doc2vec，下面提到的是我使用Gensim的代码。正如我想要的那样，我得到了两个文档的经过训练的模型和文档向量。然而，我想知道在几个时代再培训这一模式的好处，以及如何在Gensim中做到这一点？我们可以使用iter或alpha参数来完成它，还是必须在一个独立的for loop中进行训练？请让我知道我应该如何修改下面的代码，以训练20个时代的模型。另外，我想知道word2vec模型也需要多个训练迭代。 # Import libraries from gensim.models import doc2vec from collections impo

浏览 3提问于2017-10-18得票数 3

回答已采纳

1回答

有没有一种方法可以在训练doc2vec模型之前加载预先训练好的词向量？

、

我正在尝试建立一个大约有10k个句子的doc2vec模型，然后我将使用这个模型在一些新句子的模型中找到最相似的句子。我已经使用我拥有的语料库(10k个句子)训练了一个gensim doc2vec模型。这个模型可以在一定程度上告诉我一个新句子是否与语料库中的一些句子相似。但是，有一个问题:新句子中可能存在语料库中不存在的单词，这意味着它们没有单词嵌入。如果发生这种情况，预测结果将不会很好。据我所知，经过训练的doc2vec模型确实有一个文档向量矩阵和一个单词向量矩阵。因此，我的想法是加载一组预先训练的词向量，其中包含大量的单词，然后训练模型以获得文档向量。这有意义吗？是否可以使用gensim？

浏览 1提问于2019-07-12得票数 0

1回答

带监督数据预定义标签的Doc2Vec gensim

、、、

我正在尝试使用gensim的doc2vec来创建一个模型，该模型将被训练成一组文档和一组标签。标签是手动创建的，需要将其放入培训程序中。到目前为止，我有两个列表:一个句子列表，以及一个与该句子对应的标签列表。我需要特别使用doc2vec。以下是我迄今所尝试过的。 from gensim import utils from gensim.models import Doc2Vec tweets = ["A tweet", "Another tweet", "A third tweet", ... , "A thousandth-somet

浏览 0提问于2018-07-09得票数 0

回答已采纳

1回答

Gensim's Index2word中的Doc2vec引发一个属性错误

、

我训练了一个doc2vec (gensim.models.Doc2Vec)模型，现在我使用了这一行： print(dict([(model.index2word[i], similarity) for i, similarity in enumerate(model.similar_by_word('igdumd32.dll@0x', topn=False))])['igdumd64.dll@0x']) 但是它会产生这样的错误: AttributeError：'Doc2Vec‘对象没有属性'index2word’ 我使用gensim 1.0.1

浏览 3提问于2017-03-31得票数 3

回答已采纳

2回答

使用map对doc2vec删除停止词的列表进行预处理而不丢失词序

、、、

我正在用doc2vec实现一个简单的gensim，而不是a word2vec 我需要删除停止词，而不丢失正确的顺序列表的列表。每个列表都是一个文档，正如我对doc2vec所理解的，模型将有一个TaggedDocuments列表作为输入。 model = Doc2Vec(lst_tag_documents, vector_size=5, window=2, min_count=1, workers=4) dataset = [['We should remove the stopwords from this example'], ['Otherwise th

浏览 0提问于2021-04-25得票数 0

回答已采纳

1回答

分布式Word2Vec & Doc2Vec

、、、

我想实现一个基于Gensim的分布式主题建模管道。不幸的是，Gensim只支持分布式LSA和LDA。我读到Word2Vec和Doc2Vec往往比LSA和LDA有更好的结果。然而，我也读到了一些关于预先训练过的Word2Vec和Doc2Vec模型的文章。是否有一种以分布式方式使用Word2Vec或Doc2Vec的方法？

浏览 8提问于2022-10-31得票数 0

1回答

Gensim:加载doc2vec模型时出错？

、

我将训练后的Doc2Vec模型存储到磁盘中，然后当我尝试从磁盘加载模型时，它显示了一些错误 from gensim.models.doc2vec import Doc2Vec from gensim.test.utils import get_tmpfile def save_d2v_to_disk(model,fname): fn = get_tmpfile(fname) model.save(fn) def load_d2v_from_disk(fname): fn = get_tmpfile(fname) model = Doc2Vec.load(f

浏览 31提问于2020-04-15得票数 0

1回答

如何使用Gensim doc2vec执行高效的查询？

、、、、

我正在用下面的用例研究一个句子相似算法:给定一个新句子，我想从给定的集合中检索它的n个最相似的句子。我正在使用Gensim v.3.7.1，我已经培训了word2vec和doc2vec模型。后者的结果优于word2vec，但我在使用Doc2Vec模型执行高效查询时遇到了困难。该模型使用分布式的单词实现包(dm = 0)。我过去经常使用内置方法model.most_similar()来推断相似性，但是一旦我开始使用更多的数据进行训练，这是不可能的，而我想要对这些数据进行查询。也就是说，我想在我的训练数据集的子集中找到最相似的句子。我的快速修正是用余弦相似度将新句子的向量与集合上的每个向量进行比

浏览 0提问于2019-05-14得票数 3

回答已采纳

1回答

无法使用gensim加载Doc2vec对象

、、、

我试着用gensim加载一个经过预先训练的Doc2vec模型，并使用它将段落映射到向量。我指的是，我下载的预培训模型是英文维基百科DBOW，它也在同一个链接中。但是，当我在维基百科上加载Doc2vec模型并使用以下代码推断向量时： import gensim.models as g import codecs model="wiki_sg/word2vec.bin" test_docs="test_docs.txt" output_file="test_vectors.txt" #inference hyper-parameters star

浏览 1提问于2020-05-20得票数 2

回答已采纳

1回答

gensim doc2vec "intersect_word2vec_format“命令

、、

只需阅读gensim页面上的doc2vec命令。我对命令“intersect_word2vec_format”很好奇。我对这个命令的理解是，它允许我将经过预先训练的word2vec模型中的向量值注入到我的doc2vec模型中，然后使用预训练的word2vec值来训练我的doc2vec模型，而不是从我的文档语料库生成单词向量值。结果是，我得到了一个更精确的doc2vec模型，因为我使用的是经过预先训练的w2v值，与相对较小的文档语料库相比，该值是从更大的数据集生成的。我对这个命令的理解是否正确？

浏览 9提问于2017-09-02得票数 2

回答已采纳

1回答

使用Gensim将余弦距离缩放到0-1

、、、、

我已经构建了一个包含大约3M文档的Doc2Vec模型，现在我想将它与我之前构建的另一个模型进行比较。第二个模型已经被缩放到0-1，所以我现在也想把gensim模型缩放到相同的范围，这样它们就可以比较了。这是我第一次使用gensim，所以我不知道这是如何做到的。这并不奇怪，但这是我到目前为止拥有的代码(模型生成代码)。我考虑了标度(向量合并中的最小最大值和最大值/分钟)--推断向量(v1和v2)，但我不认为这是正确的方法。这里的想法是比较两个文档(标记可能在语料库中)，并输出它们之间的相似性评分。我看过Gensim的一些教程，他们经常将单个字符串与语料库的文档进行比较，这并不是真正的想法。 d

浏览 2提问于2021-03-30得票数 1

回答已采纳

1回答

如何将doc2vec与短语一起使用？

、、、、

我想使用doc2vec中的短语，并且我使用gensim.phrases。在doc2vec中，我们需要标记文档来训练模型，而我不能标记短语。我怎么能做到这一点？以下是我的代码 text = phrases.Phrases(text) for i in range(len(text)): string1 = "SENT_" + str(i) sentence = doc2vec.LabeledSentence(tags=string1, words=text[i]) text[i]=sentence print "Training model.

浏览 3提问于2016-08-16得票数 0

回答已采纳

1回答

gensim 0.12.3中的Doc2vec推理

我已经将gensim从0.12.2升级到0.12.3，我在doc2vec中进行推理时遇到了一个问题。下面是执行推理的代码： doc = query.lower().split() inf_vec = formmodel.infer_vector(doc) similarF = formmodel.docvecs.most_similar([inf_vec]) 当使用0.12.3版完成doc2vec模型训练和推理时，此代码给出如下所示的结果： [(644539, 0.55715829133987427), (647249, 0.55713766813278198),...] 当使用0.12.2版

浏览 1提问于2016-01-20得票数 0

1回答

Doc2Vec通用情感分析数据集

、、、、

我试图建立doc2vec模型，使用gensim + sklearn对短句子(如评论、推特、评论等)进行情感分析。我下载了，和。然后将其归纳为积极、消极和中立三大类。然后，在上述数据上建立了gensim doc2vec模型，从而得到分类神经网络的输入向量。并利用sklearn模型对我的测试数据进行了预测，从上述三组数据中分别得到了约10%的数据。不幸的是，结果并不像我预期的那样好。大部分的教程似乎只专注于一个特定的任务，‘只分类亚马逊评论’或'twitter情绪‘，我无法找到任何更普遍的目的。有人能分享他/她在这方面的想法吗？

浏览 1提问于2018-10-16得票数 0

回答已采纳

2回答

如何使用Google Word2Vec获取每个文档的向量

、、

我正在尝试谷歌的word2vec预培训模式，以获得单词嵌入。我能够在我的代码中加载模型，我可以看到我得到了一个单词的300维表示。这是密码- import gensim from gensim import models from gensim.models import Word2Vec model = gensim.models.KeyedVectors.load_word2vec_format('/Downloads/GoogleNews-vectors-negative300.bin', binary=True) dog = model['dog'] p

浏览 0提问于2020-11-02得票数 1

回答已采纳

1回答

优化窗口7中的gensim(C compilier and BLAS)

、、、、

我想优化gensim以在Window7中运行Window7 1C编译器我按照以下指令安装gensim： pip install --upgrade gensim 然而，在这个页面()中，它是说在安装gensim之前需要C编译器。在安装gensim之前，请确保您有一个C编译器，以使用优化(编译) doc2vec培训(70x加速比博客)。我应该在使用pip之前做些什么吗？ 2个BLAS 在本教程中，说训练时间如果使用BLAS库，这应该不会超过3秒。如果没有使用BLAS库，这应该不超过2分钟，所以如果您重视时间，请使用BLAS。因此，为了优化，我似乎不得不安装

浏览 3提问于2017-10-31得票数 0

回答已采纳

1回答

什么是文档向量方法(doc2vec)，它依赖于tensorflow后端

、、、、

我目前正在尝试实现一个使用doc2vec向量的神经网络，然后使用它进一步工作。我有一台机器，它只允许我使用tensorflow (这是一个要求！)，所以我需要一个模型来将句子/段落转换为向量。我知道gensim的doc2vec和实现。我对gensim的实现有经验，但它显然没有在后端使用tensorflow。然而，如果没有几个小时/几天的调试，后一个链接似乎不起作用。我会帮助任何链接和建议！

浏览 3提问于2018-05-18得票数 1

1回答

AttributeError: CountVectorizer对象没有属性“_load_specials”

、

我正在使用以下命令转储预先训练过的doc2vec模型 model.train(labeled_data,total_examples=model.corpus_count, epochs=model.epochs) print("Model Training Done") #Saving the created model model.save(project_name + '_doc2vec_vectorizer.npz') vectorizer=CountVectorizer() vectorizer.fit(df[0]) vec_file

浏览 3提问于2022-09-08得票数 1

2回答

继续训练Doc2Vec模型

、

Gensim的明确指出，可以继续训练(加载)模型。我知道，根据文档，不可能继续训练从word2vec格式加载的模型。但是，即使从零开始生成模型，然后尝试调用train方法，也不可能访问为train提供的LabeledSentence实例的新创建的标签。 >>> sentences = [LabeledSentence(['first', 'sentence'], ['SENT_0']), LabeledSentence(['second', 'sentence'], ['SENT_1

浏览 3提问于2015-05-10得票数 5

回答已采纳

1回答

AttributeError：“树”对象没有属性“words”。Doc2Vec错误

、、、、

我正在尝试训练一个嵌入到预处理段落上的Doc2Vec单词。我已经删除了标点符号，并执行了标记化、pos标记和分块。 import nltk from nltk import word_tokenize, pos_tag, ne_chunk from gensim.models.doc2vec import Doc2Vec ne_tree = ne_chunk(pos_tag(word_tokenize(sent_pun))) model = Doc2Vec(ne_tree) 当我运行Doc2Vec模型时，我得到了错误"AttributeError：‘树’对象没有属性‘单词’“。应该

浏览 6提问于2018-07-20得票数 0

2回答

只为Doc2Vec加载没有docs向量的infer_vector

、

我有一个很大的gensim Doc2vec模型，当我从其他来源加载训练文档时，我只需要推断出向量。是否可以在没有大的npy文件的情况下加载它？我做到了编辑： from gensim.models.doc2vec import Doc2Vec model_path = r'C:\model/model' model = Doc2Vec.load(model_path) model.delete_temporary_training_data(keep_doctags_vectors=False, keep_inference=True) model.save(model_pa

浏览 0提问于2020-04-22得票数 1

回答已采纳

1回答

为什么Gensim doc2vec给AttributeError：'list‘对象没有属性’word‘？

、、

我正在尝试使用下面的代码来实验gensim doc2vec。据我从教程中了解到的，它应该是有效的。然而，它给出了AttributeError：'list‘对象没有属性’word‘. from gensim.models.doc2vec import LabeledSentence, Doc2Vec document = LabeledSentence(words=['some', 'words', 'here'], tags=['SENT_1']) model = Doc2Vec(document, size = 100

浏览 5提问于2016-04-08得票数 10

回答已采纳

1回答

Doc2vec模型的语义和句法性能

、、

我试图检查doc2vec模型-- doc2vec_model.accuracy(questions-words)的语义和语法性能，但是它似乎自以来就不再起作用了，他说，自从gensim package.It中的3.3.0版本给出了这个错误消息以来，它就被废弃了。 AttributeError: 'Doc2Vec' object has no attribute 'accuracy' 虽然它能很好地应用于word2vec模型，但除了doc2vec_model.accuracy(questions-words)之外，还有什么方法可以做到吗？还是不可能？

浏览 0提问于2018-04-28得票数 0

回答已采纳

1回答

Gensim build_vocab花费太长时间

、、、

我试着用gensim库对5000万个可变长度的句子进行doc2vec模型的训练。一些教程(如。( )在实际的训练过程之前有一个model.build_vocab步骤。这部分已经运行了3个小时，没有任何更新。这一步对培训过程是否必要？为什么这一步要花这么长时间，因为它只是对数据的线性传递？在python 3.6.0中使用gensim版本3.4.0

浏览 3提问于2018-04-22得票数 3

回答已采纳

1回答

段落向量或Doc2vec模型大小

、、、、

我正在使用deeplearning4j java库来构建维度100的段落向量模型(doc2vec)。我正在使用文本文件。它大约有1700万行，文件大小为330 MB。通过对模型的训练和段落向量的计算，取得了较好的效果。问题是，当我试图用WordVectorSerializer.writeParagraphVectors (dl4j方法)保存模型(通过写入磁盘)时，占用了大约20 GB的空间。当我使用本机java序列化程序时，它的容量约为30 use。我想可能是模型太大了，对这么多数据来说太大了。对于300 MB的文本数据，型号大小20 MB合理吗？也欢迎在其他库/语言中使用doc2vec

浏览 1提问于2018-06-20得票数 3

回答已采纳

1回答

如何从gensim word2vec模型推断新的词向量？

、、

我想使用新的文本数据集将新词添加到经过训练的gensim word2vec模型中。但是，我希望保留旧的单词嵌入，只将数据集中的新单词添加到现有模型中。这意味着用新文本数据集简单地重新训练旧模型不是一种选择，因为它将重新调整也在新文本数据集中的先前单词嵌入的向量。你能对这项任务有什么建议吗？我想要一些像Gensim的doc2vec推断功能，你给模型一些文本输入，它给出一个向量作为输出。谢谢。

浏览 3提问于2018-03-10得票数 5

6回答

更新gensim word2vec模型

、

我有一个用gensim训练过的超过98892个文档的word2vec模型。对于没有出现在句子数组中的任何给定句子(即，我在其上训练模型的集合)，我需要用该句子更新模型，以便下次查询它时会给出一些结果。我是这样做的： new_sentence = ['moscow', 'weather', 'cold'] model.train(new_sentence) 并将其打印为日志： 2014-03-01 16:46:58,061 : INFO : training model with 1 workers on 98892 vocabulary and

浏览 1提问于2014-03-02得票数 38

2回答

如何从gensim Doc2Vec中获取单词向量？

、、

我训练了一个gensim.models.doc2vec.Doc2Vec模型 d2v_model =Doc2Vec(句子、size=100、window=8、min_count=5、workers=4)，我可以通过docvec = d2v_model.docvecs获得文档向量。如何从经过训练的模型中获得单词向量？

浏览 5提问于2016-05-19得票数 4

回答已采纳

1回答

无监督doc2vec模型的度量

、、、、

我刚刚使用gensim库构建了一个简单的doc2vec模型，基本上遵循了教程“定位这里”。提供的检查模型质量的方法非常手工，需要阅读类似的文档，是否有方法从模型中计算出一些其他度量，以尝试提高其性能？

浏览 0提问于2019-08-08得票数 3

回答已采纳

1回答

将Doc2Vec语句组合成段落向量

、

在Gensim的Doc2Vec中，如何将句子向量组合成段落的单个向量？我知道你可以对整个段落进行培训，但显然最好是对个别句子、语境等进行培训(我认为.) 有什么建议或正常用例吗？另外，如何从模型中检索句子/段落向量？

浏览 1提问于2015-08-05得票数 1

回答已采纳

1回答

为什么Gensim Doc2vec对象返回空的doctag？

、

我的问题是我该如何解释我的处境？我按照本教程Doc2Vec训练了一个模型。由于某种原因，doc_model.docvecs.doctags返回{}。但是doc_model.docvecs.vectors_docs似乎返回了一个适当的值。为什么doc2vec对象不返回任何doctag，只返回vectors_docs？谢谢您的评论和答复。这是我用来训练Doc2Vec模型的代码。 from gensim.models.doc2vec import LabeledSentence, TaggedDocument, Doc2Vec import timeit import gensim em

浏览 4提问于2020-05-25得票数 2

回答已采纳

1回答

当我将唯一的整数id作为标记传递时，Gensim doc2vec生成的向量比给定的文档多。

、、、

我试图使用doc2vec制作gensim示例的文档向量。我通过了TaggedDocument，它包含9个文档和9个标记。 from gensim.test.utils import common_texts from gensim.models.doc2vec import Doc2Vec, TaggedDocument idx = [0,1,2,3,4,5,6,7,100] documents = [TaggedDocument(doc, [i]) for doc, i in zip(common_texts, idx)] model = Doc2Vec(documents, vector_

浏览 1提问于2021-07-31得票数 0

回答已采纳

1回答

Gensim Doc2vec finalize_vocab内存错误

、、、

我正在尝试训练一个使用gensim的Doc2Vec模型，它有114百万个独特的文档/标签和大约3M个单词的词汇量。我在Azure上有115 on的Ram linux机器。当我运行build_vocab时，迭代器解析所有文件，然后抛出内存错误，如下所示。 Traceback (most recent call last): File "doc_2_vec.py", line 63, in <module> model.build_vocab(sentences.to_array()) File "/home/meghana/.local

浏览 7提问于2017-08-29得票数 1

回答已采纳