doc2vec模型小数据集_将tensorflow数据集输入模型_房屋数据集的模型训练问题 - 腾讯云开发者社区

、、

我用两个数据集训练了两个版本的doc2vec模型。第一个数据集由2400个文档组成，第二个数据集由3000个文档组成，其中包括第一个数据集中使用的文档。举个例子数据集1= doc1，doc2，doc2400 数据集2= doc1，doc2，.doc2400，doc2401，。doc3000 我认为两个doc2vec模型都应该返回相同的doc1和doc2之间的相似性分数，但是它们返回的分数不同。 doc2vec模型的结果在数据集上是否会发生变化，即使它们包含相同的文档？

浏览 4提问于2021-07-02得票数 0

回答已采纳

1回答

Doc2Vec预训练和推断向量

、、、、

假设我已经用50000个文档训练了doc2vec模型，并且我想为包含36000个文档的单独数据集推断向量。在这种情况下，推断的向量对于下游分类任务是否有效，因为我的假设是推断的向量取决于训练模型的文档的大小。注意:这两个数据集，即一个用于训练doc2vec，另一个用于推断向量，是唯一的，但来自美国最高法院的同一领域。如果我有正当理由错了，请纠正我。

浏览 66提问于2020-03-20得票数 0

回答已采纳

2回答

基于Doc2Vec的情感分类

、、、

对于如何将Doc2Vec(使用Gensim)用于IMDB情感分类数据集，我感到困惑。在对语料库进行训练后，得到了Doc2Vec嵌入，并利用该模型建立了Logistic回归模型。我如何使用它来为新的评论做预测？sklearn -以色列国防军有一种转换方法，可用于训练数据训练后的测试数据，其在Gensim Doc2Vec中的等效性是什么？

浏览 6提问于2019-12-27得票数 0

回答已采纳

1回答

Doc2Vec通用情感分析数据集

、、、、

我试图建立doc2vec模型，使用gensim + sklearn对短句子(如评论、推特、评论等)进行情感分析。我下载了，和。然后将其归纳为积极、消极和中立三大类。然后，在上述数据上建立了gensim doc2vec模型，从而得到分类神经网络的输入向量。并利用sklearn模型对我的测试数据进行了预测，从上述三组数据中分别得到了约10%的数据。不幸的是，结果并不像我预期的那样好。大部分的教程似乎只专注于一个特定的任务，‘只分类亚马逊评论’或'twitter情绪‘，我无法找到任何更普遍的目的。有人能分享他/她在这方面的想法吗？

浏览 1提问于2018-10-16得票数 0

回答已采纳

2回答

无法理解Doc2Vec输出

、

所以我开始尝试学习Doc2Vec，特别是余弦相似度输出。基本上，当我尝试将一个新句子与我训练模型的句子列表进行匹配时，我得到了意想不到的输出。如果有人能帮上忙，那就太棒了，下面是我的代码： import gensim from gensim.models.doc2vec import Doc2Vec, TaggedDocument import nltk from nltk.tokenize import word_tokenize data = [ 'I love machine learning' ,'I love coding

浏览 37提问于2021-03-24得票数 1

1回答

训练一个doc2Vec模型实际上需要多少数据？

、、

我一直在使用gensim的库来训练doc2Vec模型。在对不同的训练数据集进行了实验之后，我对什么是doc2Vec模型的理想训练数据大小感到非常困惑？我将在这里分享我的理解。请随时纠正我/建议改变- 关于通用数据集的培训----如果我想使用对通用数据集进行培训的模型，那么在特定的用例中，我需要对很多数据进行培训。关于上下文相关数据集的培训----如果我想对具有与我的用例相同上下文的数据进行培训，通常训练数据大小可以有一个较小的大小。但是，在这两种情况下，用于培训的单词数量是多少呢？在一般情况下，当错误图达到“肘点”时，我们停止训练ML模型，在此情况下，进一步的训练对减少

浏览 2提问于2018-01-02得票数 6

回答已采纳

1回答

使用infer_vector()检查doc2vec的模型过拟合

、、、、

我的目标是从df"text“列创建文档嵌入，作为第一步，然后第二步将它们与其他变量一起插入到XGBoost回归模型中，以便进行预测。这对于train_df非常有效。我目前正在尝试评估我训练过的Doc2Vec模型，方法是在看不见的test_df上用infer_vector()推断向量，然后再用it.However进行预测，结果非常糟糕。我得到了一个非常大的错误(RMSE)。我假设，这意味着Doc2Vec严重过度拟合了？实际上，我不确定这是否是评估我的doc2vec模型(由infer_vector)的正确方法？如何防止doc2vec过度拟合？请找到我的代码，用于从模型推断向量： vec

浏览 0提问于2020-10-26得票数 2

2回答

使用map对doc2vec删除停止词的列表进行预处理而不丢失词序

、、、

我正在用doc2vec实现一个简单的gensim，而不是a word2vec 我需要删除停止词，而不丢失正确的顺序列表的列表。每个列表都是一个文档，正如我对doc2vec所理解的，模型将有一个TaggedDocuments列表作为输入。 model = Doc2Vec(lst_tag_documents, vector_size=5, window=2, min_count=1, workers=4) dataset = [['We should remove the stopwords from this example'], ['Otherwise th

浏览 0提问于2021-04-25得票数 0

回答已采纳

2回答

为什么Doc2vec为相同的文本提供了两个不同的向量

、、、、

我使用Doc2vec从单词中获取向量。请看我下面的代码： from gensim.models.doc2vec import TaggedDocument f = open('test.txt','r') trainings = [TaggedDocument(words = data.strip().split(","),tags = [i]) for i,data in enumerate(f) model = Doc2Vec(vector_size=5, epochs=55, seed = 1, dm_concat=1) mode

浏览 1提问于2018-05-16得票数 9

1回答

段落向量或Doc2vec模型大小

、、、、

我正在使用deeplearning4j java库来构建维度100的段落向量模型(doc2vec)。我正在使用文本文件。它大约有1700万行，文件大小为330 MB。通过对模型的训练和段落向量的计算，取得了较好的效果。问题是，当我试图用WordVectorSerializer.writeParagraphVectors (dl4j方法)保存模型(通过写入磁盘)时，占用了大约20 GB的空间。当我使用本机java序列化程序时，它的容量约为30 use。我想可能是模型太大了，对这么多数据来说太大了。对于300 MB的文本数据，型号大小20 MB合理吗？也欢迎在其他库/语言中使用doc2vec

浏览 1提问于2018-06-20得票数 3

回答已采纳

1回答

Doc2Vec的结果不像预期的那样

、、

我正在为推荐API评估Doc2Vec。我找不到一个合适的预先训练过的模型，所以我在语料库上训练了一个模型，大约有8000个小文档。 model = Doc2Vec(vector_size=25, alpha=0.025, min_alpha=0.00025, min_count=1, dm=1) 然后我在语料库中循环查找每一份文件的类似文件。结果不太好(与TF-国防军相比)。注意，这是在测试不同的时代和矢量大小之后。 i

浏览 2提问于2022-02-11得票数 0

回答已采纳

1回答

如何为doc2vec选择最好的vector_size？

、、、、

我正在比较各种技术，并想找出对大量文本文档进行矢量化和降维的最佳方法。我已经测试了Bag of Words和TF-IDF，并使用PCA、SVD和NMF进行了降维。使用这些方法，我可以减少我的数据，并知道基于解释的方差的最佳维度数量。然而，我想用doc2vec做同样的事情，考虑到doc2vec本身是一个降维工具，找出我的模型的维数的最佳方法是什么？有没有什么统计方法可以帮助我找到vector_size的最佳数量？提前感谢！

浏览 56提问于2020-08-15得票数 0

2回答

如何提高Doc2vec余弦相似度的重现性

、、、、

我正在使用Gensim的Doc2vec来训练一个模型，我用infer_vector来推断一个新文档的向量来比较模型的相似性文档。但是，重用同一文档可能会产生非常不同的结果。这样就无法准确地评估类似的文件。搜索网络中提到infer_vector具有随机性，所以每次生成新的文本向量时，都会有不同的特征。有办法解决这个问题吗？ model_dm =pickle.load(model_pickle) inferred_vector_dm = model_dm.infer_vector(i) simsinput =model_dm.docvecs.most_similar([inferred

浏览 1提问于2018-12-19得票数 1

回答已采纳

1回答

无监督doc2vec模型的度量

、、、、

我刚刚使用gensim库构建了一个简单的doc2vec模型，基本上遵循了教程“定位这里”。提供的检查模型质量的方法非常手工，需要阅读类似的文档，是否有方法从模型中计算出一些其他度量，以尝试提高其性能？

浏览 0提问于2019-08-08得票数 3

回答已采纳

1回答

gensim doc2vec给出了未确定的结果

、、

我正在使用gensim python库中的Doc2Vec模型。每次向模型提供相同的句子数据，并将参数: Doc2Vec的seed设置为固定数量时，模型在构建后会给出不同的向量。出于测试目的，每当我给出一个未改变的输入数据时，我都需要一个确定的结果。我搜索了很多，但没有找到保持gensim结果不变的方法。我用它的方式有什么问题吗？感谢您提前回复。下面是我的代码： from gensim.models.doc2vec import Doc2Vec model = Doc2Vec(sentences, dm=1, dm_concat=1, size=100, window=5, hs=0,

浏览 7提问于2017-12-20得票数 0

回答已采纳

1回答

用于查找相似句子的Gensim和Annoy

、、

我在数据库中有大量的句子，我想找到这些句子中与用户输入的单个句子最相似的句子。看起来我可以用做到这一点，但我能看到的所有例子都是使用word2vec，我相信它对于查找单个相似的单词很好，但不适用于句子。但是，我注意到AnnoyIndexer()可以采用word2vec或doc2vec模型。我说的过程是一样的，但是把word2vec模型换成doc2vec模型，并使用搜索句子的doc2vec向量，对吗？我是否需要以任何方式使用预训练的单词嵌入，或者我是否只需要使用数据库中的句子语料库来训练doc2vec模型？谢谢!

浏览 19提问于2020-02-19得票数 0

1回答

调整doc2vec的大小参数

、、、

我有一个1.2mil单句描述(5-50个单词)的数据集，我想将它们聚类到n个聚类中。对于向量转换，我想使用doc2vec来获得1.2mil大小相等的向量。但是，我不确定size参数应该是什么。我已经读过了，它应该在100-300之间，但是在这种情况下，每个文档都有更少的标记(单词)，所以向量应该很小吗？

浏览 3提问于2020-03-16得票数 0

1回答

Doc2Vec在线培训

、、、、

我训练我的doc2vec模型： data = ["Sentence 1", "Sentence 2", "Sentence 3", "Sentence 4"] tagged_data = [TaggedDocument(words=word_tokenize(_d.lower()), tags[str(i)]) for i, _d in enumerate(data)] 培训部分： model = Doc2Vec(siz

浏览 0提问于2018-12-04得票数 0

回答已采纳

2回答

Doc2Vec -在测试数据中查找文档相似性

、、、

我试图使用培训数据来训练doc2vec模型，然后使用经过训练的doc2vec模型来查找测试数据中的每个文档对于测试数据中的特定文档的相似性。然而，我无法决定如何做到这一点。我目前使用model.docvecs.most_similar(...)。但是，该函数只查找训练数据中的每个文档对于测试数据中特定文档的相似性。我尝试使用model.docvecs.n_similarity(inferred_vector.tolist(), testvectors[i].tolist())手动比较测试数据中特定文档的推断向量与测试数据中每个其他文档的推断向量，但这会返回KeyError: "ta

浏览 0提问于2019-04-30得票数 0

回答已采纳

1回答

如何获取python中gensim中单词的最近文档

、、、

我使用doc2vec模型构建文档向量，如下所示。 from gensim.models import doc2vec from collections import namedtuple dataset = json.load(open(input_file)) docs = [] analyzedDocument = namedtuple('AnalyzedDocument', 'words tags') for description in dataset: tags = [description[0]] words = descrip

浏览 1提问于2019-07-22得票数 1

回答已采纳

1回答

gensim doc2vec "intersect_word2vec_format“命令

、、

只需阅读gensim页面上的doc2vec命令。我对命令“intersect_word2vec_format”很好奇。我对这个命令的理解是，它允许我将经过预先训练的word2vec模型中的向量值注入到我的doc2vec模型中，然后使用预训练的word2vec值来训练我的doc2vec模型，而不是从我的文档语料库生成单词向量值。结果是，我得到了一个更精确的doc2vec模型，因为我使用的是经过预先训练的w2v值，与相对较小的文档语料库相比，该值是从更大的数据集生成的。我对这个命令的理解是否正确？

浏览 9提问于2017-09-02得票数 2

回答已采纳

1回答

如果我的文本数据递增，可以使用doc2vec吗？

、、、

我对Doc2vec的使用很陌生。如果我能在开始之前得到一些建议，这将节省很多时间。我的数据是源源不断的文本数据流(如tweet)。为了对这些tweet进行聚类，我考虑使用doc2vec将文本内容简化为一个固定大小的向量，并使用它在文档之间进行比较。因此，在这种情况下，文本数据是随着时间的积累，这是否还可以与Doc2Vec一起使用，我可能不得不反复学习模型(可能是！)或者我可以使用一些大型语料库，如维基百科或大型新闻语料库来训练Doc2Vec模型。任何建议都会有帮助的！提前谢谢。

浏览 1提问于2016-04-01得票数 0

回答已采纳

1回答

哪种方法可以更有效地恢复doc2vec模型？

、

在我训练了一个doc2vec模型之后，我想在另一个模块中重用文档向量。实现这一点的方法有两种：保存模型和将文档向量保存为字典。我只是想知道哪一个更节省内存，哪一个在目标模块中读取得更快？

浏览 2提问于2017-12-21得票数 0

1回答

建立基于verse主题的古兰经经文检索系统doc2vec嵌入模型需要帮助

、、、、

在我的毕业设计中，我有一个重要的模块，它即将学习一个模型，它帮助我给它一个期望是“伊斯兰”主题的输入/查询，模型的输出是与我的主题相关的“古兰经”的一些词句。一个例子(阿拉伯语) 查询可能是这样的:برالوالدين或الإحسانبالوالين 预期输出的一些古兰经诗句与前面的查询相关，如下所示： وَاعْبُدُوااللَّهَوَلَاتُشْرِكُوابِهِشَيْئًاوَبِالْوَالِدَيْنِإِحْسَانً وَقُلْلَهُمَاقَوْلًاكَرِيمًا وَوَصَّيْنَاالْإِنْسَانَبِوَالِدَيْهِحُ

浏览 1提问于2019-02-17得票数 1

1回答

向现有Doc2vec模型添加新词汇表

、、

我已经有了一个Doc2Vec模型。我用我的训练数据对其进行了训练。现在，一段时间后，我想对我的测试数据使用Doc2Vec。我想将我的测试数据词汇表添加到现有模型的词汇表中。我该怎么做呢？我的意思是如何更新我的词汇表？这是我的模型： model = model.load('my_model.Doc2vec')

浏览 2提问于2018-02-16得票数 0

2回答

gensim Doc2Vec是否区分相同的句子与正负语境。？

、、、

在学习Doc2Vec库时，我被困在了下面的问题上。 Do gensim Doc2Vec区分正、否定句？例如：句子A：“我爱机器学习” 句子B：“我不喜欢机器学习” 如果我用doc2vec训练句子A和B，找出它们的向量之间的余弦相似性：模型是否能够区分句子，并给出一个非常小于1或负值的余弦相似度？或者，该模型在向量空间中表示这两个句子，并给出接近1的余弦相似度，因为除了否定词(不)外，大部分单词都是相同的。另外，如果我只对句子A进行训练，并试图推断出句子B，那么两个向量在向量空间中是否会很接近呢？我请求NLP社区和Doc2Vec专家帮助我理解这一点。提前谢谢!！

浏览 1提问于2018-04-26得票数 4

回答已采纳

2回答

使用语义词表示(如word2vec)构建分类器

、、

我想为论坛文章构建一个分类器，它将使用语义词表示自动将这些帖子分类为一些定义的类别(因此多类分类而不仅仅是二进制分类)。对于这个任务，我想利用word2vec和doc2vec来验证使用这些模型支持分类器快速选择训练数据的可行性。此时此刻，我尝试了这两种模式，它们都很有魅力。但是，由于我不想手动标记每句话来预测它所描述的内容，所以我希望将此任务留给word2vec或doc2vec模型。所以，我的问题是:在Python中我可以使用什么算法作为分类器？(我想在word2vec或doc2vec上应用一些集群--手动标记每个集群(这需要一些时间，并不是最好的解决方案)。在此之前，我使用了“LinearS

浏览 2提问于2015-07-13得票数 1

回答已采纳

1回答

如何在tensorflow.js中训练doc2vec模型？

、、、、

我想创建一个服务于nlp问题的应用程序。我需要在前端部署doc2vec模型，我正在寻找tensorflow.js框架。我需要在tensorflow.js中训练一个doc2vec模型，以便将其部署到浏览器上。可以在tensorflow.js中训练doc2vec模型吗？

浏览 6提问于2020-12-29得票数 0

3回答

除了用于文档相似性的Doc2Vec嵌入之外，还应该使用哪些额外的特性？

、、、

因此，我正在做一个关于文档相似性的项目，目前我的功能只是来自Doc2Vec的嵌入。由于没有显示出任何好的结果，经过超参数优化和单词嵌入后，再嵌入文档...我还可以添加哪些功能，以获得更好的效果？我的数据集是150个文档，每个文档500-700个单词，有10个主题(标签)，每个文档有一个主题。文档是在文档级进行标记的，该标记当前仅用于评估目的。编辑:以下是对gojomo问题的回答，并详细说明了我对他的回答的评论：模型的评估是在训练集上进行的。我正在比较标签是否与模型中最相似的文档相同。为此，我首先使用模型的方法'infer_vector‘获取文档向量，然后使用'most_si

浏览 2提问于2020-03-03得票数 1

1回答

在gensim中，word2vec模型和doc2vec模型的wmdistance是多少？

我想比较两个字符串之间的相似性，我可以用word2vec模型或gensim中的doc2vec模型来计算wmd距离。但我不能理解doc2vec模型的wmd是如何工作的。 def preprocess(doc): return doc.lower().split() s1 = 'i would like five rooms' s2 = 'i would like four rooms' s1 = preprocess(s1) s2 = preprocess(s2) model1 = gensim.models.KeyedVectors.load

浏览 17提问于2019-07-18得票数 1

1回答

doc2vec的良好性能所需的最小数据集大小是多少？

、

当对不同大小的数据集进行培训时，doc2vec是如何执行的？在原始语料库中没有提到数据集大小，所以我想知道从doc2vec中获得良好性能所需的最小大小是多少。

浏览 4提问于2017-08-30得票数 9

回答已采纳

1回答

用新数据训练Doc2vec

、、、、

我有一个关于带有标签的文档的doc2vec模型。我正在继续使用model.train()来训练我的模型。新的数据也有新的标签，但是，当我在更多的文档上训练它时，新的标签不会被记录.有人知道我的问题可能是什么吗？

浏览 0提问于2020-07-08得票数 0

1回答

gensim doc2vec中的大小参数代表什么

、

我知道，size是输出向量的维度，如果是size=400，它会比size=100更好地捕捉内容。但是，我不明白，size代表什么？这是否意味着Doc2Vec将从一个单词中查找多远，以预测下一个单词？或者这是什么意思？非常感谢,

浏览 2提问于2016-06-16得票数 1

2回答

如何衡量Doc2vec模型的准确性？

、、

我有一个不同酒店的评论数据集。我正在尝试使用酒店的评论来查找类似的酒店。因此，我使用Doc2vec算法来实现这一点。有没有办法使用Gensim而不是使用Gensim的most_similar()函数来测量Doc2Vec模型的精度

浏览 44提问于2020-04-04得票数 1

回答已采纳

1回答

当尝试检查同一文档的余弦相似性时，得到的分数小于1

、

我已经使用doc2vec在多个文档中找到了相似性，但当我检查创建模型的同一文档时，分数应该是'1‘，对吧？因为所使用的文档和要预测的文档是相同的。可悲的是，当我试图找到相似之处时，我得到了不同的分数。下面是附加的代码。请告诉我如何纠正这个错误，我找不到这里有什么问题。请帮帮我... from gensim.models.doc2vec import Doc2Vec, TaggedDocument df['Tagged_data'] = df['sent_to_word_tokenize_text'].apply(lambda x: [TaggedDocu

浏览 1提问于2020-05-17得票数 0

2回答

Gensim Doc2Vec -将语料库语句传递给Doc2Vec函数

、、、、

我使用MySentences类从目录中的所有文件中提取句子，并使用这个句子来训练word2vec模型。我的数据集没有标签。 class MySentences(object): def __init__(self, dirname): self.dirname = dirname def __iter__(self): for fname in os.listdir(self.dirname): for line in open(os.path.join(self.dirname, fname)):

浏览 1提问于2016-07-07得票数 1

1回答

Doc2Vec -余弦相似矩阵的求值

、、、

我正在106k文档(每个文档100-600字)上训练我的Doc2Vec模型。目标是检索目标文档的相似文档。由于Doc2Vec是一个无监督模型，因此除了测试它在下游任务中的执行情况外，没有可能进行真正的评估。因此，我创建了一个小的数据集，每个目标包含大约200个目标文档和5个类似的文档。我的想法是计算每个文档与我的测试数据集中所有其他文档的余弦相似度，并获得每个目标文档的前5个相似文档。有没有一种用Doc2Vec创建余弦相似度矩阵的有效方法？most_similar函数是不切实际的，因为它检索用于训练的每个类似文档。

浏览 23提问于2021-02-10得票数 1

1回答

加载Doc2Vec模型并得到新的句子向量

、、、

我读过很多关于doc2vec的例子，但是我没有找到任何答案。就像一个实际的例子，我想用doc2vec构建一个模型，然后用一些ML模型来训练它。在此之后，如何才能得到具有精确训练的Doc2vec模型的原始字符串的向量？因为我需要用相同大小和逻辑向量的ML模型进行预测。

浏览 1提问于2018-02-06得票数 0

1回答

如何使用Gensim doc2vec执行高效的查询？

、、、、

我正在用下面的用例研究一个句子相似算法:给定一个新句子，我想从给定的集合中检索它的n个最相似的句子。我正在使用Gensim v.3.7.1，我已经培训了word2vec和doc2vec模型。后者的结果优于word2vec，但我在使用Doc2Vec模型执行高效查询时遇到了困难。该模型使用分布式的单词实现包(dm = 0)。我过去经常使用内置方法model.most_similar()来推断相似性，但是一旦我开始使用更多的数据进行训练，这是不可能的，而我想要对这些数据进行查询。也就是说，我想在我的训练数据集的子集中找到最相似的句子。我的快速修正是用余弦相似度将新句子的向量与集合上的每个向量进行比

浏览 0提问于2019-05-14得票数 3

回答已采纳

1回答

两个doc2vec模型的对比:向量维数加倍

、、、、

我有一个关于连接两个doc2vec模型的问题。我遵循了 on doc2vec并实现了示例数据。当连接两个模型(PV-DM +PV)时，正如最初的论文所概述的那样，我想知道级联模型似乎没有200-dim，就像两个输入模型一样，而是400-dim： Shape Train(11948, **400**) Shape Test(2987, **400**) 输入的形状分别为： np.asarray(X_train).shape) (11948, **200**) (2987, **200**) ，这是对的吗？，我预期维数又是200个。

浏览 0提问于2018-02-08得票数 0

1回答

保存到磁盘和加载后Doc2Vec的不同结果

、、、、

我正在使用gensim (4.1.2) python库中的Doc2Vec模型。我在我的文档集上训练了模型，并使用了infer_vector()。而不是我保存了模型并尝试在相同的文本上使用infer_vector，但是我得到了完全不同的向量。怎么啦？下面是代码示例： doc2vec_model.infer_vector(["system", "response"]) array([-1.02667394e-03, -2.73817539e-04, -2.08510624e-04, 1.01583987e-03, -4.99124289e-04,

浏览 10提问于2022-03-14得票数 0

2回答

Doc2Vec文档间的文档相似度匹配

、、

我正在用数百个PDF文档创建一个Doc2Vec模型。我有17个文档是这个Doc2Vec的一部分，我想使用这些文档来检查与Doc2Vec模型中其他文档的相似性。例如，我想做这样的事情：model.similarity(tag5, tag30) 这能办到吗？

浏览 0提问于2018-12-06得票数 1

1回答

文本文档在法律领域的分类

、、、、

我一直在做一个关于在法律领域对文本文档进行分类的项目，(法律判断预测类问题)。给定的数据集包括700份法律文件(在两个类别中很好地平衡)。经过预处理，包括应用所有的最佳实践(如删除停止词等)，每个文档有3段，我可以一起或单独考虑。平均而言，文本文档的大小为2285字。我的目标是使用与经典的n-gram模型不同的东西(该模型不考虑任何单词、顺序或语义)：使用神经网络()将每个文档的文本转换为连续域中的向量，以创建具有向量的数据集，表示文档和相应的标签(正如我所说的，有两个可能的标签:0或1)；训练一个支持向量机分类样本，我已经使用了10倍交叉验证。我想知道是否有人在这个

浏览 0提问于2018-10-01得票数 2

回答已采纳

1回答

用于Doc2vec的数据集

、

我有一个问题是，是否已经有任何可用的免费数据集来测试doc2vec，如果我想创建自己的数据集，那么如何做才是合适的。

浏览 7提问于2022-07-12得票数 0

回答已采纳

1回答

如何将一个模型的word2vec词汇应用到另一个模型中？

、、

我有一个Doc2Vec's模型，我想创建不同维度的Word2vec's模型。如何使用Doc2Vec的模型vocab进行快速训练？或者像这样训练是feasible吗？vocab building对train有影响吗

浏览 1提问于2015-07-30得票数 0

1回答

保存/重用基于doc2vec的模型以进行进一步预测

、、

我一直在遵循以下使用doc2vec进行文本分类的示例： https://github.com/susanli2016/NLP-with-Python/blob/master/Text%20Classification%20model%20selection.ipynb 我在我的数据集上运行了这个笔记本，并希望将其中一个doc2vec模型应用于第三个数据集(例如，构建测试/训练模型的整体数据集)。我试过了： X_train, X_test, y_train, y_test = train_test_split(df.post, df.tags, random_state=0, test_siz

浏览 35提问于2020-01-21得票数 0

回答已采纳

1回答

理解函数build_vocab在Doc2Vec中的作用

、、、、

我最近开始研究Doc2Vec模型。我已经理解了它的机制和它是如何工作的。我正在尝试使用gensim框架来实现它。我已经将我的训练数据转换为TaggedDocument。但我有一个问题:这一行<code>D0</code>的作用是什么？它是为了创建代表文本的随机向量吗？谢谢你的帮助

浏览 120提问于2020-11-17得票数 0

回答已采纳

1回答

Gensim Doc2Vec Most_Similar

、、、、

我对Gensim的most_similar模型中的Doc2Vec方法有困难。当我运行most_similar时，我只得到前10个标记文档的相似性(基于它们的标记--总是从0到9)。对于这段代码，我使用了topn=5，但是我使用了topn=len(文档)，而且我仍然只获得前10个文档的相似性附有标签的文件： tokenizer = RegexpTokenizer(r'\w+') taggeddoc=[] for index,wod in enumerate(model_data): wordslist=[] tagslist=[] tokens = t

浏览 1提问于2018-02-11得票数 0

1回答

如何在生产中使用doc2vec模型？

、、、

我想知道如何在生产中部署一个doc2vec模型来创建单词向量作为分类器的输入特性。具体来说，doc2vec模型是在语料库上训练的，如下所示。 dataset['tagged_descriptions'] = datasetf.apply(lambda x: doc2vec.TaggedDocument( words=x['text_columns'], tags=[str(x.ID)]), axis=1) model = doc2vec.Doc2Vec(vector_size=100, min_count=1, epochs=150,

浏览 1提问于2019-09-23得票数 2

回答已采纳

1回答

从每个文档的经过训练的Doc2Vec模型中获取数值向量

、、、

这是我第一次使用Doc2Vec对一个作者的作品进行分类。我使用带标签的句子(段落或指定长度的字符串)训练了一个模型，其中单词=段落中的单词列表，标签=作者姓名。在我的例子中，我只有两个作者。我尝试访问训练模型中的docvecs属性，但它只包含两个元素，对应于我训练模型时的两个标记。我正在尝试获取输入到训练中的每个段落的doc2vec numpy表示，以便稍后可以将其用作训练数据。我该怎么做呢？谢谢。

浏览 6提问于2017-11-07得票数 0