如何在我自己的R语料库上训练word2vec模型？

、、、

我想在我自己的语料库上使用R中的rword2vec包训练word2vec模型。用于训练模型的word2vec函数需要一个train_file。R中的包文档只说明这是训练文本数据，但没有指定如何创建它。在GitHub上的示例中使用

浏览 15提问于2019-05-01得票数 2

回答已采纳

1回答

在没有任何标签数据的情况下，在web上对文档进行排序

、、、、

我想要创建一个文档排序模型，该模型在dataset中为一个示例查询返回类似的行。该语料库中的文本是标准英语，但没有任何标签(即没有查询相关的文档结构)。是否有可能使用在大型语料库(如bert或word2vec)上训练过的预先训练过的模型，并在未进行任何评估的情况下将其直接用于被刮过的数据集并获

浏览 0提问于2021-07-06得票数 1

4回答

如何计算WordNet中没有出现的英语单词的相似度？

、、

一种特殊的自然语言实践是使用WordNet计算两个单词之间的相似度。我从下面的python代码开始我的问题：sport = wordnet.synsets("sport")[0]print(sport.wup_similarity(badminton))现在，如果我查找&

浏览 0提问于2016-07-09得票数 6

1回答

如何用word2vec训练p(类别|标题)模型

使用word2vec，目标是最大化语料库概率p(单词|上下文)，上下文以单词的形式出现。假设给定一个语料库标题及其类别(如体育、食品...)，如何使用word2vec训练模型来预测p(类别|标题)。

浏览 1提问于2015-02-03得票数 1

1回答

WikiCorpus是否删除gensim中的stop_words？

、、、

我在最新的维基百科文章转储上构建了一个盒子嵌入模型，我需要将它与gensim中的word2vec模型进行比较。我看到，如果我使用WikiCorpus类中的get_texts()方法将语料库数据生成为txt文件，会有很多停用词，所以这让我认为WikiCorpus不会删除停用词，不是吗？现在，一旦在维基语料库txt上训练</

浏览 13提问于2021-11-05得票数 0

1回答

如何使用gensim在我自己的语料库上训练一个经过预先训练的二进制文件？

、、、

嘿，伙计们，我有一个经过预先训练的二进制文件，我想在我的语料库上训练它。我尝试过的方法: 我尝试从我拥有的bin文件中提取txt文件，并在加载时将它作为word2vec文件使用，并在我自己的语料库中进一步训练它并保存模型，但是模型<

浏览 2提问于2018-07-19得票数 2

1回答

什么时候我应该考虑使用列车前模型的word2vec模型权重？

、、、、

假设我的语料库相当大，有成千上万个独特的单词。我可以直接使用它构建一个word2vec模型(下面代码中的方法#1 )，也可以用预先训练的模型权重初始化一个新的word2vec模型，并使用我自己的语料库对其进行微调(方法2)。第二种方法值得考虑吗？如果是这样的话，我</

浏览 2提问于2021-04-14得票数 0

回答已采纳

1回答

Word2vec内存和时间消耗吗？

、、

我正在尝试用神经网络训练一个Word2Vec模型。我的问题如下：如果我错了，请纠正我: word2vec使用的输入文本与图像没有相同的数量级(就内存而言)？这是否意味着不需要使用GPU来训练word2vec模型，顺便说一句，64 to虚拟云机器就足以进行培训了吗？文字训练不能超过5-10Go吗？

浏览 0提问于2018-10-11得票数 0

1回答

在tensorflow中训练Bert字嵌入模型

、、、

我有自己的纯文本语料库。我想在TensorFlow中训练一个伯特模型，类似于gensim的word2vec，以得到每个单词的嵌入向量。我已经发现，所有的例子都与任何下游NLP任务相关，比如分类。但是，我想用我的自定义语料库来训练一个Bert模型，然后我可以得到一个给定单词<

浏览 0提问于2020-04-02得票数 2

1回答

python gensim从doc2vec标签在线文档中检索原始句子

、、、

我正在使用Gensim的doc2vec方法来读入我的文本文件，该文件每行包含一句话。它将我的文件读入字典，其中键是术语的标记化列表，值是句子编号。下面是我的代码： from gensim.models.doc2vec import LabeledSentence,TaggedLineDocumentfrom gensim.models import Doc2Vec new_fil

浏览 0提问于2016-10-30得票数 2

1回答

与“yes”和“no”相似或表示“yes”和“no”的单词

、

我想知道是否有基本上表示“是”或“否”的词的语料库？如果没有，有哪些可能的算法/技术来收集这些信息？我刚刚开始学习NLP，所以如果这是一个显而易见的问题，请容忍我。谢谢!

浏览 5提问于2016-06-22得票数 1

2回答

保存Word2Vec以进行CNN文本分类

、、、

我想为我的文本语料库训练我自己的Word2Vec模型。我可以从TensorFlow的教程中得到代码。我不知道的是如何保存这个模型，以便以后用于CNN文本分类？我应该用泡菜保存它，然后稍后再读吗？

浏览 1提问于2016-07-24得票数 1

回答已采纳

1回答

使用词嵌入从大型语料库中查找概念

、、

我正在尝试从Konkani语言的语料库中发现新的概念。我在1)领域特定语料库上训练了两个模型，2)在报纸语料库上。我已经使用Gensim word2vec来训练模型，但是我无法在向量空间中获得具有相似含义的术语。近义词之间没有同义词的关系。它们的相似性就像

浏览 1提问于2016-02-28得票数 1

1回答

理解gensim Word2Vec* most_similar三个单词的结果*

、、、

我以不同的方式用三个词"1“、"2”、"3“来构造句子，并观察到每个单词的向量不变。以下是不同的句子第2类：["1“、"2”、"3"]我正在培训Word2Vec模型如下 model = Word2Vecmodel

浏览 0提问于2020-01-07得票数 1

1回答

如何从预先训练的模型中获得Gensim中的word2vec训练损失？

、

我有一些预先训练好的word2vec模型，我想用相同的语料库对它们进行评估。在给定模型转储文件和内存中的语料库的情况下，有没有办法获得原始的训练损失？

浏览 0提问于2019-03-30得票数 0

1回答

Word2Vec本身是判别性模型还是生成性模型？

、、、、

我想知道Word2Vec本身是一个判别性模型还是生成性模型？然而，单词嵌入是一种副产品，它描述了训练语料库中标记之间的关系。考虑到一个用分割语料库训练的Word2Vec模型</em

浏览 0提问于2019-04-28得票数 0

1回答

Gensim Word2Vec训练语料库中的重复

、、、、

我用Gensim训练一个Word2Vec嵌入在不同的语料库上，属于不同的年份，比较嵌入向量。我的问题是:如果我重复一特定年份的文档两次，而另一年的文档只重复一次，那么由此产生的嵌入是否给重复的文档增加了更大的权重？我想要建立一个语料库，对最近的文件给予更多的

浏览 4提问于2021-08-21得票数 0

回答已采纳

1回答

如何计算Gensim Word2Vec模型中的嵌入词数

、、

我正在尝试使用Gensim库创建Pub中央语料库的Word2Vec模型，并希望将单词嵌入的总数限制在10亿左右。我到处搜索，无法找到：( a)如何在保存的模型中计算单词嵌入的总数；( b)如何在训练模型时限制嵌入的总数(一旦达到10亿，然后停止)。请原谅我那些愚蠢的问题。

浏览 0提问于2018-08-18得票数 2

2回答

我可以使用公共预培训的word2vec，并继续培训它的领域特定的文本？

、、

我有一套来自服装领域的评论，大约100000篇评论(200万字)。我想训练word2vec用它做一些很酷的NLP员工。然而，规模不足以创建足够的word2vec模型，它需要数十亿字。因此，我们的想法是使用公共语料库(如维基百科)，甚至使用一些预先训练过的模型(例如，gensim酷框架)并添加我的领域特定文本。

浏览 0提问于2018-08-21得票数 5

1回答

Gensim的Word2Vec* not training提供的文档*

、、

我正面临着使用Word2Vec进行Gensim训练的问题。model.wv.vocab没有从训练好的语料库中得到更多的单词，只有来自初始化指令的单词！事实上，在多次尝试我自己的代码后，即使是官方网站的示例也不起作用！我在代码中的许多地方尝试过保存模型，甚至尝试在训练指令<em

浏览 10提问于2019-04-20得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在没有任何标签数据的情况下，在web上对文档进行排序

如何计算WordNet中没有出现的英语单词的相似度？

如何用word2vec训练p(类别|标题)模型

WikiCorpus是否删除gensim中的stop_words？

如何使用gensim在我自己的语料库上训练一个经过预先训练的二进制文件？

什么时候我应该考虑使用列车前模型的word2vec模型权重？

Word2vec内存和时间消耗吗？

在tensorflow中训练Bert字嵌入模型

python gensim从doc2vec标签在线文档中检索原始句子

与“yes”和“no”相似或表示“yes”和“no”的单词

保存Word2Vec以进行CNN文本分类

使用词嵌入从大型语料库中查找概念

理解gensim Word2Vec* most_similar三个单词的结果*

如何从预先训练的模型中获得Gensim中的word2vec训练损失？

Word2Vec本身是判别性模型还是生成性模型？

Gensim Word2Vec训练语料库中的重复

如何计算Gensim Word2Vec模型中的嵌入词数

我可以使用公共预培训的word2vec，并继续培训它的领域特定的文本？

Gensim的Word2Vec* not training提供的文档*

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐