如何结合词性标签特征和关联词向量从预先训练好的gensim word2vec中获取单词，并将其用于keras中的嵌入层

wikipedia、gensim、word2vec

我需要使用gensim来获取单词的向量表示，我认为最好使用的是在英文维基百科语料库上预先训练好的word2vec模块。有人知道在哪里下载它，如何安装它，以及如何使用gensim创建矢量吗？

浏览 5提问于2017-07-26得票数 16

回答已采纳

1回答

python-3.x、keras、gensim

我已经在gensim中预先训练了word2vec。在keras中，我希望对从预先训练word2vec中获取的单词使用单词向量，并将单词的词性标记特性编码为一个热向量。在Keras中，我认为使用嵌入矩阵，所以我想在Keras中创建嵌入层来实现这一点，这样它就可以用于更多的层(LSTM)。你能详细告诉我怎么做吗？

浏览 25提问于2019-10-05得票数 0

2回答

字向量作为输入

deep-learning、keras、word-embeddings、word2vec、sentiment-analysis

我有一个语料库，我想用LSTM和word嵌入来进行情感分析。我已经使用Word2Vec将文档中的单词转换为单词向量。我的问题是如何将这些字向量输入到Keras？我不想使用Keras提供的嵌入。

浏览 0提问于2016-09-07得票数 1

回答已采纳

4回答

如何将Gensim doc2vec与预先训练好的词向量一起使用？

python、nlp、gensim、word2vec、doc2vec

我最近偶然发现Gensim中添加了doc2vec。如何在doc2vec中使用预先训练好的词向量(例如，在word2vec原始网站中找到的)？或者，doc2vec是从用于段落向量训练的相同句子中获得单词向量吗？谢谢。

浏览 1提问于2014-12-14得票数 44

1回答

Tensorflow2中的单词嵌入

nlp、gensim、word2vec、word-embedding、tensorflow2.0

我正在尝试理解如何使用Tensorflow2来训练没有预设标签的单词嵌入。在Tensorflow2教程()中，它展示了如何使用带标签的预结构化数据集来训练单词嵌入。 imdb = keras.datasets.imdb (train_data, train_labels), (test_data, test_labels) = imdb.load_data( num_words=vocab_size) embedding_dim=16 model = keras.Sequential([ layers.Embedding(vocab_size, embedding_dim, in

浏览 9提问于2019-08-03得票数 0

1回答

使用BERT通过word嵌入生成类似的单词或同义词

python、nlp、gensim、word2vec、bert-language-model

由于我们都知道BERT模型用于字嵌入的能力，它可能比word2vec和其他任何模型都要好。我希望在BERT单词嵌入上创建一个模型，以生成同义词或类似的单词。就像我们在Gensim Word2Vec做的一样。我想要创建的方法，Gensim model.most_similar()到伯特字嵌入。我对它进行了大量的研究，似乎可以做到这一点，但问题是，它只是以数字的形式显示嵌入，没有办法从它得到实际的单词。有人能帮我吗？

浏览 2提问于2021-07-14得票数 3

2回答

嵌入与直接插入词向量到输入层的比较

keras、deep-learning、nlp、gensim、word2vec

我使用gensim构建了我的语料库的word2vec嵌入。目前，我正在使用gensim模型将我的(填充)输入句子转换为单词向量。这些向量被用作模型的输入。 model = Sequential() model.add(Masking(mask_value=0.0, input_shape=(MAX_SEQUENCE_LENGTH, dim))) model.add(Bidirectional( LSTM(num_lstm, dropout=0.5, recurrent_dropout=0.4, return_sequences=True)) ) ... model.fit(traini

浏览 2提问于2018-12-19得票数 3

2回答

将word2vec字典加载到gensim中

nlp、gensim、word2vec、spacy、word-embedding

我已经将预先训练好的word2vec嵌入加载到以下形式的python字典中 {word: vector} 例如，这个字典的一个元素是 w2v_dict["house"] = [1.1,2.0, ... , 0.2] 我想将这个模型加载到Gensim (或类似的库)中，这样我就可以找到嵌入之间的欧几里得距离。据我所知，预先训练好的嵌入通常位于.bin文件中，可以加载到Gensim中。但是如果我只有一个这种形式的字典，我如何将向量加载到模型中？

浏览 2提问于2019-01-19得票数 0

1回答

如何解释word2vec权重的形状？

python、neural-network、keras、deep-learning、word2vec

我正在尝试使用我的word2vec模型中的权重作为keras中神经网络嵌入层的权重。我下面介绍的使用： word_model = gensim.models.Word2Vec(sentences, size=100, min_count=1, window=5, iter=100) pretrained_weights = word_model.wv.syn0 keras_model.add(Embedding(input_dim=vocab_size, output_dim=emdedding_size,

浏览 0提问于2018-05-13得票数 1

2回答

如何使用Google Word2Vec获取每个文档的向量

python、word2vec、word-embedding

我正在尝试谷歌的word2vec预培训模式，以获得单词嵌入。我能够在我的代码中加载模型，我可以看到我得到了一个单词的300维表示。这是密码- import gensim from gensim import models from gensim.models import Word2Vec model = gensim.models.KeyedVectors.load_word2vec_format('/Downloads/GoogleNews-vectors-negative300.bin', binary=True) dog = model['dog'] p

浏览 0提问于2020-11-02得票数 1

回答已采纳

1回答

如何将word2vec嵌入作为Keras嵌入层传递？

python、keras、nlp、data-science、word2vec

我正在使用Keras解决一个多类分类问题。但是我假设由于我的数据(特定领域的数据)嵌入的单词很差，所以准确性很差。 Keras有自己的嵌入层，是一种有监督的学习方法。因此，我有两个问题要问：由于word2vec是一种无监督的学习/自我监督的学习方式，所以可以在Keras的嵌入层中使用word2vec嵌入吗？如果是，那么我可以使用转移学习的word2vec培训前模型，以投入额外的知识，我的领域特有的特点。

浏览 0提问于2019-04-26得票数 3

2回答

什么时候使用不同的Word2Vec训练方法？

python、tensorflow、word2vec、word-embeddings、gensim

因此，我是第一次学习Word2Vec，我的问题是非常基本的:如何知道使用什么方法？比如Tensorflow中的Word2Vec还是用Gensim训练的Word2Vec？在哪些情况下，通过更手动的第一种方法来实现它相对于第二种方法是有用的呢？如果已经有一种更简单的方法来使用gensim来训练word2vec模型，为什么不总是使用它呢？此外，使用像谷歌新闻数据集这样的预先训练的模型有什么好处呢？当新闻数据集中没有包含单词时，会发生什么情况？对不起，如果这个问题是基本的，我只想更清楚地了解整个情况。

浏览 0提问于2018-01-08得票数 3

回答已采纳

1回答

如何正确地使用Keras的嵌入层？

deep-learning、tensorflow、keras、word-embeddings

我有点困惑于如何正确使用Keras中的嵌入层来实现seq2seq (我想在Keras中重建TensorFlow se2seq机器翻译教程 )。我的问题如下：我理解嵌入层将句子中的单词值转换为固定维长的表示。但我观察到嵌入层有两种不同的用法:一方面(如关于Keras博客的本教程)通过weights参数利用外部预训练的word2vec向量： from keras.layers import Embedding embedding_layer = Embedding(len(word_index) + 1, EMBEDDING_DIM, weights=[embedding_matrix

浏览 0提问于2017-03-13得票数 7

1回答

从预先训练的word2vec中查找句子相似点的Keras

python、tensorflow、keras

我有来自gensim的预科word2vec。并使用gensim查找words之间的相似之处，就像预期的那样。但我很难找到两个不同句子之间的相似之处。使用cosine similarities不是句子的一个好选择，也不能给出很好的效果。Soft Cosine similarities in gensim提供了一些更好的结果，但是看起来也不太好。我在gensim找到了gensim。这比softcosine和cosine要好一点。我在想，如果有更多的选择，比如使用像keras和tensorflow这样的深度学习，从经过预先训练的word2vec中找到相似的句子。我知道可以使用word embbe

浏览 0提问于2019-09-21得票数 0

回答已采纳

1回答

如何在GoogleNews- vectors negative3000.bin预训练模型中添加缺失的单词向量？

python、nlp、gensim、word2vec、word-embedding

我在python中使用gensim word2vec库，并使用预先训练好的GoogleNews-word2vec-negative300.bin模型。但, 我的语料库中有单词，我没有单词向量，我正在获取keyError，我该如何解决这个问题？这是我到目前为止已经尝试过的方法。 1:加载经过训练的GoogleNews-vectors-negative300.bin模型： model = Word2Vec.load_word2vec_format('GoogleNews-vectors-negative300.bin', binary=True) print "mode

浏览 159提问于2015-11-29得票数 2

2回答

如何使用word2vec同时获得给定单词的单词嵌入向量和上下文向量？

python、vector、word2vec、word-embedding

from gensim.models import word2vec sentences = word2vec.Text8Corpus('TextFile') model = word2vec.Word2Vec(sentences, size=200, min_count = 2, workers = 4) print model['king'] 输出向量是“king”的上下文向量还是“king”的单词嵌入向量？怎样才能同时获得“king”的上下文向量和“king”的单词嵌入向量？谢谢!

浏览 3提问于2016-09-09得票数 6

1回答

在Keras中使用的训练词嵌入(Gensim)中的未知词

python、keras、gensim、word2vec、word-embedding

我正在使用GENSIM (word2vec)训练一个单词嵌入，并在KERAS的神经网络中使用训练好的模型。当我有一个未知(词汇表外)的单词时，就会出现问题，因此神经网络不再工作，因为它无法找到该特定单词的权重。我认为解决这个问题的一种方法是将一个新单词(<unk>)添加到具有零权重(或随机权重？)的预训练单词嵌入中。哪个更好？)这种方法可以吗？此外，对于这个词嵌入，权重在这个神经网络中是不可训练的。

浏览 18提问于2020-12-19得票数 1

1回答

将gensim doc2vec嵌入导出到单独的文件中，以便稍后与keras嵌入层一起使用。

keras、gensim、word-embedding、doc2vec

我对gensim还是个新手，现在我正在尝试解决这个问题，这涉及到在keras中使用doc2vec嵌入。我无法在keras中找到现有的doc2vec实现--就我所见的所有示例而言，到目前为止，每个人都只是使用gensim来获取文档嵌入。一旦我在gensim中训练了我的doc2vec模型，我就需要以某种方式将嵌入权重从genim导出到keras中，这并不是很清楚如何做到这一点。我看到了 model.syn0 假设给出了word2vec嵌入权重(根据)。但目前还不清楚如何对文档嵌入执行相同的导出。有什么建议吗？我知道通常我只能直接从gensim模型中获得每个文档的嵌入，但我想稍后对keras中的

浏览 15提问于2018-02-27得票数 2

回答已采纳

1回答

Gensim -如何处理模型字：：tag

load、gensim、corpus

我正在尝试使用gensim加载一个预先训练好的word2vec模型。尽管模型被标记了，所以每个单词都有一个标记，它告诉我们这个单词代表的是什么词性。例如： big::adj 0.041660 0.045049 -0.204449 0.102298 0.045326 -0.172079 0.197417 -0.012363 0.127003 0.040437 -0.003397 0.048288 0.072291 0.044205 -0.055407 -0.075357 -0.154024 0.021732 0.224021 -0.243452 -0.048776 -0.002823 0.11

浏览 0提问于2018-06-13得票数 0

1回答

Word2Vec是只适用于句子中的单词还是也适用于特性？

word2vec

我想了解更多关于Word2Vec的信息：我目前正在尝试建立一个程序来检查一个句子的嵌入向量。同时，我也用sci构建了一个特征提取，学习从句子中提取引理0、引理1、引理2。根据我的理解； 1)特征提取:引理0，引理1，引理2)字嵌入:向量嵌入到每个字符(这可以通过使用gensim word2vec(我已经尝试过)实现) 更多解释：句子=“我有笔”。单词=表示句子的符号，例如，"have“ 1)特征提取 “我有一支笔”-->引理0:我，lemma_1: have，lemma_2:a.......lemma 0: have，lemma_1: a，lemma_2:pen等等。然后，

浏览 0提问于2018-09-18得票数 0

回答已采纳

1回答

在训练CNN时，输入word2vec是如何微调的？

nlp、svm、deep-learning

当我读到“用于句子分类的卷积神经网络”时，我注意到该论文实现了“CNN-非静态”模型--一个使用来自word2vec的预训练向量的模型，所有的单词--包括随机初始化的未知单词，和预训练向量对每个任务都进行了微调。所以我只是不明白预先训练好的向量是如何对每个任务进行微调的。因为据我所知，输入向量是由word2vec.bin(预训练)从字符串转换而来的，就像图像矩阵一样，在训练CNN过程中不能改变。所以，如果可以的话，怎么做？请帮我一下，提前谢谢！

浏览 4提问于2016-10-18得票数 1

3回答

Gensim Word2Vec从预训练模型中选择较小的单词向量集

python、keras、word2vec、gensim、word-embedding

我在gensim中有一个大型的预训练的Word2Vec模型，我想从这个模型中使用预训练的单词向量作为Keras模型中的嵌入层。问题是嵌入的大小是巨大的，而且我不需要大多数的单词向量(因为我知道哪些单词可以作为输入)。因此，我想摆脱它们，以减少我嵌入层的大小。有没有一种方法可以根据单词的白名单来保持想要的字向量(包括对应的索引！)？

浏览 0提问于2018-06-18得票数 8

回答已采纳

2回答

word2Vec和缩写

python、keras、nlp、word2vec

我正在进行文本分类任务，其中我的数据集包含许多缩写和专有名词。例如：Milka choc.酒吧. 我的想法是使用带有word2vec嵌入的双向LSTM模型。这是我的问题，如何编码单词，没有出现在字典中？我把预先训练好的向量和随机初始化的向量合并，部分地解决了这个问题。以下是我的实现： import gensim from gensim.models import Word2Vec from gensim.utils import simple_preprocess from gensim.models.keyedvectors import KeyedVectors word_vecto

浏览 1提问于2018-06-18得票数 0

1回答

Gensim word2vec与keras嵌入层的差异

keras、word2vec、word-embeddings、gensim、embeddings

我在不同的项目中使用了gensim word2vec包和Keras Embedding layer。然后我意识到他们似乎在做同样的事情，他们都试图把一个单词转换成一个特征向量。我能正确理解这一点吗？这两种方法到底有什么区别？谢谢!

浏览 0提问于2019-10-11得票数 8

回答已采纳

2回答

谷歌word2vec训练模型是CBOW还是skipgram？

python-3.x、word2vec、word-embedding

是谷歌预先训练好的word2vec模型CBO或skipgram。我们通过以下方式加载预训练模型： from gensim.models.keyedvectors as word2vec model= word2vec.KeyedVectors.load_word2vec_format('GoogleNews-vectors-negative300.bin.gz') 我们如何具体加载预先训练的CBOW或skipgram模型？

浏览 40提问于2019-07-18得票数 0

3回答

如何在Keras嵌入层中训练嵌入层

python、keras、word-embeddings

如何在Keras嵌入层中训练嵌入层？(比如使用tensorflow后端，意思是类似于word2vec、手套还是快速文本) 假设我们没有使用预先训练过的嵌入。

浏览 0提问于2018-01-25得票数 10

2回答

如何使用Word2vec生成独立(X)变量？

python、word2vec、sentiment-analysis

我有一个电影评论数据集，它有两列评论(句子)和情感(1或0)。我想创建一个分类模型，使用word2vec进行嵌入，并使用CNN进行分类。我在youtube上寻找教程，但他们所做的就是为每个单词创建矢量，并向我显示相似的单词。就像这样- model= gensim.models.Word2Vec(cleaned_dataset, min_count = 2, size = 100, window = 5) words= model.wv.vocab simalar= model.wv.most_similar("bad") 我已经有了我的因变量(Y)，这是我的“情

浏览 0提问于2020-02-09得票数 0

2回答

我可以使用公共预培训的word2vec，并继续培训它的领域特定的文本？

nlp、word2vec、gensim

我有一套来自服装领域的评论，大约100000篇评论(200万字)。我想训练word2vec用它做一些很酷的NLP员工。然而，规模不足以创建足够的word2vec模型，它需要数十亿字。因此，我们的想法是使用公共语料库(如维基百科)，甚至使用一些预先训练过的模型(例如，gensim酷框架)并添加我的领域特定文本。我假设这个模型会注意到未见过的公开单词，并且可以纠正普通单词的向量。说得通吗？这两百万字会有什么效果吗？

浏览 0提问于2018-08-21得票数 5

3回答

在keras中使用预训练的gensim Word2vec嵌入

python、keras、gensim、word2vec、word-embedding

我在gensim中训练过word2vec。在Keras中，我想用它来制作句子矩阵，使用这个词嵌入。因为存储所有句子的矩阵是非常空间和内存低效的。因此，我想在Keras中创建嵌入层来实现这一点，这样它就可以在其他层(LSTM)中使用。你能详细告诉我怎么做吗？ PS:它与其他问题不同，因为我使用gensim进行word2vec训练，而不是keras。

浏览 1提问于2018-09-01得票数 9

回答已采纳

2回答

如何微调word2vec在培训我们的CNN文本分类？

machine-learning、nlp、artificial-intelligence、deep-learning

我有三个关于微调字向量的问题。求你帮帮我。我会很感激的！事先非常感谢！当我训练我自己的CNN进行文本分类时，我使用Word2vec初始化单词，然后我使用这些预先训练过的向量作为我的输入特性来训练CNN，所以如果我没有嵌入层，它肯定不能通过反向传播进行任何细调。我的问题是，如果我想做微调，它是否意味着创建一个嵌入层?以及如何创建它？当我们训练Word2vec时，我们使用无监督的训练，对吗？就像在我的例子中，我使用跳过图模型来获得我预先训练过的word2vec；但是当我拥有vec.bin并使用它作为我的单词缩写词时，如果我能够在vec.bin中微调单词到向量地图，这是否意味着我必须有一

浏览 13提问于2016-10-20得票数 5

1回答

对于使用word2vec和支持向量机/神经网络/深度网络进行多类文本分类，有哪些好的资源？

nlp、deep-learning、text-classification、word2vec

我需要实现一个多类文本分类器。我想使用word2vec，有没有人能帮我找到好的论文/资源来讨论这个。我会有4-5个类，我有大量的数据。我不得不手动标记其中的一些。如果有人能提供训练规模，那就太好了。我计划使用预先训练好的word2vec来嵌入单词。

浏览 19提问于2017-03-16得票数 0

1回答

如何使用预先训练好的word2vec模型(谷歌)将单词列表转换为向量列表？

python-3.x、gensim、word2vec

我正在努力学习word2vec。我正在使用下面的代码在Python3中加载谷歌预先训练好的word2vec模型，但我不确定如何将诸如“i”、"ate“、"apple”之类的列表转换为向量列表(即如何从该模型中获取向量？) import nltk import gensim # Load Google's pre-trained Word2Vec model. model = gensim.models.KeyedVectors.load_word2vec_format('./model/GoogleNews-vectors-negative300.bin&#

浏览 17提问于2019-07-29得票数 0

回答已采纳

1回答

InvalidArgumentError:索引[18，16]= 11905不在[0,11905][节点顺序_1/嵌入_1/嵌入_查找]

tensorflow、nlp、word2vec、embedding、word-embedding

我正在使用TF 2.2.0，并试图创建一个Word2Vec的CNN文本分类模型。但是，无论我如何尝试，模型或嵌入层总是存在问题。我在互联网上找不到明确的解决方案，所以决定问它。 import multiprocessing modelW2V = gensim.models.Word2Vec(filtered_stopwords_list, size= 100, min_count = 5, window = 5, sg=0, iter = 10, workers= multiprocessing.cpu_count() - 1) model_save_location = "3000t

浏览 2提问于2020-12-30得票数 1

回答已采纳

2回答

word2vec学习上下文词的可能原因是最相似的词而不是相似的上下文中的单词

neural-network、deep-learning、nlp、word2vec、word-embeddings

我正在观察我的word2vec模型，学习上下文中最相似的单词，而不是类似上下文中的单词。我不明白为什么它(通常是word2vec，特别是我的模型)能够这样做，并想知道原因。我在keras中实现了最初的word2vec。我选择了带有点积层的变体，而不是层次化的softmax，并在维基百科转储中训练了模型，我把它分成5克。对于每个单词，我用一个二进制目标标签构造8对作为训练项。我使用带有标签True的4个上下文单词，并选择4个不属于标签0的上下文单词的随机单词。从直觉上看，该模型应该学习相似上下文中的词的相似表示，因为它以类似的方式修改了这些词的表示，因为它用相似的上下文词独立地对它们进行了优

浏览 0提问于2018-12-07得票数 1

回答已采纳

1回答

为什么spark.ml.feautures.Word2Vec要将句子向量化而不是单个单词？

apache-spark、word2vec

在理解星火中的Word2Vec与gensim 1有何不同的过程中，我对Spark (参考链接：https://spark.apache.org/docs/2.2.0/ml-features.html#word2vec)中的例子感到非常困惑，我想知道为什么它们不是转换单个单词，而是转换整个句子。word2vec的目的不是将单个单词嵌入向量空间吗？为什么要嵌入整个句子？如何对word2vec进行适当的训练，然后在星火中应用单个单词？

浏览 0提问于2018-07-27得票数 7

回答已采纳

2回答

如何将词嵌入和pos嵌入结合在一起来构建分类器

nlp、word2vec、word-embedding、part-of-speech

你知道POS就像'NP'，‘动词’。如何将这些功能组合到word2vec中？就像下面的向量一样？ keyword V1 V2 V3 V4 V5 V6 corruption 0.07397 0.290874 -0.170812 0.085428 'VERB' 'NP' people .............................................................. bu

浏览 0提问于2018-07-26得票数 3

1回答

利用预训练的word2vec和低LSTM进行单词生成

machine-learning、neural-network、keras、lstm、word2vec

LSTM/RNN可用于文本生成。展示了为Keras模型使用预先训练的GloVe单词嵌入的方法。如何在Keras模型中使用经过预先训练的Word2Vec单词嵌入？ post确实有帮助。当模型中提供了单词序列作为输入时，如何预测/生成下一个单词？尝试了抽样方法： # Sample code to prepare word2vec word embeddings import gensim documents = ["Human machine interface for lab abc computer applications",

浏览 4提问于2017-02-06得票数 26

1回答

word2vec输出后的模型

nlp、word2vec、word-embeddings、gensim

我最初是使用一个包字(2克)模型来处理一个分类问题。将2克输出的热编码发送到logistic回归或神经网络建立分类模型。现在，我正在实验gensim word2vec方法，每个单词现在都是来自word2vec的向量。也就是说，如果我的句子有10个单词，它就会变成一个10x30数组(假设word2vec嵌入维数是30)。我不清楚如何像以前那样把这样的输出发送给逻辑回归或神经网络模型。在gensim word2vec输出之后，我应该使用哪种类型的模型来解决分类问题？谢谢!

浏览 0提问于2019-09-02得票数 0

1回答

如何在Keras中只使用嵌入层而不使用标签来训练模型

python、machine-learning、keras、word-embedding

我有一些没有标签的短信。只是一堆文本文件。我想训练一个嵌入层来将单词映射到嵌入向量。到目前为止，我看到的大多数例子如下： from keras.models import Sequential from keras.layers import Embedding, Flatten, Dense model = Sequential() model.add(Embedding(max_words, embedding_dim, input_length=maxlen)) model.add(Flatten()) model.add(Dense(32, activation='relu&

浏览 0提问于2018-11-18得票数 4

回答已采纳

2回答

用Gensim减少谷歌的Word2Vec模型

nlp、gensim、word2vec

通过word2vec加载完整的预先训练的模型是耗时而乏味的，因此我想知道是否有机会删除低于某一频率的单词，从而将vocab计数降低到例如200k单词。我在Word2Vec包中找到了gensim方法来确定单词频率，并再次保存模型，但我不知道如何从经过预先训练的模型中提取pop/remove语音，然后再保存它。我在KeyedVector class和Word2Vec class中找不到这种操作的任何提示？如何选择预先训练的word2vec模型的词汇表的一个子集？

浏览 5提问于2017-02-25得票数 9

回答已采纳

1回答

如何利用Gensim生成的预训练word2vec模型与卷积神经网络

nlp、convolutional-neural-network、word2vec、text-classification

我使用Gensim框架(https://radimrehurek.com/gensim/auto_实例/index.html#文档)生成了一个经过预先培训的C0模型。该数据集包含507种情感(句子)，它们被标记为积极或消极。在执行完所有文本处理之后，我使用Gensim生成了经过预先训练的word2Vec模型。该模型有234个唯一的词，每个向量都有300个维数。不过，我有个问题。如何使用生成的word2vec嵌入向量作为CNN的输入？

浏览 0提问于2021-11-15得票数 2

回答已采纳

3回答

为什么word2vec词汇表长度不同于单词向量长度

machine-learning、text-classification、gensim、word2vec

我从上读到了Kaggle的word2vec示例，我不明白为什么模型的词汇表长度与单词向量长度不同。单词向量中的每个单元不都表示与词汇表中其他单词的关系，因此每个单词都有相互之间的关系吗？如果不是，那么单词向量中的每个单元代表什么？真的很感谢你的帮助。

浏览 2提问于2016-03-15得票数 1

2回答

微调预培训的word2vec Google新闻

python、gensim、word2vec、google-news、fasttext

我目前使用的Word2Vec模式是在谷歌新闻语料库上培训的(来自)，因为这是直到2013年才对新闻进行培训的，因此我需要更新矢量，并根据2013年以后的新闻在词汇表中添加新单词。假设我在2013年后有了一个新的新闻语料库。我可以重新培训或微调或更新谷歌新闻Word2Vec模式吗？能用Gensim做吗？可以用FastText来完成吗？

浏览 4提问于2017-09-15得票数 3

1回答

多输入特征的神经网络训练

python、tensorflow、keras、tokenize、embedding

我已经提到了。然而，我仍然是困惑，因为我是新的RNN和CNN。我正在和keras一起训练神经网络分类器。在我的csv文件中，我有三个特性。句子概率目标每句话都是一个只有5个字的句子，有1860个这样的句子。概率是0,1范围内的浮点值，目标是需要预测的字段(0或1)。我首先随机开始使用嵌入的句子，如下所示。 import string import nltk from nltk.tokenize import word_tokenize from nltk.corpus import stopwords import numpy as np import gensi

浏览 0提问于2019-06-19得票数 0

1回答

keras.layers.embedding是如何学习单词嵌入的？

tensorflow、nlp、word-embeddings、encoding

我正在尝试一些tensorflow教程，并发现在所有这些教程中，他们都使用layers.embedding来学习这些单词嵌入，但是这些是如何学习的呢？哪种建筑？，还是word2vec？谢谢

浏览 0提问于2020-08-09得票数 1

回答已采纳

1回答

单元的角嵌入选项，batch_size和num .关于目标形状的值误差

python、tensorflow、deep-learning、keras

我正在写我的第一个角星模型。我需要实现word嵌入。以下是我的错误： ValueError: Error when checking target: expected embedding_1 to have shape (55, 50) but got array with shape (55, 16) 下面是一些代码。省略了汇编x和y np数组的代码。本质上，我所做的就是将每个单词转换成它的标记，并将这些标记串在一起。然后我把每一个序列加到55个。我想把这个输入到模型中，但是我得到了这个错误。 batch_size=16 words = 200

浏览 0提问于2018-02-19得票数 1

回答已采纳

3回答

基于word2vec的句子嵌入

python、gensim、word2vec、embedding

我想比较不同句子中提到的同一个词的差异，例如“旅行”。我想做的是：将提及“旅行”一词的句子作为纯文本；在每句话中，用travel_sent_x代替“旅行”。对这些句子进行word2vec模型的训练。计算travel_sent1、travel_sent2和其他重标记的“旅行”之间的距离，这样每个句子的“旅行”就有了自己的矢量，用于比较。我知道word2vec需要更多的句子来训练可靠的向量。官方页面推荐包含数十亿字的数据集，但我的数据集中没有这样的数字(我有数千个单词)。我试着用以下几句话来测试模型： Sentences Hawaii makes

浏览 5提问于2020-09-07得票数 3

回答已采纳

3回答

为什么要使用事先训练过的模型？

nlp、word-embeddings、word2vec

上个月，我一直在研究单词嵌入和最著名的预先训练过的单词嵌入、Word2Vec、GloVe、FastText等。我已经读过很多次，在做给定的任务时利用预先训练过的模型是多么重要，但是我不明白一个经过训练的模型如何能够适应我给定的语料库。此外，如果我的新单词没有出现在预先训练的模型中，我能使用这个预先训练的模型来学习新单词的嵌入吗？

浏览 0提问于2021-04-10得票数 2

14回答

如何用python的gensim word2vec模型计算句子相似度

python、gensim、word2vec

根据，我可以使用gensim软件包中的word2vec模型来计算两个词之间的相似度。例如： trained_model.similarity('woman', 'man') 0.73723527 然而，word2vec模型无法预测句子的相似性。在gensim中，我发现了具有句子相似性的LSI模型，但这似乎不能与word2vec模型相结合。我的每句话的语料库都不长(短于10个字)。那么，有什么简单的方法来实现这一目标呢？

浏览 13提问于2014-03-02得票数 144

回答已采纳

1回答