如何正确提取CBOW模型的嵌入权重？

CBOW（Continuous Bag-of-Words）模型是一种用于自然语言处理的词嵌入模型，用于将文本中的词语表示为连续向量。提取CBOW模型的嵌入权重可以通过以下步骤进行：

准备训练数据：首先，需要准备一个大规模的文本语料库作为训练数据。语料库可以是任何包含大量文本的数据集，如维基百科、新闻文章等。
数据预处理：对于CBOW模型，需要将文本数据转换为词语序列。可以使用分词工具（如jieba）将文本分割成单词或词语。还可以进行一些预处理步骤，如去除停用词、词干提取等。
构建CBOW模型：使用深度学习框架（如TensorFlow、PyTorch）构建CBOW模型。CBOW模型的输入是上下文词语，输出是目标词语。模型的核心是一个嵌入层，将输入的词语转换为向量表示。
训练CBOW模型：使用准备好的训练数据对CBOW模型进行训练。训练过程中，模型会学习到每个词语的嵌入权重。可以使用梯度下降等优化算法来最小化模型的损失函数。
提取嵌入权重：在训练完成后，可以通过访问CBOW模型的嵌入层来提取词语的嵌入权重。嵌入权重是一个矩阵，每一行对应一个词语的向量表示。
应用嵌入权重：提取的嵌入权重可以用于各种自然语言处理任务，如文本分类、情感分析、命名实体识别等。可以将词语转换为向量表示后，输入到其他模型或算法中进行进一步处理。

腾讯云提供了一系列与自然语言处理相关的产品和服务，如腾讯云智能语音、腾讯云智能机器翻译等。这些产品可以与CBOW模型结合使用，实现更多的自然语言处理应用。

请注意，以上答案仅为示例，实际情况可能因具体需求和技术细节而有所不同。建议在实际应用中参考相关文档和资料，以确保正确提取CBOW模型的嵌入权重。

如何正确提取CBOW模型的嵌入权重？

、、

我目前正在尝试实现CBOW模型，以获得训练和测试，但我面临着一些困惑，因为最终从模型中提取权重作为我们的单词嵌入的“适当”方法。模型 class CBOW(nn.Module): def __init__(self, config, vocab): self.config = config # Basic config file to hold arguments. self.vocab = vocab self.vocab_size = len(self.vocab.token2idx) self.window_siz

浏览 10提问于2019-11-18得票数 0

回答已采纳

1回答

用快速文本预训练词嵌入模型预测缺失词(CBOW与跳频图)

、、、、

我正在尝试实现一个简单的单词预测算法，通过从以下几个选项中选择来填补句子中的空白：在伦敦的街道上开车是不好玩的。苹果小汽车书国王有了正确的模式：问题1.为了找到最佳的合适选择，必须使用什么操作/功能？库中的相似函数定义在一个词到另一个词之间，而不是一个词到一个词列表(例如most_similar_to_given函数)之间。我在任何地方都找不到这个原始函数，尽管它是CBOW承诺的主要操作(参见下面)！我看到了一些不直观的建议这里！我在这里错过了什么？我决定采用head first方法，从fastText开始，它提供库和经过预处理的数据集，但很快就被困在了文档中： fastTex

浏览 0提问于2020-03-22得票数 4

回答已采纳

1回答

如何在统计算法中使用Word2Vec CBOW？

、、

我看到了一些在神经网络模型中使用CBOW的例子(尽管我不理解它们)。我知道，Word2Vec与BOW或TFIDF不同，因为CBOW没有单一的值，我看到的所有例子都使用了神经网络。我有两个问题： 1:我们能否将向量转换为单个值，并将其放入数据中，以便在logistic回归模型中使用？ 2:是否有使用逻辑回归的CBOW使用的简单代码？

浏览 0提问于2021-06-12得票数 0

2回答

CBoW模型如何将单词转换为向量？

、、

CBOW模型实际上以多个单词作为输入，以一个目标中心字作为输出。因此，经过训练的模型实际上将几个单词映射到一个单一的单词，我的意思是它需要上下文单词并输出中心单词。但是我们期望得到的是将一个单词映射到它的向量表示的模型。似乎输出是一致的，而不是输入和映射。就像在基因论中，它是如何将一个词映射到它的向量表示中的呢？它是否只是将所有最终模型的输出保存为中心词的向量表示？但最终模型的输出将接近地面真理的一个热点嵌入，而不是一个带有上下文信息的向量。简言之，我的问题是： CBoW模型如何将一个词转换成它的向量表示？

浏览 0提问于2019-08-19得票数 2

2回答

如何在CBOW中嵌入单词？

、

我找到了跳格模型的明确解释。我们取输出权矩阵，用我们想要嵌入的字的一个热向量乘以它。在CBOW的情况下，它是如何工作的？ 📷 我知道我们必须取一个输入权重(Wvnx)，但是哪一个？

浏览 0提问于2021-11-21得票数 3

1回答

我如何从gensim word2vec中提取矩阵WI和WO？

、、

CBOW word2vec方案如下所示：我如何从gensim.models.word2vec.Word2Vec中提取矩阵WI和WO？我只在gensim w2v模型中找到了这些字段： gensim.models.word2vec.Word2Vec.trainables.syn1neg 和 gensim.models.word2vec.Word2Vec.vw.syn1neg.vectors 我是否可以假设syn1neg是WI，WO = vectors - syn1neg 为什么这个代码 sentences = [['car', 'tree', '

浏览 0提问于2018-07-30得票数 3

回答已采纳

1回答

如何将一次热编码值计算成实数向量？

、、、

在Word2Vec中，我了解到CBOW和Skip-gram都会产生一个单热编码值来创建向量(cmiiw)，我想知道如何计算一个单热编码值或将其表示为实数向量，例如(来源：)：进入：请帮帮忙，我正在努力寻找这些信息。

浏览 2提问于2017-08-06得票数 2

回答已采纳

2回答

TF的Word2Vec嵌入

、、、、

当您训练word2vec模型(例如使用gensim)时，您提供了一个单词/句子列表。但是，似乎没有办法为计算的词语指定权重，例如使用TF-以色列国防军。通常的做法是将单词向量嵌入与相关的TF-IDF权重相乘吗？或者word2vec能以某种方式有机地利用这些优势吗？

浏览 0提问于2018-03-04得票数 16

2回答

如何微调word2vec在培训我们的CNN文本分类？

、、、

我有三个关于微调字向量的问题。求你帮帮我。我会很感激的！事先非常感谢！当我训练我自己的CNN进行文本分类时，我使用Word2vec初始化单词，然后我使用这些预先训练过的向量作为我的输入特性来训练CNN，所以如果我没有嵌入层，它肯定不能通过反向传播进行任何细调。我的问题是，如果我想做微调，它是否意味着创建一个嵌入层?以及如何创建它？当我们训练Word2vec时，我们使用无监督的训练，对吗？就像在我的例子中，我使用跳过图模型来获得我预先训练过的word2vec；但是当我拥有vec.bin并使用它作为我的单词缩写词时，如果我能够在vec.bin中微调单词到向量地图，这是否意味着我必须有一

浏览 13提问于2016-10-20得票数 5

3回答

Word2Vec - CBOW和Skip-克

、

我想知道Word2Vec是如何构建的。我读过一些教程，简单地说，我们可以训练一个跳过克神经网络模型，并使用训练成单词向量的权重。然而，我也看到了这张照片： 📷 如果正确读取此图表： 1) CBOW模型和Skip图模型都有一定的输入。 2)将CBOW的输出作为中间神经网络的输入。 3)将跳过图的输出作为中间神经网络的输出。 CBOW的输出是对给定上下文的中心词的预测，跳跃图的输出是对周围中心词的预测。然后利用这些输出来训练另一组神经网络。因此，我们首先训练CBOW，然后再训练中间神经网络？而对中间神经网络的输入是一种热点编码。以上解释正确吗？

浏览 0提问于2017-06-12得票数 6

回答已采纳

2回答

CBOW与跳格词向量的区别

、

我经历过几个链接，但不能够理解CBOW and Skip Gram是如何从零开始训练的？任何好的链接/博客或书籍都会很有帮助。 Word2Vec - CBOW和Skip-克 Skipgram word2vec和CBOW word2vec在训练中的区别是什么，以及什么时候使用CBOW .？ Example or Application where CBOW would be preferable choice but not Skip-gram and vice versa.

浏览 0提问于2020-10-12得票数 1

2回答

连续的一袋声称是无人监督的单词，它是如何工作的？

、、、、

我正在学习这两门关于CBOW和跳跃式word2vec模型的讲座。第一个是深度学习系列的lec 12，下一个lec 13。 https://www.youtube.com/watch?v=syWB-YMYZvI https://www.youtube.com/watch?v=GMCwS7tS5ZM&t=548s 在进入第二段视频大约17分钟后，讲师说CBOW的方法是不受监督的，因为没有标签？你怎么能学会一个没有标签的神经网络？这完全把我搞糊涂了，为什么我们不把我们的软件最大概率向量和一组实际的输出进行比较，以便我们能够相应地调整v_c和v_w的权重。他的可能性函数似乎只关注参数v_c和v

浏览 0提问于2018-12-06得票数 1

回答已采纳

1回答

Keras中嵌入层的精确细节

、、、

我想了解Keras中的嵌入层。有人能帮忙吗？我找不到任何好的推荐信。哪种算法起作用？我的意思是基于哪一种纸或方法？如何创建用于嵌入的培训数据？它是2字2字或更多neighbors...How模型更新的权重？是先嵌入模型，还是同时更新？是如何计算参数的？例如，我有一个简单的模型： model = Sequential() model.add(Embedding(input_dim=15, output_dim=8, input_length=4)) model.add(Flatten()) model.add(Dense(1, activation='sigmoid'))

浏览 2提问于2020-12-06得票数 0

1回答

提取嵌入层的输出。

、、、

我试图建立一个回归模型，其中我有一个非常高基数的名义变量。我试图得到列的绝对嵌入。输入： df["nominal_column"] 输出： the embeddings of the column. 我想单独使用嵌入列的op，因为我需要将其作为对传统回归模型的输入。有没有办法单独提取输出。我不是在要求代码，任何关于这个方法的建议都是很好的。

浏览 1提问于2018-11-25得票数 0

回答已采纳

1回答

连续包字(CBOW)网络体系结构？

、、、

查看word2vec，比如嵌入，我在PyTorch的网站上找到了这练习，这促使读者在PyTorch中实现CBOW网络。我的问题是实现这个CBOW网络的体系结构。以下是我的理解:从多个来源来看，网络似乎应该有一个单独的隐藏层(有权重，没有偏见)，它连接到激活层(大多数消息来源说是softmax)。然后网络将被训练将一个热编码的单词映射到可能的上下文中。最后，将隐层的权值作为嵌入矩阵。我的困惑是:我看到了许多解决方案，比如这是谷歌的第一个，其中有多个隐藏层。在这个例子中，有一个嵌入层，并且有一个由relu连接的两线性层。下面是另一个使用一个线性层的方法。我的问题是：培训CBOW编码的合适

浏览 0提问于2020-12-08得票数 1

1回答

如何将预先训练好的fastText向量转换成gensim模型

、、、

如何将预先训练好的fastText向量转换成gensim模型？我需要predict_output_word方法。从gensim.models导入gensim Word2Vec从gensim.models.wrappers导入FastText gensim.models.KeyedVectors.load_word2vec_format("wiki.ru.vec") model3 = Word2Vec(sentences=model_wiki) TypeError跟踪(最近一次调用)在->1 model3 = Word2Vec(sentences=model_wiki)

浏览 0提问于2018-12-21得票数 2

2回答

Word2Vec输出矢量

据我所知，Word2Vec在训练语料库的基础上构建了一个单词词典(或词汇表)，并为字典中的每个单词输出一个K-dim向量。我的问题是，这些K向量的来源到底是什么？假设每个向量都是输入层和隐藏层之间的权重矩阵中的一行或列，或者是隐藏层和输出层。然而，我还没有找到任何来源来支持这一点，而且我在编程语言方面还没有足够的知识来检查源代码并自己解决它。如对此议题有任何澄清意见，将不胜感激！

浏览 6提问于2017-02-16得票数 3

1回答

RNN与CBOW模型有何不同？

、、

CBOW:我们正试图根据上下文(定义为目标单词周围的某个单词窗口)来预测下一个单词。 RNN还可用于预测序列中的下一个单词，其中每次输入都是当前输入和最近过去(即前一步的输出)。我无法理解RNN的方法是如何更好的，因为我可以为CBOW定义一个非常大的窗口，然后它也将根据先前的信息预测单词。为什么我们说RNN将更好地预测，因为它有记忆？如果我们同时向CBOW提供所有东西，这是分步骤提供给RNN的，为什么其中一个比另一个好呢？这仅仅是因为我们节省了后一种情况下的计算吗？

浏览 0提问于2021-08-19得票数 0

1回答

提取三个嵌入层的Keras级联层，但它是一个空列表

、、、、

我正在构造一个具有多个输入(实际为3)的Keras分类模型来预测单个输出。具体来说，我的3个输入是： ActorsPlot SummaryRelevant电影特写输出：体裁标签 Python代码(创建多个输入keras) def kera_multy_classification_model(): sentenceLength_actors = 15 vocab_size_frequent_words_actors = 20001 sentenceLength_plot = 23 vocab_size_frequent_words_plot = 1750

浏览 2提问于2019-12-29得票数 1

回答已采纳

1回答

对于CBOW方法，我们可以使用多个目标词吗？

、、、

假设对于相同的上下文，我们有两个目标词： he is a VERY GOOD BOY.This is a VERY GOOD HAND-WRITING. 这里，VERY AND GOOD是上下文，而BOY和HAND-WRITING是两个目标。有人能解释一下怎么做吗？

浏览 0提问于2019-10-16得票数 0

回答已采纳

1回答

如何检验Tensorflow LinearClassifier的特征权重？

、、、、

我正在努力理解文档。这些文档激励这些模型如下：线性模型比神经网络更容易解释和调试。，您可以检查分配给每个特性的权重，以找出对预测影响最大的因素。因此，我从附带的中运行了扩展代码示例。特别是，我运行时，model-type标志设置为wide。它正确地运行并生成了accuracy: 0.833733，类似于Tensorflow网页上的accuracy: 0.83557522。该示例使用tf.estimator.LinearClassifier来训练权重。然而，与所引用的能够检查权重的动机相比，我无法找到任何函数来实际提取中经过训练的权重。问题：如何访问tf.estimator.Li

浏览 5提问于2017-09-09得票数 2

回答已采纳

1回答

单词嵌入是如何影响单词相似度的？

、、、、

我正在尝试应用word2vec/doc2vec来查找相似的句子。首先考虑单词相似度的word2vec。我所理解的是，CBOW可以用于在给定上下文的情况下找到最合适的单词，而Skip-gram用于在给定某个单词的情况下查找上下文，因此在这两种情况下，我都会得到频繁出现的单词。但是如何找到相似的单词呢？我的直觉是，由于相似的单词往往出现在相似的上下文中，因此单词相似度实际上是通过上下文/共现单词之间的相似度来衡量的。在神经网络中，当隐藏层上的某个单词的向量表示传递到输出层时，它会输出共现单词的概率。因此，共现词会影响某些词的向量，而且由于相似词具有相似的同现词集合，因此它们的向量表示也是相似的。为

浏览 1提问于2017-12-05得票数 1

1回答

Word2Vec本身是判别性模型还是生成性模型？

、、、、

我想知道Word2Vec本身是一个判别性模型还是生成性模型？ CBOW和Skip-gram都旨在最大化标记及其上下文之间的条件概率所对应的似然函数。只关注网络和训练过程，我认为它遵循一种有区别的方法。然而，单词嵌入是一种副产品，它描述了训练语料库中标记之间的关系。考虑到一个用分割语料库训练的Word2Vec模型，它接受一个标记并输出它的嵌入，我们经常说“它生成一个词嵌入”。Word2Vec模型是判别性模型还是生成性模型？我在制定它时遇到了一些麻烦。

浏览 0提问于2019-04-28得票数 0

2回答

从训练模型中提取特征名

、、

我有一个经过预先训练的XGBoost模型从一个泡菜文件中读取。当我试图在模型特性集之外的一些列上对新的数据集进行预测时，我收到了错误消息：培训数据没有以下字段: column1、column2、. 我不介意将这些列排除在培训数据之外。我不想硬编码列名(有很多)，我只想找到训练列和预测数据集之间的交集。是否有一种方法可以从经过训练的模型中提取特征名(显然，模型记录了字段名)，而不必返回我的训练数据集？

浏览 0提问于2019-03-12得票数 3

回答已采纳

1回答

如何在PyTorch中使用嵌入层作为线性层？

我目前正在进行的个人重新实现，并有一个问题。在第5页的"3.4嵌入和Softmax“一节中，它指出：在我们的模型中，我们在两个嵌入层和前softmax线性变换之间共享相同的权重矩阵。我目前已经实现了我的模型，在源张量和目标张量中只使用一个嵌入层，但是我想知道是否有一种方法可以使用嵌入层的权重作为一个线性层。我目前所做的事情如下： output = previous_layer(previous_input) final_output = torch.matmul(output, embedding_layer.embedding.weight.transpose(1, 0

浏览 2提问于2020-12-26得票数 1

回答已采纳

1回答

在训练CNN时，输入word2vec是如何微调的？

、、

当我读到“用于句子分类的卷积神经网络”时，我注意到该论文实现了“CNN-非静态”模型--一个使用来自word2vec的预训练向量的模型，所有的单词--包括随机初始化的未知单词，和预训练向量对每个任务都进行了微调。所以我只是不明白预先训练好的向量是如何对每个任务进行微调的。因为据我所知，输入向量是由word2vec.bin(预训练)从字符串转换而来的，就像图像矩阵一样，在训练CNN过程中不能改变。所以，如果可以的话，怎么做？请帮我一下，提前谢谢！

浏览 4提问于2016-10-18得票数 1

2回答

如何利用深度学习找到句子相似度？

、

我试图通过单词匹配找到句子相似度，然后应用余弦相似度评分。尝试了CBOW/Skip嵌入方法，但没有解决问题。我这样做是为了产品评审数据。我有两栏： SNo Product_Title Customer_Review 1 101.x battery works well I have an Apple phone and it's not that with Samsung smart phone

浏览 1提问于2020-03-09得票数 2

1回答

什么是正确的Word2vec模型，以获得预先训练的词嵌入到分类任务？

、、

我不得不用神经网络来分类一些对酒店的评论是虚假的还是真实的。我还必须使用预先训练过的词嵌入来补充神经网络。因此，我可以使用Word2vec从更大的酒店评论数据集中获取单词向量。然而，Word2vec为这项任务提供了使用连续的单词包模型和连续跳格模型的可能性.对于这一具体任务，哪一项一般更好？

浏览 0提问于2018-01-19得票数 3

回答已采纳

1回答

保存和加载keras模型

、

我已经训练了一个模型，其中包括2 embeddings，其中有初始权重的预训练(使用gensim)。这两个嵌入都有trainable=True，这意味着在培训中更新权重。该模型如下所示： def init_embedding(emb_matrix, name): embedding_layer = Embedding( emb_matrix.shape[0], emb_matrix.shape[1], weights=[emb_matrix], trainable=True, name=name)

浏览 7提问于2017-09-21得票数 0

回答已采纳

1回答

负采样的Doc2vec和word2vec

、、、、

我当前的doc2vec代码如下所示。 # Train doc2vec model model = doc2vec.Doc2Vec(docs, size = 100, window = 300, min_count = 1, workers = 4, iter = 20) 我还有如下所示的word2vec代码。 # Train word2vec model model = word2vec.Word2Vec(sentences, size=300, sample = 1e-3, sg=1, iter = 20) 我对在doc2vec中使用DM和DBOW以及在word2vec中使用Skip和CB

浏览 3提问于2017-10-21得票数 8

回答已采纳

1回答

如何计算BERT模型中的参数数？

、、

文"BERT:深层双向变压器的语言理解预训练“由Devlin & Co. .公司为基础模型尺寸110 m参数(即L=12、H=768、A=12)计算，其中L=层数、H=隐藏大小和A=自关注操作数。据我所知，神经网络中的参数通常是层间“权重和偏差”的计数。那么，这是如何根据给定的信息计算的呢? 12_768_768*12？

浏览 2提问于2020-10-22得票数 2

回答已采纳

1回答

属性名词的word2vec

、、、、

我已经在一个电影数据集上训练了我的word2vec模型，其中包含了明星阵容、导演姓名和其他类似的特性/列。文本不是自由流动的(它是逗号分隔的)。因此，相似度函数和评分函数不能产生满意的结果，因为嵌入生成的结果不合格。 word2vec是解决这样一个问题的正确方法吗?因为有更多的专有名词而没有自由流动的文本？如果是，用专有名词进行训练的参数是什么？

浏览 0提问于2017-03-23得票数 -2

1回答

稀疏和密集的corpra有什么区别？

、、、

在这句话中，我没有理解稀疏和密集corpra的含义或区别，“原因是Skip-gram比Twitter和NIPS这样的稀疏语料库工作得更好，而CBOW比密集语料库工作得更好。” 📷

浏览 0提问于2021-08-07得票数 0

1回答

在word2vec中跳过gram -输出的数量是多少

下面的图像通常用来描述带有跳过语法的word2vec模型：然而，在stackoverflow上读取之后，似乎word2vec实际上接受了1个单词和输入，以及1个单词作为输出。输出的单词是从窗口中随机抽取的。(这将执行X次，以生成X个输入/输出对。) 在我看来，上面的图像没有正确地描述网络。我的问题是:1输入/1输出是标准的( Tensorflow word2vec教程采用了这种方法，并称之为skip-gram)，还是有些网络实际上采用了上图的结构？

浏览 1提问于2018-04-11得票数 2

1回答

Tensorflow 2.0中模型权值的提取

、

我使用Tensorflow 2.0，并希望从经过训练的模型中提取所有权重和偏差。以下是我迄今所做的工作：我创建了一个模型类： MyModel类(模型)： def __init__(self): super(MyModel, self).__init__() # MyModel comes from a Basis Class self.conv1 = Conv2D(filters=32, kernel_size=3, strides=[2,2], activation='relu') self.flatten = Flatten() self.

浏览 2提问于2020-01-30得票数 2

2回答

凯拉斯。暹罗网络与三重态损耗

、、、、

我想要建立一个网络，应该能够验证图像(例如，人脸)。据我所知，解决这一问题的最佳办法是连体网络的三重态损失。我没有找到任何现成的实现，所以我决定创建自己的。但我对凯拉斯有疑问。例如，以下是网络的结构：代码是这样的： embedding = Sequential([ Flatten(), Dense(1024, activation='relu'), Dense(64), Lambda(lambda x: K.l2_normalize(x, axis=-1)) ]) input_a = Input(shape=shape, name='an

浏览 7提问于2020-08-30得票数 1

3回答

nlp任务中微调的意义

、、、、

迁移学习模式有两种类型。一种是特征提取，在对实际任务进行训练时，不改变预训练模型的权重，另一种是可以改变预训练模型的权值。根据这些分类，静态词向量(如word2vec )是一个特征提取模型，每个向量都编码单词的意义。这个词的意思改变了上下文。例如，“河岸”与“银行作为金融机构”。这些word2vec向量并不区分这些意义。像Bert这样的当前模型考虑上下文。Bert是一种语言表示模型。这意味着，它内部可以用上下文词向量来表示单词。默认情况下，伯特是一个微调模型.这就是我关于微调的想象力开始瓦解的地方。比如说，在Bert模型的基础上，我们创建了一些特定于任务的层。现在，如果我们微调，根据定

浏览 0提问于2019-05-27得票数 7

1回答

Keras级联

、、、

我正在使用Keras，我有这个错误。我该怎么解决呢？这是我的密码： cbow_words = Sequential() cbow_words.add(Embedding(input_dim=V1, output_dim=dim, input_length=window_size*2 ,embeddings_constraint=non_neg()))#modifié cbow_words.add(Lambda(lambda x: K.mean(x, axis=1), output_shape=(dim,))) cbow_words.add(Dense(V1, activation='

浏览 0提问于2018-09-28得票数 0

回答已采纳

2回答

对word2vec连续词袋的质疑

、、

对于CBOW模型，输入的单词是同时输入到训练模型中还是逐个输入？谢谢

浏览 0提问于2017-03-05得票数 1

1回答

如何在CBOW模式下运行MLlib的word2vec？

、、、

我的理解是，word2vec可以在两种模式下运行：连续词袋(CBOW) (单词顺序不重要) 连续跳克(字序重要) 我想从Spark的的MLlib运行CBOW实现，但从文档和他们的示例中我还不清楚如何做到这一点。这是他们页面上列出的例子。来自： import org.apache.spark.mllib.feature.{Word2Vec, Word2VecModel} val input = sc.textFile("data/mllib/sample_lda_data.txt").map(line => line.split(" "

浏览 3提问于2017-09-26得票数 1

回答已采纳

2回答

为什么在变压器模型中嵌入向量乘以常数？

、、、

我正在学习如何应用转换模型，这是由从tensorflow官方文档提出的。正如节所述：由于该模型不包含任何递归或卷积，因此增加了位置编码来给模型一些关于句子中单词的相对位置的信息。位置编码向量被添加到嵌入向量中。我的理解是将positional encoding vector直接添加到embedding vector中。但是当我查看代码时，我发现embedding vector乘以一个常数。节中的代码如下： class Encoder(tf.keras.layers.Layer): def __init__(self, num_layers, d_model, num_he

浏览 1提问于2019-07-08得票数 13

2回答

不可见文档的Doc2vecC预测向量

、、、

我已经使用Doc2vecc训练了一组文档。 https://github.com/mchen24/iclr2017 我正在尝试为看不见的文档生成嵌入向量，我已经按照go.sh中提到的那样对文档进行了训练。 """ time ./doc2vecc -train ./aclImdb/alldata-shuf.txt -word wordvectors.txt -output docvectors.txt -cbow 1 -size 100 -window 10 - negative 5 -hs 0 -sample 0 -threads 4 -binary 0 -ite

浏览 22提问于2019-01-23得票数 1

回答已采纳

1回答

在Keras中实现word2vec

、、、、

我想在keras中实现word2vec算法，这可能吗？我该如何拟合模型呢？我应该使用自定义损失函数吗？

浏览 0提问于2016-10-25得票数 11

回答已采纳

1回答

Keras嵌入层输入形状的混淆

、、、、

我正在尝试使用Keras嵌入层来创建我自己的CBoW实现，看看它是如何工作的。我已经生成了一个向量表示的输出，它是我正在搜索的上下文单词的向量，其大小与我的词汇量相等。我还生成了输入，这样每个上下文单词都有X个附近的单词，由它们的一个热编码向量表示。例如，如果我的句子是： “我跑过篱笆去找我的狗” 使用窗口大小2，我可以生成以下输入/输出： “fence”是我的上下文词，“over”、“the”、“to”、“find”是我附近的单词，窗口2 (2在前面，2在后面)。使用500个样本和100个训练样本的样本，经过一次热编码我的输入和输出，它将有以下维度： y.shape ->

浏览 0提问于2018-11-25得票数 0

2回答

机器学习-从文档中提取信息

、、

我正在尝试训练几个神经网络(使用tensorflow)来从发票中提取语义信息。在阅读了一长串之后，我想到了以下几点：使用生成单词嵌入(更多关于下面的语料库)。将word2vec的输出提供给CNN，因为接近的向量具有相似的语义。因此，我上面描述的非常高层次的方法对我来说似乎是很好的。如果有什么不对劲的话，我很希望它能被纠正。我有几个担心：语料库选择。使用一个通用语料库，例如维基百科，是否就足够了？或者我应该用专门的语料库来处理发票？如果是后者，我如何生成这个语料库？我确实有一个很大的发票数据集，我可以使用。信息提取假设以上所有内容都能很好地工作，我可以从一个新

浏览 0提问于2016-11-22得票数 7

1回答

Tensorflow嵌入层中的权值更新

、

我不确定我的理解是否正确但是..。在训练seq2seq模型时，我想在嵌入层中启动一组预先训练的快速文本权重，目的之一是减少测试环境中的未知单词(这些未知单词不在训练集中)。由于预训练的快速文本模型词汇量较大，在测试环境中，未知词可以用快速文本的词汇向量来表示，在训练集中，这些向量应该与语义相似的词具有相似的方向。然而，由于嵌入层中的初始快速文本权重将通过培训过程更新(更新权重会产生更好的结果)。我想知道更新的嵌入权重是否会扭曲词之间的语义相似性关系，并破坏快速文本词汇外向量的表示？(并且，在初始嵌入层中更新的嵌入权重和字向量之间，但是它们的相应ID没有出现在训练数据中) 如果输入ID可以分

浏览 2提问于2017-05-19得票数 2

回答已采纳

1回答

如何在获得word2vec模型之后将最近/时间用作特性

、、

我有一个word 2向量模型，它工作得很好，但假设我输入了Eminem。它给了我：说唱，音乐，复兴和复苏。我如何使另一层显示复苏的第一？

浏览 0提问于2017-12-24得票数 1

1回答

从TF.record数组中的行中选择随机值，并限制值的大小？

、

假设我有一个Tf.record文件，tf.records中的每一行都包含0或正的ints，然后填充-1，这样所有行都是均匀大小的。所以就像 0 3 43 223 23 -1 -1 -1 4 12 3 11 435 2 4 -1 9 3 11 32 34 322 9 7 . . . 如何从每一行中随机选择3个数字？数字将像索引一样在嵌入矩阵中查找值，然后这些嵌入将被平均(基本上是word2vec CBOW模型)。更具体地说，如何避免选择'-1‘的填充值。-1正是我用来填充行的方法，为了使用tf.record，每一行都将是相同的大小(如果有一种方法在tfrecords中使用

浏览 0提问于2018-10-30得票数 1

回答已采纳

3回答

CBOW v.s. skip-gram:为什么要颠倒上下文和目标词？

、、、、

在页面中，有人说： ..。跳过图反转上下文和目标，并试图预测每个上下文词从其目标词. 但是，从它生成的训练数据集来看，X和Y对的内容似乎是可互换的，因为这两对(X，Y)： (quick, brown), (brown, quick) 那么，如果最终是同一件事，为什么还要区分上下文和目标呢？此外，在执行时，我想知道为什么在这个问题上，他们似乎在这两种方法之间做了这么多的区别：跳过图的另一种替代方法是另一种名为CBOW (连续单词袋)的Word2Vec模型。在CBOW模型中，不是从单词向量预测上下文单词，而是从上下文中的所有单词向量之和来预测一个单词。实现和评估在text8数

浏览 8提问于2016-07-10得票数 54

回答已采纳

2回答

谷歌word2vec训练模型是CBOW还是skipgram？

、、

是谷歌预先训练好的word2vec模型CBO或skipgram。我们通过以下方式加载预训练模型： from gensim.models.keyedvectors as word2vec model= word2vec.KeyedVectors.load_word2vec_format('GoogleNews-vectors-negative300.bin.gz') 我们如何具体加载预先训练的CBOW或skipgram模型？

浏览 40提问于2019-07-18得票数 0