文章/答案/技术大牛

发布

Pytorch:使用预先训练好的向量来初始化nn.Embedding，但是这个嵌入层在训练过程中不会更新

PyTorch是一个流行的深度学习框架，它提供了丰富的工具和库来支持神经网络的构建和训练。在PyTorch中，nn.Embedding是一个用于将离散的整数映射到连续的向量表示的层。通常情况下，嵌入层的参数是随机初始化的，并在训练过程中进行更新以适应特定任务的需求。

然而，有时候我们希望使用预先训练好的向量来初始化嵌入层，这些向量通常是在大规模语料库上通过无监督学习方法（如Word2Vec或GloVe）训练得到的。这种做法可以提供更好的初始表示，尤其是当训练数据较少时。

要在PyTorch中使用预训练的向量来初始化nn.Embedding，可以按照以下步骤进行：

下载预训练的向量文件：首先，需要从可靠的来源下载适用于你的任务的预训练向量文件。这些文件通常以文本格式（如txt）存储，每一行表示一个词和其对应的向量。
创建嵌入层：使用nn.Embedding类创建嵌入层，并指定词汇表的大小和每个词向量的维度。例如，如果词汇表大小为10000，词向量维度为300，则可以使用以下代码创建嵌入层：

embedding_layer = nn.Embedding(10000, 300)

加载预训练的向量：使用torchtext或其他库加载预训练的向量文件，并将其存储为一个字典，其中键是词，值是对应的向量。例如，可以使用以下代码加载预训练的向量文件：

pretrained_vectors = {}
with open('pretrained_vectors.txt', 'r') as f:
    for line in f:
        values = line.split()
        word = values[0]
        vector = np.asarray(values[1:], dtype='float32')
        pretrained_vectors[word] = vector

初始化嵌入层的权重：遍历嵌入层的词汇表，对于每个词，如果它在预训练的向量字典中存在，则使用预训练的向量来初始化嵌入层的权重。可以使用以下代码实现：

for word, index in embedding_layer.vocab.stoi.items():
    if word in pretrained_vectors:
        embedding_layer.weight[index] = torch.from_numpy(pretrained_vectors[word])

通过以上步骤，我们成功地使用预训练的向量来初始化了nn.Embedding层的权重。在训练过程中，这些权重将保持不变，不会被更新。这样做的优势是可以利用预训练的语义信息，提供更好的初始表示，从而改善模型的性能。

对于PyTorch中使用预训练向量初始化nn.Embedding的具体应用场景，可以包括自然语言处理（NLP）任务，如文本分类、命名实体识别、情感分析等。在这些任务中，使用预训练的词向量可以提供更好的语义表示，从而提高模型的准确性和泛化能力。

腾讯云提供了多个与深度学习和自然语言处理相关的产品和服务，例如腾讯云AI开放平台、腾讯云机器学习平台等。这些平台提供了丰富的工具和资源，可以帮助开发者在云端进行深度学习模型的训练和部署。具体的产品介绍和链接地址可以参考腾讯云官方网站的相关页面。

页面内容是否对你有帮助？

有帮助

没帮助

Pytorch:使用预先训练好的向量来初始化nn.Embedding，但是这个嵌入层在训练过程中不会更新

、、

我用一些预训练参数(它们是128个维度向量)初始化了nn.Embedding，下面的代码演示了我是如何做到这一点的： self.myvectors = gensim.models.KeyedVectors.load_word2vec_formatself.embeds = torch.nn.Embedding.from_pretrained(self.vec_weights) cfg.vec_dir是一个json文件，其中vec_dir表示我用来初始化该层的</

浏览 464提问于2020-11-20得票数 1

1回答

CNTK:使用预训练嵌入初始化的训练嵌入层？

Embedding层()的文档显示，可以使用weights参数使用预先训练的嵌入对其进行初始化，但这些嵌入在训练期间不会更新。有没有一种方法可以用预先训练的嵌入初始化Embedding层，并在训练期间仍然更新</e

浏览 9提问于2017-02-27得票数 1

回答已采纳

4回答

嵌入到pytorch中

、、

我在Stackoverflow上查看了PyTorch教程和类似的问题。我很困惑；pytorch中的嵌入()会使相似的单词彼此更接近吗？我只需要给它所有的句子吗？

浏览 0提问于2018-06-08得票数 53

1回答

伯特是如何嵌入单词的？

、、、、

我正在阅读所有你需要的文件，我不知道如何在变压器基础架构中更新权重，有任何反向传播吗？通常情况下，对模型学习和更新他的重量，但谁能确认我，并向我解释，如果可能的话？但是，我知道变压器输入中的三个嵌入的总和(句子嵌入、假想嵌入和字片嵌入)，有谁能向我解释一下‘词嵌入’到底是什么？我只知道它有30k的词汇标记，但我不知道它是如何训练的</em

浏览 6提问于2022-10-20得票数 0

1回答

NLP --句子标记的“起始”和“结束”的嵌入选择

、、、、

假设我们正在训练一个神经网络模型来学习从以下输入到输出的映射，其中输出是 (NE)。创建一个滑动窗口来捕获上下文信息，并将其结果作为model_input输入到培训模型中。', '</s>', '</s>']] <s>表示句子标记的开始，</s>表示句子标记的</

浏览 3提问于2017-11-07得票数 6

回答已采纳

1回答

nn.Embedding模块是如何直观地与一般的嵌入思想相关联的？

、、

所以，我很难理解nn.Embedding。具体来说，我无法将我所理解的作为一个概念的嵌入和这个特定的实现之间的点联系起来。一种简单的查找表，用于存储固定字典和大小的嵌入。该模块通常用于存储单词嵌入

浏览 4提问于2020-12-06得票数 3

回答已采纳

1回答

如何知道gensim预训练的word2vec中的令牌ids将与记号赋予器的词汇表的ids匹配

、、、

我正在构建一个使用预先训练好的gensim word2vec的pytorch BiLSTM。我首先使用从头开始使用模型训练的nn.Embedding层，但我决定使用预先训练的word2vec嵌入来提高准确性。我的模型体系结构遵循一个简单的B

浏览 12提问于2021-10-31得票数 1

1回答

如何使用经过预先训练的BERT字嵌入向量来初始化(初始化)其他网络？

、、、、

当我过去使用textcnn进行分类工作时，我有经验使用预先训练过的单词嵌入(比如Word2Vec和fasttext文本)来细化textcnn。我用这个过程：在textcnn中创建一个嵌入层，加载Word2Vec或fasttext使用的单词的嵌入矩阵，因为嵌入层的向量

浏览 4提问于2021-01-20得票数 0

2回答

令牌<pad>，<unknown>，<go>，<EOS>在发送到RNN之前的词向量应该是什么？

、、、

在单词嵌入中，对于start_tokens _PAD，_UNKNOWN，_GO，_EOS，什么应该是一个好的向量表示？

浏览 0提问于2017-01-27得票数 7

3回答

为什么在LSTM模型中使用冻结嵌入层

、、、

我正在研究这个LSTM模式：https://www.kaggle.com/paoloripamonti/twitter-sentiment-analysis 它们使用一个冻结的嵌入层，该层使用一个预定义的矩阵，每个单词都有一个300模糊向量，表示单词的意思。Embedding(vocab_size, W2V_SIZE, weights=[embedding_matrix], i

浏览 0提问于2019-06-02得票数 5

回答已采纳

3回答

如何在Keras嵌入层中训练嵌入层

、、

如何在Keras嵌入层中训练嵌入层？(比如使用tensorflow后端，意思是类似于word2vec、手套还是快速文本) 假设我们没有使用预先训练过的嵌入。

浏览 0提问于2018-01-25得票数 10

1回答

用于文本分类的词嵌入

、、、

我是NLP社区的新手，需要更多关于一些东西的信息。我看到Keras有一个嵌入层，通常在LSTM层之前使用。但是它背后隐藏着什么算法呢？是Word2Vec，Glove还是别的什么？我的任务是有监督的文本分类问题。

浏览 0提问于2020-10-13得票数 0

1回答

为什么可以用零而不是权矩阵来设置偏置向量呢？

、、、、

我们不使用零初始化权重矩阵，因为在向后传递过程中，以及随后在参数更新过程中，对称性不会被破坏。为什么这样做是安全的，而不是相反呢？Why不能用随机数初始化偏置向量，用零来初始化权重矩阵吗？我最初的想法是向量是秩(n，1

浏览 0提问于2020-10-21得票数 2

1回答

Word嵌入，LookupTable，Word嵌入可视化

、、、

当我们将一个单词的一个热向量(例如king [0 0 0 1 0] )转换为嵌入式向量E = [0.2, 0.4, 0.2, 0.2]时.合成词向量中的每个索引有什么重要意义吗？例如E[1]，它是0.2.具体的E[1]定义(虽然我知道它基本上是对另一个空间的转换).或者单词向量共同定义上下文，但不是单独的..。与原始的一个热向量相比，单词向量的维

浏览 1提问于2017-07-03得票数 7

回答已采纳

2回答

如何微调word2vec在培训我们的CNN文本分类？

、、、

我有三个关于微调字向量的问题。求你帮帮我。我会很感激的！事先非常感谢！当我训练我自己的CNN进行文本分类时，我使用Word2vec初始化单词，然后我使用这些预先训练过的向量作为我的输入特性来训练CNN，所以如果我没有嵌入层，它肯定不能通过反向传播进行任何细调。我的问题是，如果

浏览 13提问于2016-10-20得票数 5

2回答

什么是映射相似ngram的最佳方法？

、、

我试图用Wordnet和synsets来映射类似的ngram。例如：elder brother和older sibling应该映射到同一个实体。我想知道是否有更好的方法来实现这一点？older_lemma): print(sy

浏览 0提问于2018-08-17得票数 1

2回答

Word2Vec输出矢量

据我所知，Word2Vec在训练语料库的基础上构建了一个单词词典(或词汇表)，并为字典中的每个单词输出一个K-dim向量。我的问题是，这些K向量的来源到底是什么？假设每个向量都是输入层和隐藏层之间的权重矩阵中的一行或列，或者是隐藏层和输出层。然而，我还没有找到任何来源来支持这一点，而且我在编程语言方面还没有足够

浏览 6提问于2017-02-16得票数 3

1回答

检索序列的单词向量并将其输入模型的最快方法？

、、、、

为了进行训练，我必须提供单词向量的模型序列。每个序列平均有40个单词。因此，如果我使用预训练的单词嵌入字典(如Glove)，对于每个序列，必须在嵌入字典中命中大约40次，对于每一批，它将大约是batch_size*40次。一个23 of大小的字典应该没有问题，因为我使用的是共享服务器，在那里我可以分配多达100 of的内存。但是程序在加载字典时会

浏览 19提问于2019-11-12得票数 0

1回答

LSTM num_units尺寸，即hidden_layer尺寸

、、

我经常看到natural language processing任务使用LSTM的方式是，它们首先使用embedding layer，然后使用嵌入大小的LSTM layer，也就是说，如果一个单词由1x300向量LSTM(300)表示。

浏览 1提问于2020-01-23得票数 1

回答已采纳

1回答

lstm序列的字嵌入

、、、、

我想要在这个模型中嵌入层。训练一个词分别嵌入在我的数据集或下载一个预先训练的词嵌入，然后使用这些嵌入的权重作为在我的数据集中的单词的权重。所以这里我根本不需要一个嵌入层<

浏览 0提问于2019-06-02得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Pytorch:使用预先训练好的向量来初始化nn.Embedding，但是这个嵌入层在训练过程中不会更新

相关·内容

Pytorch:使用预先训练好的向量来初始化nn.Embedding，但是这个嵌入层在训练过程中不会更新

CNTK:使用预训练嵌入初始化的训练嵌入层？

嵌入到pytorch中

伯特是如何嵌入单词的？

NLP --句子标记的“起始”和“结束”的嵌入选择

nn.Embedding模块是如何直观地与一般的嵌入思想相关联的？

如何知道gensim预训练的word2vec中的令牌ids将与记号赋予器的词汇表的ids匹配

如何使用经过预先训练的BERT字嵌入向量来初始化(初始化)其他网络？

令牌<pad>，<unknown>，<go>，<EOS>在发送到RNN之前的词向量应该是什么？

为什么在LSTM模型中使用冻结嵌入层

如何在Keras嵌入层中训练嵌入层

用于文本分类的词嵌入

为什么可以用零而不是权矩阵来设置偏置向量呢？

Word嵌入，LookupTable，Word嵌入可视化

如何微调word2vec在培训我们的CNN文本分类？

什么是映射相似ngram的最佳方法？

Word2Vec输出矢量

检索序列的单词向量并将其输入模型的最快方法？

LSTM num_units尺寸，即hidden_layer尺寸

lstm序列的字嵌入

扫码

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐