pytorch word2vec

PyTorch Word2Vec

简介

Word2Vec是一种流行的词嵌入技术，通过深度学习模型将单词转换为密集向量表示，以捕捉单词间的语义关系。PyTorch作为深度学习框架，提供了灵活的工具来实现这一技术。

基础概念

词向量：将单词转换为计算机可理解的数值形式，分为独热编码和分布式表征两种类型。
Skip-gram与CBOW模型：Skip-gram通过目标词预测上下文词，而CBOW则通过上下文词预测目标词。

优势

高效训练：PyTorch的动态计算图设计提高了训练效率。
灵活性：支持自定义网络结构和训练过程。
广泛应用：适用于文本分类、情感分析等多种自然语言处理任务。

类型

Skip-gram模型：根据目标词预测上下文词。
CBOW模型：根据上下文词预测目标词。

应用场景

文本分类：将文本数据转换为向量表示，用于分类任务。
情感分析：识别文本的情感倾向。
信息提取：从文本中提取关键实体或概念。

如何使用PyTorch实现Word2Vec

以下是一个简单的PyTorch Word2Vec实现示例，使用Skip-gram模型：

import torch
import torch.nn as nn
from torch.utils.data import DataLoader, Dataset

class Word2VecDataset(Dataset):
    def __init__(self, text, word_to_idx, idx_to_word, word_freqs, C, K):
        self.text_encoded = [word_to_idx[t] for t in text]
        self.text_encoded = torch.tensor(self.text_encoded).long()
        self.word_freqs = torch.tensor(word_freqs)
        self.C = C
        self.K = K

    def __len__(self):
        return len(self.text_encoded)

    def __getitem__(self, idx):
        center_word = self.text_encoded[idx]
        pos_indices = list(range(idx-self.C, idx)) + list(range(idx+1, idx+self.C+1))
        pos_words = self.text_encoded[pos_indices]
        neg_words = torch.multinomial(self.word_freqs, self.K*pos_words.shape[0], replacement=True)
        return center_word, pos_words, neg_words

class Word2VecModel(nn.Module):
    def __init__(self, vocab_size, emb_size):
        super(Word2VecModel, self).__init__()
        self.in_embed = nn.Embedding(vocab_size, emb_size)
        self.out_embed = nn.Embedding(vocab_size, emb_size)

    def forward(self, inputs):
        return self.out_embed(inputs)

# 示例训练过程
sentences = ["我喜欢吃苹果", "苹果是我的最爱", ...]  # 示例文本数据
model = Word2VecModel(len(sentences), embedding_dim=100)
optimizer = torch.optim.SGD(model.parameters(), lr=0.01)

for epoch in range(epochs):
    for i in range(0, len(sentences), batch_size):
        inputs = torch.tensor(sentences[i:i+batch_size], dtype=torch.long)
        targets = inputs.clone().detach()
        optimizer.zero_grad()
        outputs = model(inputs)
        loss = nn.CrossEntropyLoss()(outputs, targets)
        loss.backward()
        optimizer.step()

通过上述步骤，可以使用PyTorch实现一个简单的Word2Vec模型，用于学习单词的向量表示。