我一直在使用预先训练的模型,如谷歌新闻或手套6B模型,但在我的文本数据中的许多单词没有它们的向量表示在那些预先训练的模型中。所以我想也许用我的数据来训练我自己的模型。
在训练我们自己的两类分类模型时有什么缺点吗?还是我应该继续使用预先训练过的模型。训练我们自己的模型和使用预先训练的模式有什么区别?
# This is how I am thinking to train the model
from gensim.models import Word2Vec
w2v_model=Word2Vec(list_of_sentance_train,min_count=5,size=50, w
我想比较不同句子中提到的同一个词的差异,例如“旅行”。我想做的是:
将提及“旅行”一词的句子作为纯文本;
在每句话中,用travel_sent_x代替“旅行”。
对这些句子进行word2vec模型的训练。
计算travel_sent1、travel_sent2和其他重标记的“旅行”之间的距离,这样每个句子的“旅行”就有了自己的矢量,用于比较。
我知道word2vec需要更多的句子来训练可靠的向量。官方页面推荐包含数十亿字的数据集,但我的数据集中没有这样的数字(我有数千个单词)。
我试着用以下几句话来测试模型:
Sentences
Hawaii makes
在论文Neural Machine Translation by Jointly Learning to Align and Translate Bahdanau et. al.中,为什么没有使用Glove或word2vec之类的单词嵌入? 我知道这是一篇2014年的论文,但目前在github上的论文实现也没有使用任何单词嵌入? 对于尝试编码的论文来说,使用单词嵌入是否合理?
我正在尝试谷歌的word2vec预培训模式,以获得单词嵌入。我能够在我的代码中加载模型,我可以看到我得到了一个单词的300维表示。这是密码-
import gensim
from gensim import models
from gensim.models import Word2Vec
model = gensim.models.KeyedVectors.load_word2vec_format('/Downloads/GoogleNews-vectors-negative300.bin', binary=True)
dog = model['dog']
p