我对堆积如山很陌生。请原谅我英语不好。
我正在用word2vec做一个学校项目。我想使用一个特定领域的语料库(如物理教科书)来使用Word2Vec创建单词向量。由于语料库的体积较小,这种独立的方法不能提供好的结果。这尤其让人伤心,因为我们想要评估那些很可能不在课本词汇表之外的单词。
我们希望教科书对特定领域的关系和语义“近邻”进行编码。“量子”和“海森堡”在这本教科书中尤为接近。这对背景语料库可能不成立。要处理通用单词(比如“任意”),我们需要基本的背景模型(比如谷歌在word2vec站点上提供的模型)。
有没有办法用我们更新的语料库来代替背景模型。仅仅在语料库等方面进行培训就不起作用了。
有没有尝试将两个语料库的向量表示结合起来--一般的和特定的。在我的搜索中找不到任何东西。
发布于 2015-06-05 14:53:48
让我们谈谈gensim
,因为你用它来标记你的问题。您可以使用gensim在python中加载以前受过训练的模型。然后你继续训练它。会有用吗?
# load from previous gensim file:
model = gensim.models.Word2Vec.load(fname)
# or from word2vec c format:
# model = gensim.models.Word2Vec.load_word2vec_format('/path/vectors.bin', binary=True)
# continue training:
model.train(other_sentences)
model.save(fname)
https://stackoverflow.com/questions/30663755
复制相似问题