首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >将word2vec偏向于特殊语料库

将word2vec偏向于特殊语料库
EN

Stack Overflow用户
提问于 2015-06-05 10:02:59
回答 1查看 626关注 0票数 2

我对堆积如山很陌生。请原谅我英语不好。

我正在用word2vec做一个学校项目。我想使用一个特定领域的语料库(如物理教科书)来使用Word2Vec创建单词向量。由于语料库的体积较小,这种独立的方法不能提供好的结果。这尤其让人伤心,因为我们想要评估那些很可能不在课本词汇表之外的单词。

我们希望教科书对特定领域的关系和语义“近邻”进行编码。“量子”和“海森堡”在这本教科书中尤为接近。这对背景语料库可能不成立。要处理通用单词(比如“任意”),我们需要基本的背景模型(比如谷歌在word2vec站点上提供的模型)。

有没有办法用我们更新的语料库来代替背景模型。仅仅在语料库等方面进行培训就不起作用了。

有没有尝试将两个语料库的向量表示结合起来--一般的和特定的。在我的搜索中找不到任何东西。

EN

回答 1

Stack Overflow用户

发布于 2015-06-05 14:53:48

让我们谈谈gensim,因为你用它来标记你的问题。您可以使用gensim在python中加载以前受过训练的模型。然后你继续训练它。会有用吗?

代码语言:javascript
运行
复制
# load from previous gensim file:
model = gensim.models.Word2Vec.load(fname)
# or from word2vec c format:
# model = gensim.models.Word2Vec.load_word2vec_format('/path/vectors.bin', binary=True)

# continue training:
model.train(other_sentences)
model.save(fname)
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/30663755

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档