首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >获取doc2vec中未见段落的段落表示形式

获取doc2vec中未见段落的段落表示形式
EN

Stack Overflow用户
提问于 2016-05-01 02:05:49
回答 1查看 415关注 0票数 2

我想使用genism doc2vec模型来完成分类任务。然而,doc2vec的gensim实现似乎需要在训练模型之前查看所有文档(训练和测试)来构建词汇表。否则,如果要获取构建词汇表时不存在的文档的文档向量,则会得到keyerror。我想知道我的理解是否正确!在实践中,人们无法在训练时访问测试数据。

有没有办法在测试时更新词汇表,以便能够获得测试文档的文档表示?

EN

回答 1

Stack Overflow用户

发布于 2016-05-29 03:27:47

您只能在学习的文档向量中查找在培训期间演示的材料。

但是,有一个方法infer_vector(),它可以向冻结的训练模型提供一个新的标记化文档,并返回一个“最佳”向量。它近似于如果新文档在培训期间可用时将返回的内容。请参见:

https://radimrehurek.com/gensim/models/doc2vec.html#gensim.models.doc2vec.Doc2Vec.infer_vector

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/36958388

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档