我想使用genism doc2vec模型来完成分类任务。然而,doc2vec的gensim实现似乎需要在训练模型之前查看所有文档(训练和测试)来构建词汇表。否则,如果要获取构建词汇表时不存在的文档的文档向量,则会得到keyerror。我想知道我的理解是否正确!在实践中,人们无法在训练时访问测试数据。
有没有办法在测试时更新词汇表,以便能够获得测试文档的文档表示?
发布于 2016-05-29 03:27:47
您只能在学习的文档向量中查找在培训期间演示的材料。
但是,有一个方法infer_vector()
,它可以向冻结的训练模型提供一个新的标记化文档,并返回一个“最佳”向量。它近似于如果新文档在培训期间可用时将返回的内容。请参见:
https://radimrehurek.com/gensim/models/doc2vec.html#gensim.models.doc2vec.Doc2Vec.infer_vector
https://stackoverflow.com/questions/36958388
复制相似问题