我正在比较各种技术,并想找出对大量文本文档进行矢量化和降维的最佳方法。我已经测试了Bag of Words和TF-IDF,并使用PCA、SVD和NMF进行了降维。使用这些方法,我可以减少我的数据,并知道基于解释的方差的最佳维度数量。
然而,我想用doc2vec做同样的事情,考虑到doc2vec本身是一个降维工具,找出我的模型的维数的最佳方法是什么?有没有什么统计方法可以帮助我找到vector_size的最佳数量?
提前感谢!
发布于 2020-08-15 06:52:40
对于什么是最好的,没有什么神奇的指标;你应该尝试一系列维度,看看在你的特定下游评估中,什么是好的,给定你的数据和目标。
如果使用提供训练集文档外推断的doc2vec实现(例如通过Python gensim库中的.infer_vector()
方法),那么消除vector_size
(或其他参数)的非常糟糕的选择的一个合理的理智检查是重新推断训练集文档的向量。
如果相同文本的重复重新推断通常彼此“接近”,并且通过完整模型训练创建的同一文档的向量,这是一个弱指标,表明模型至少以自我一致的方式表现。(如果结果的分布很大,这可能表示数据不足、训练周期太少、过大/过拟合模型或其他基础问题的潜在问题。)
https://stackoverflow.com/questions/63418955
复制相似问题