我使用大的训练数据集制作LDA模型来制作主题模型。因此,我尝试使用这个LDA模型来对训练数据集中没有使用的新句子进行分类。
如何使用新的输入句子找到最接近的主题编号?
我应该使用LDA主题模型作为分类模型输入吗?
欢迎使用Python分享示例代码。
发布于 2020-01-14 10:58:24
在分类问题中,由于地面真实标签是已知的,我们只需要考虑如何从训练数据中提取特征。对于LDA,特征通常是主题概率分布,即如果语料库中有5个主题,则特征向量的维数为5,这应该是一个比私密主题数量(最可能的主题)更好的特征。
对于如何获得新输入句子的主题概率分布,可以看看here,对于其他包,它们也应该具有类似的功能。
https://stackoverflow.com/questions/59188670
复制相似问题