我试图对数百个文本文档进行聚类,以便每个集群代表一个不同的主题。我不使用主题建模(我知道我也可以这样做),而是采用两步方法:
使用语句- SentenceTransformer)
中)
我知道我可以在步骤2中使用k方法,但是我更喜欢软聚类算法,因为我的文档有时属于多个主题。所以我想得到每个响应属于每个集群的概率。我的嵌入有768维,在实现软聚类算法(高斯混合模型)时,我意识到高维数带来了问题。所以我正在考虑使用一种降维技术(例如PCA),并将这些因素输入到聚类算法中。
然而,我对高维空间中的维数降低并不十分熟悉,尤其是在NLP的上下文中。有人能在这里建议一个好的方法/方法吗?
谢谢!
发布于 2021-05-16 22:47:16
我认为你应该把UMAP看作是一个有效的模糊系统。裁减。PCA和UMAP都是相对快速和易于使用的。
UMAP使用预定义的距离函数作为相似性度量。它试图在低维空间中保持点之间的距离。这使得它非常适合于SentenceBERT嵌入,因为模型中有一个CosineLoss。
https://stackoverflow.com/questions/63796807
复制相似问题