文章/答案/技术大牛

发布

社区首页 >问答首页 >哪种降维技术适合于BERT语句嵌入？

问哪种降维技术适合于BERT语句嵌入？
EN

Stack Overflow用户

提问于 2020-09-08 15:12:56

回答 1查看 1.3K关注 0票数 2

我试图对数百个文本文档进行聚类，以便每个集群代表一个不同的主题。我不使用主题建模(我知道我也可以这样做)，而是采用两步方法：

使用语句- SentenceTransformer)

Feed创建文档嵌入(使用

嵌入到集群算法

中)

我知道我可以在步骤2中使用k方法，但是我更喜欢软聚类算法，因为我的文档有时属于多个主题。所以我想得到每个响应属于每个集群的概率。我的嵌入有768维，在实现软聚类算法(高斯混合模型)时，我意识到高维数带来了问题。所以我正在考虑使用一种降维技术(例如PCA)，并将这些因素输入到聚类算法中。

然而，我对高维空间中的维数降低并不十分熟悉，尤其是在NLP的上下文中。有人能在这里建议一个好的方法/方法吗？

谢谢!

nlp

cluster-analysis

bert-language-model

dimensionality-reduction

回答 1

Stack Overflow用户

发布于 2021-05-16 22:47:16

我认为你应该把UMAP看作是一个有效的模糊系统。裁减。PCA和UMAP都是相对快速和易于使用的。

UMAP使用预定义的距离函数作为相似性度量。它试图在低维空间中保持点之间的距离。这使得它非常适合于SentenceBERT嵌入，因为模型中有一个CosineLoss。

https://umap-learn.readthedocs.io

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/63796807

复制

相似问题

问哪种降维技术适合于BERT语句嵌入？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问哪种降维技术适合于BERT语句嵌入？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问哪种降维技术适合于BERT语句嵌入？
EN