首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >哪种降维技术适合于BERT语句嵌入?

哪种降维技术适合于BERT语句嵌入?
EN

Stack Overflow用户
提问于 2020-09-08 15:12:56
回答 1查看 1.3K关注 0票数 2

我试图对数百个文本文档进行聚类,以便每个集群代表一个不同的主题。我不使用主题建模(我知道我也可以这样做),而是采用两步方法:

使用语句- SentenceTransformer)

  • Feed创建文档嵌入(使用
  1. 嵌入到集群算法

中)

我知道我可以在步骤2中使用k方法,但是我更喜欢软聚类算法,因为我的文档有时属于多个主题。所以我想得到每个响应属于每个集群的概率。我的嵌入有768维,在实现软聚类算法(高斯混合模型)时,我意识到高维数带来了问题。所以我正在考虑使用一种降维技术(例如PCA),并将这些因素输入到聚类算法中。

然而,我对高维空间中的维数降低并不十分熟悉,尤其是在NLP的上下文中。有人能在这里建议一个好的方法/方法吗?

谢谢!

EN

回答 1

Stack Overflow用户

发布于 2021-05-16 22:47:16

我认为你应该把UMAP看作是一个有效的模糊系统。裁减。PCA和UMAP都是相对快速和易于使用的。

UMAP使用预定义的距离函数作为相似性度量。它试图在低维空间中保持点之间的距离。这使得它非常适合于SentenceBERT嵌入,因为模型中有一个CosineLoss。

https://umap-learn.readthedocs.io

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/63796807

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档