首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >基于无监督降维的模糊聚类方法

基于无监督降维的模糊聚类方法
EN

Stack Overflow用户
提问于 2015-10-13 12:52:01
回答 1查看 488关注 0票数 3

无监督降维算法以矩阵NxC1为输入,其中N是输入向量的个数,C1是每个向量的分量数(向量的维数)。因此,它返回一个新的矩阵NxC2 (C2 < C1),其中每个向量的分量较少。

模糊聚类算法以矩阵N*C1为输入矩阵,其中N是输入向量的个数,C1是每个向量的分量数。因此,它返回一个新的矩阵NxC2 (C2通常低于C1),其中每个向量的每个分量都指示向量属于相应的簇的程度。

我注意到,这两类算法的输入和输出在结构上是相同的,只是对结果的解释发生了变化。此外,在scikit-learn中没有模糊聚类实现,因此出现了以下问题:

使用降维算法进行模糊聚类有意义吗?例如,将FeatureAgglomerationTruncatedSVD应用于从文本数据中提取的TF-以色列国防军向量构建的数据集,并将结果解释为模糊聚类是一种非意义的做法吗?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-08-18 17:17:42

从某种意义上说,当然。这在某种程度上取决于如何使用下游的结果。

考虑SVD截断或排除主成分。我们已经投射到一个新的、保持方差的空间中,对新流形的结构基本上没有其他的限制。对于一些元素,原始数据点的新坐标表示可能有很大的负数,这有点奇怪。但人们可以毫不费力地改变和撤销这些数据。

然后可以将每个维度解释为集群成员权重。但是考虑一下模糊聚类的一个常见用途,即生成一个硬聚类。注意使用模糊聚类权重是多么容易(例如,取最大值)。考虑一组新的降维空间中的点,比如<0,0,1>,<0,1,0>,<0,100,101>,<5,100,99>。如果阈值化,模糊聚类会给出{p1,p2},{p3,p4},但如果我们在这里取最大值(即将降维轴作为隶属度,则得到{p1,p3},{p2,p4},例如k=2 )。当然,我们可以使用比max更好的算法来获得硬成员资格(例如,通过查看成对的距离,这对于我的例子来说是可行的);这样的算法被称为聚类算法。

当然,不同的降维算法可能更好也可能更坏(例如,专注于保持数据点之间的距离而不是方差的MDS更自然地类似于聚类)。但从根本上说,许多降维算法隐式地保存了数据所在的底层流形的数据,而模糊聚类向量只保存了数据点之间关系的信息(这些数据点之间的关系可以隐式地编码,也可以不隐式地编码其他信息)。

总的来说,目的有点不同。聚类的目的是找到一组相似的数据。特征选择和降维设计是为了通过改变嵌入空间来减少数据的噪声和/或冗余。我们经常用后者来帮助前者。

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/33103236

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档