文章/答案/技术大牛

发布

社区首页 >问答首页 >基于无监督降维的模糊聚类方法

问基于无监督降维的模糊聚类方法
EN

Stack Overflow用户

提问于 2015-10-13 12:52:01

回答 1查看 488关注 0票数 3

无监督降维算法以矩阵NxC1为输入，其中N是输入向量的个数，C1是每个向量的分量数(向量的维数)。因此，它返回一个新的矩阵NxC2 (C2 < C1)，其中每个向量的分量较少。

模糊聚类算法以矩阵N*C1为输入矩阵，其中N是输入向量的个数，C1是每个向量的分量数。因此，它返回一个新的矩阵NxC2 (C2通常低于C1)，其中每个向量的每个分量都指示向量属于相应的簇的程度。

我注意到，这两类算法的输入和输出在结构上是相同的，只是对结果的解释发生了变化。此外，在scikit-learn中没有模糊聚类实现，因此出现了以下问题：

使用降维算法进行模糊聚类有意义吗？例如，将FeatureAgglomeration或TruncatedSVD应用于从文本数据中提取的TF-以色列国防军向量构建的数据集，并将结果解释为模糊聚类是一种非意义的做法吗？

machine-learning

scikit-learn

cluster-analysis

dimensionality-reduction

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-08-18 17:17:42

从某种意义上说，当然。这在某种程度上取决于如何使用下游的结果。

考虑SVD截断或排除主成分。我们已经投射到一个新的、保持方差的空间中，对新流形的结构基本上没有其他的限制。对于一些元素，原始数据点的新坐标表示可能有很大的负数，这有点奇怪。但人们可以毫不费力地改变和撤销这些数据。

然后可以将每个维度解释为集群成员权重。但是考虑一下模糊聚类的一个常见用途，即生成一个硬聚类。注意使用模糊聚类权重是多么容易(例如，取最大值)。考虑一组新的降维空间中的点，比如<0,0,1>，<0,1,0>，<0,100,101>，<5,100,99>。如果阈值化，模糊聚类会给出{p1，p2}，{p3，p4}，但如果我们在这里取最大值(即将降维轴作为隶属度，则得到{p1，p3}，{p2，p4}，例如k=2 )。当然，我们可以使用比max更好的算法来获得硬成员资格(例如，通过查看成对的距离，这对于我的例子来说是可行的)；这样的算法被称为聚类算法。

当然，不同的降维算法可能更好也可能更坏(例如，专注于保持数据点之间的距离而不是方差的MDS更自然地类似于聚类)。但从根本上说，许多降维算法隐式地保存了数据所在的底层流形的数据，而模糊聚类向量只保存了数据点之间关系的信息(这些数据点之间的关系可以隐式地编码，也可以不隐式地编码其他信息)。

总的来说，目的有点不同。聚类的目的是找到一组相似的数据。特征选择和降维设计是为了通过改变嵌入空间来减少数据的噪声和/或冗余。我们经常用后者来帮助前者。

票数 3

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/33103236

复制

相似问题

问基于无监督降维的模糊聚类方法
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问基于无监督降维的模糊聚类方法EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问基于无监督降维的模糊聚类方法
EN