K-means聚类不能找到数据中的所有聚类

K-means聚类是一种常用的无监督学习算法，用于将数据集划分为不同的聚类。然而，K-means聚类算法有一些限制，导致它不能找到数据中的所有聚类。

首先，K-means聚类算法需要预先指定聚类的数量K。这意味着我们需要事先知道数据中存在多少个聚类，但在实际应用中，我们往往无法事先确定聚类的数量。因此，K-means聚类算法可能会错过一些隐藏的聚类。

其次，K-means聚类算法对数据的分布有一定的假设，即每个聚类的形状是球形的，并且聚类之间的方差相等。然而，实际数据往往具有复杂的形状和不同的方差，这使得K-means聚类算法无法准确地捕捉到所有的聚类。

此外，K-means聚类算法对初始聚类中心的选择非常敏感。不同的初始聚类中心可能导致不同的聚类结果，甚至可能陷入局部最优解。因此，K-means聚类算法可能会错过一些聚类，特别是当数据集具有噪声或离群点时。

针对K-means聚类算法的这些限制，可以考虑使用其他聚类算法来解决问题。例如，层次聚类算法（Hierarchical Clustering）不需要预先指定聚类的数量，可以自动发现数据中的聚类结构。DBSCAN算法（Density-Based Spatial Clustering of Applications with Noise）可以处理具有不同密度的聚类，并且对初始聚类中心不敏感。

总结起来，K-means聚类算法在某些情况下可能无法找到数据中的所有聚类，特别是当聚类数量未知、数据分布复杂或存在噪声时。在实际应用中，根据具体问题的特点选择合适的聚类算法是非常重要的。

层次聚类

、

我已经阅读了一些参考资料，并了解了层次聚类的工作原理。然而，当我将其与k-means聚类进行比较时，在我看来，k-means确实构成了特定数量的聚类，而层次分析则向我展示了如何对样本进行聚类。我的意思是，在分层聚类中，我没有获得特定数量的集群。我只得到了一个关于集群如何构成的

浏览 4提问于2018-04-24得票数 1

2回答

你使用什么方法来选择k-means和EM中的最佳聚类数？

、、、

有许多聚类算法可用。一种流行的算法是K-means算法，其中，基于给定数量的聚类，该算法迭代以找到对象的最佳聚类。在k-means聚类中，您使用什么方法来确定数据中的聚类数？R中是否有可用的包包含用于确

浏览 1提问于2010-02-23得票数 13

1回答

关于聚类方法的问题

、、、

最近，我开始学习数据挖掘中的聚类，我已经学习了序列聚类、层次聚类和k-means。我还读到了一篇关于k-means与其他两种聚类技术的区别的声明，称k-means不太擅长处理名义属性，但文本并没有解释这个point.So，我能看到的唯一区别是，对于K-means，我们将提前知道我们将确切地需要

浏览 2提问于2010-11-04得票数 6

回答已采纳

3回答

如何在R中使用k-means聚类技术获得与数据对应的簇号？

、、

我使用k-means聚类方法对数据进行聚类，如何在R中使用k-means聚类技术获得与数据对应的聚类数？以便获得每条记录属于哪个簇。

浏览 1提问于2011-11-26得票数 3

1回答

在图像向量上使用k均值

、、、

在图像向量上使用k-means时，我有一个挥之不去的疑问。我有一个RGB图像，我已经将其转换为HSV空间。基本上，我只想在H向量上执行k-means。这是一个214x300的向量。2.如何找到每个集群的中心(我将集群划分为4个集群，因此我需要4个位置，每个位置代表每个集群的中心)。

浏览 4提问于2013-06-27得票数 0

回答已采纳

2回答

在度量空间中有聚类的方法吗？

、

我想对来自Twitter的数据进行聚类。我有用户和他们的距离。我不能使用K-means，因为k-means不支持度量空间中的聚类。在度量空间中有集群的实现吗？

浏览 0提问于2013-02-20得票数 0

3回答

了解scikit learn KMeans返回的"score“

、、

我对一组文本文档(大约100个)进行了聚类。现在当我print model.score() 在我的向量上，如果所有的文本文档都非常相似，我会得到一个非常小的值，如果文档非常不同，我会得到一个非常大的负值。我如何使用这个值来证明我的发现是正确的？

浏览 3提问于2015-09-03得票数 27

1回答

K均值聚类

、

在使用K-means聚类时，我删除了自变量的前5个和后5个百分位值，因此我失去了一些数据点。现在，在我使用K-means聚类之后，我得到了每个数据点的聚类。我如何为之前因为是异常值而被移除的数据点获取聚类

浏览 3提问于2017-05-02得票数 0

1回答

具有不均匀聚类的聚类(k-means)

、、、

我有两个点的集群。在应用任何聚类技术之前，我确切地知道哪些点应该属于每个聚类，但是标记数据的唯一方法是使用聚类技术，例如k-means。如果我所处的情况看起来令人费解，请不要关注它，我更感兴趣的是k-means这个潜在的具体问题。

浏览 42提问于2016-07-29得票数 3

回答已采纳

0回答

K-means聚类不能找到数据中的所有聚类

、、

我使用的数据集如下所示。正如你所看到的，你会认为k-means聚类分析会很容易地找到这些聚类的中心。然而，当我运行K均值聚类分析并绘制中心时，我得到了这样的结果。cluster <- kmeans(mydata,90) cluster$centers

浏览 10提问于2017-12-07得票数 1

回答已采纳

2回答

电影类型的聚类

、、、、

我是数据挖掘领域的初学者，我想将我的电影数据集聚类以找到流派组。我的数据集中有86部电影的26种不同类型。我想使用聚类来将我的电影分成几种类型，而不是26种。因此，例如，在运行某些聚类算法后，我将只剩下4个聚类或任何最适合我的数据集的小计数。我已经将我<em

浏览 2提问于2013-01-10得票数 0

回答已采纳

3回答

Matlab: Kmeans每次给出不同的结果

、、

我在matlab中对400x1000矩阵运行kmeans，由于某种原因，每当我运行该算法时，我都会得到不同的结果。, ~, ~, ~] = kmeans(factor_matrix, 10, 'dist','sqeuclidean','replicates',20); 出于某种原因，我每次运行这段代码都会得到不同的结果谢谢你的帮助！

浏览 2提问于2012-08-27得票数 8

2回答

我应该使用哪种集群技术？

、

我有一个数据矩阵，如下所示。 user access matrix..each行代表用户，每一列代表该用户访问的页面类别。这种双聚类技术将首先生成用户集群，然后生成页面clusters.after，它将用户集群和页面集群结合起来生成双集群。现在，我不知道应该使用哪种集群技术来实现此目的。最好的聚类将从该矩阵生成一致的双色图。

浏览 2提问于2014-05-07得票数 0

1回答

用于图像聚类的Kmeans

、

我是图像处理的新手，我正在使用k-means对我的作业进行聚类。我有一个问题，我的朋友告诉我，要在opencv中使用k-mean，我们只需要传递感兴趣对象的颜色，而不是整个图像。对不起，我的英语不好，我举个例子。我有一张有几种颜色的图片，假设我想要获得蓝色的集群，这是一辆汽车。这意味着我只需要将蓝色传递给kmeans。我想我需要一些专家的详细解释，我想我会在这里得到它。谢谢您抽时间见我。

浏览 0提问于2013-04-03得票数 1

回答已采纳

1回答

计算Kmeans聚类的误差

我们如何计算k-means聚类问题的误差？我已经做了k-means聚类。现在我正在寻找K-means聚类误差的计算。我怎么能这么做呢？请帮帮我。

浏览 1提问于2014-05-02得票数 0

1回答

使用python根据点密度对一组3D点进行点聚类

、

我有一组大约300个三维的点。但是点的密度不是均匀的，throughout.How，我是不是根据邻近点的密度把它分成簇呢？

浏览 2提问于2017-04-20得票数 0

1回答

Spark中聚类个数未知的聚类

、、

我有一个非常大的文本消息数据集(大约3.5M)。我使用tf-idf向量来表示这个数据集中的每条消息。我想将同一主题的消息聚在一起，但我不知道实际的聚类，甚至不知道它们的数量。所以我搜索了一下，发现光学，数据库扫描或HDBSCAN可以做这项工作，但没有他们的实现是spark ml或mllib。根据spark mllib中的this，有K-means

浏览 14提问于2020-08-27得票数 0

3回答

哪里可以找到可靠的K-medoid(而不是k-means)开源软件/工具？

、、

我正在学习K-medoids算法，所以如果我问了不合适的问题，我很抱歉。据我所知，K-medoids算法实现了K-means聚类，但使用实际数据点作为质心，而不是数学计算方法。当我在网上搜索时，我找到了很多k-means工具，比如GenePattern，geWengh，...etc，但没有找到k-medoids。一些好朋友告诉我，在Matlab上，也有一些用户编写的代码。然而，我担心个人实现的工具可能仍然有一些错误或

浏览 0提问于2011-10-06得票数 13

回答已采纳

2回答

K-均值聚类-带有额外变量

、、、

我正在做一个k-means聚类，有固定数量的组，有几个地理经度/经度点。这个基本的集群工作得很好。Lat: [1.23, 2.12, 3.65, 4.32, 5.63, 5.43]Extr

浏览 0提问于2019-09-18得票数 0

1回答

从网页聚类中提取最佳图像

、、、

我写了一些Java代码，它使用Crawler4J抓取一堆网页，然后使用K-Means根据关键字对它们进行聚类。我想从每个集群中选择最好的图片(其中“最佳”的粗略定义是“最好地代表集群中的主题”)，我想知道是否有任何现有的框架可以做到这一点(因为这显然是一个很多人在显示聚合新闻等方面已经需要解决的问题)。我正在爬行的大多数页面都是关于给定主题的标准新闻页面，因此对于一个页面来说，最好的图像通常是1)最

浏览 0提问于2014-01-07得票数 0

点击加载更多