分布式层次聚类

分布式层次聚类是一种常用的无监督学习算法，用于将数据集划分为多个簇，以便进行进一步的分析和处理。它的主要思想是将数据集分层次地进行聚类，每一层都将数据集划分为更小的簇，直到每个数据点都属于一个簇为止。

分布式层次聚类的核心思想是将数据集分层次地进行聚类，每一层都将数据集划分为更小的簇，直到每个数据点都属于一个簇为止。

分布式层次聚类的优势在于它可以处理大规模数据集，并且可以在分布式系统中进行计算。它可以应用于各种领域，如图像分割、文本分类、推荐系统等。

推荐的腾讯云相关产品和产品介绍链接地址：

页面内容是否对你有帮助？

有帮助

没帮助

分布式层次聚类

、、

有没有什么算法可以帮助层次化聚类？谷歌的map-reduce只有一个k聚类的例子。在分层聚类的情况下，我不确定如何在节点之间分配工作。我找到的其他资源是：，但不清楚使用了哪些算法。

浏览 1提问于2008-09-17得票数 22

回答已采纳

1回答

我有一个很大的数据集(数十亿条记录)，它几乎完全由分类变量组成。这些数据将被用来预测一个相当罕见的数值结果。大多数属性都具有很高的基数:可能只有少数几个样本属于每个类别。我阅读了，其中他们使用R中的分层聚类来降低类似任务的维数。以下代码用于小型数据集，但在扩展时会迅速消耗所有内存： library(cluster) numClusters = 42 hc <- hclust(daisy(df)) cutree(hc, k = numClusters) 我考虑过使用Mahout的kmeans实现，但这对于分类变量来说是行不通的，因为它需要一个双倍向量。 StackOverflow社区中有

浏览 3提问于2015-06-25得票数 0

回答已采纳

1回答

增量聚类算法

、、、

我正在寻找一种增量聚类算法。所谓增量，我指的是从初始数据集开始构建集群的算法，它能够逐步吸收新的项/观察，将它们添加到现有的或新的集群中。聚类的最大数目是先验未知的，预计会随着时间的推移而增长，这意味着，在算法在初始数据集上运行之后，我期望收到属于以前从未见过的簇的观测结果。我对这类问题非常陌生，而聚类库中的所有聚类算法都只提供一次聚类的方法。 Scikit-learn库提供的唯一增量聚类算法是MiniBatchKMeans，它需要固定数量的集群，并且不适合我的用例。是否有增量聚类算法处理未知数量的集群？它们是否已经在某个地方实现了？非常感谢你！

浏览 0提问于2022-12-02得票数 2

1回答

在Python编程中使用numpy和nltk或CLUTO对单词进行聚类

、、、

我正在尝试对一些单词进行聚类。我的部分数据如下所示(这只是个例子)。 cat dog horse ostrich cat 8 2.3 3.4 4.7 dog 7 8 3 2.4 horse 3.4 2.5 8 1.5 ostrich 3.4 3.2 4.4 8 数字越大，表示两个单词之间的相似度越高。基于这种格式的数据，我想做一个聚类(例如，(猫，狗)，(马)，(驼鸟)共3个聚类)。一开始，我试着用CLUTO...制作一些簇和一个(非常漂亮的)图，如下所示。但是我不能..。我已经看过手册了，但它并不那么容易理解。因此，我尝试使用nltk中的一些

浏览 3提问于2013-12-26得票数 1

3回答

谱聚类与层次聚类

、、、

有谁能解释一下，与光谱聚类相比，使用层次聚类有什么好处？我知道它们是如何工作的，但我想知道在哪种情况下使用分层聚类比使用光谱聚类更好。

浏览 6提问于2016-04-15得票数 3

回答已采纳

2回答

层次聚类

、

我已经阅读了一些参考资料，并了解了层次聚类的工作原理。然而，当我将其与k-means聚类进行比较时，在我看来，k-means确实构成了特定数量的聚类，而层次分析则向我展示了如何对样本进行聚类。我的意思是，在分层聚类中，我没有获得特定数量的集群。我只得到了一个关于集群如何构成的方案，以及样本之间的部分关系。因此，我无法理解在哪里可以使用这种聚类方法。

浏览 4提问于2018-04-24得票数 1

1回答

DBSCAN或HDBSCAN是更好的选择？为什么？

、、

在DBSCAN和HDBSCAN中，哪种聚类方法被认为是最好的，其背后的原因是什么？

浏览 9提问于2020-11-24得票数 1

1回答

基于GPS数据的人群驾驶组合

、、

我需要根据GPS数据把开车的人聚在一起。数据由移动电话收集。我们每10秒就从每个用户那里分批接收它们。每批的GPS数据(位置、速度、方向)每2秒收集一次。理想的解决方案是实时处理这些数据，并识别/更新一起开车的人群。但是，我们可能会从用户那里收到无序的数据(例如，由于连接性的丧失)。最终，我们应该得到所有的条目，但这使得实时处理更加复杂。相反，我想先从后处理开始。我计划使用线性回归对每个用户在给定时期的数据进行规范化--在同一时间具有位置标记。然后利用聚类算法对用户进行聚类。这是一个好办法吗？如果是，那么您会推荐哪种聚类算法。或者有更好的方法来解决这个问题？

浏览 0提问于2022-10-23得票数 1

2回答

哪种机器学习算法可以用于轨迹分类？

、、、、

我正致力于根据空中物体的轨迹对其进行聚类。就像我想在不同飞行物体轨迹的数据集上训练一个模型，这样以后我就可以根据轨迹数据来预测物体的类型。现在的轨道数据包括4种东西(高度，经度，纬度，时间)。因此，基于这些数据集，我们可以对飞机、火箭、导弹等物体进行分类。但我不知道可以使用哪种算法？我首先想到的是支持向量机。后来我想“长时间记忆”可以用。但我不太确定。我对机器学习很陌生。所以任何帮助都是非常感谢的。

浏览 0提问于2020-03-11得票数 0

1回答

最好的聚类算法，客户细分

、、、

我有一个数据集的分类和数值变量，我想知道什么是最好的算法聚类客户？如何找到细分客户的基本模式？？

浏览 0提问于2023-02-26得票数 1

1回答

我们能否在K簇中定义一个数据分区，方法是在树根节点下面的某个层次上切割树的分支？

、

假设我们有一个树状图(分层聚类树)，我们是否可以在K簇中定义一个数据分区，方法是在树根节点下面的某个层次上切割该树的分支？

浏览 0提问于2020-12-19得票数 1

1回答

OpenCV中的分层聚类

、

我需要在OpenCV中使用聚集层次聚类。当我搜索文档时，我发现了以下函数。但它使用了等级k-方法。K-均值是一种不同的技术。在理论上，我们研究了这两种不同的聚类技术。分层k-的意思与层次聚类有何不同？我需要在图像中聚集一些特定的空间位置。结果用于某些对象的识别。

浏览 1提问于2015-02-23得票数 3

回答已采纳

2回答

你使用什么方法来选择k-means和EM中的最佳聚类数？

、、、

有许多聚类算法可用。一种流行的算法是K-means算法，其中，基于给定数量的聚类，该算法迭代以找到对象的最佳聚类。在k-means聚类中，您使用什么方法来确定数据中的聚类数？ R中是否有可用的包包含用于确定正确的集群数量的V-fold cross-validation方法？另一种常用的方法是期望最大化(EM)算法，该算法为每个实例分配一个概率分布，该分布表示该实例属于每个集群的概率。这个算法是在R中实现的吗？如果是，它是否具有通过交叉验证自动选择最佳聚类数量的选项？您是否更喜欢其他的聚类方法？

浏览 1提问于2010-02-23得票数 13

1回答

我可以使用分层聚类( numpy )来获取集群的特性吗？

、、、、

我试图在m*n数组上进行分层聚类。输入数组: 500 * 1000 (1000个特性，500个观测) 使用自定义pdist函数计算距离矩阵将此距离矩阵提供给链接函数:群集= sch.linkage(distanceMatrix，'single') 形成扁平簇: fc =sch.fcluster(簇，截止，‘距离’) 这给了我一些集群(大约80，使用的截止值为6.0)。现在，我也可以得到每个集群对应的1000个特征吗？(就像我们使用K均值聚类得到质心的特征一样)。

浏览 1提问于2013-02-14得票数 0

1回答

贝叶斯层次聚类

您知道我们是否可以在具有浮点值的向量上实现贝叶斯层次聚类(python或R)？我在网上搜索过，只找到了一些值为0,1,2的随机矩阵，在相关的论文中没有提到。我也尝试用R实现它，它返回了一个致命的错误，RGui和RGui突然关闭了，我不确定是不是因为浮点值的原因。

浏览 4提问于2020-01-21得票数 0

1回答

相似分组

我想找出一种方法/算法，根据答案与“是”/“否”问题的相似程度，将人分成四组。因此，一组中的每一对人对大部分问题都会给出相同的答案--(大部分)比其他三组的人要大。会感谢任何指向正确方向的指示。

浏览 0提问于2021-01-02得票数 1

回答已采纳

1回答

滑雪板概念聚类？

、、

如何在滑雪板中执行概念聚类？我的用例是，我有一些英语维基百科文章，我正在对这些文章进行无监督的学习(tfidf ->截断的svd -> l2标准化)，我想为它们创建一个层次结构，以便顶部的节点是最一般的文章(例如，编程语言-> Functional -> Haskell)。我试过使用hierarchy.linkage，但该算法似乎使用了n^2空间，内存不足。我还尝试在KDTree归一化向量上使用l2，然后递归地将每个节点设置为其子节点的归一化和，但这并没有产生理想的结果。什么是正确的方法来执行概念聚类与余弦相似在科学-学习不使用二次空间？

浏览 0提问于2018-02-27得票数 1

1回答

野生蝇XA-Datasource - galera簇

、、、、

我开发了一个使用jta事务 (JAVA )并使用多个资源(数据库)的应用程序。因此，我已经在我的野蝇环境中设置了xa-datasources。问题是，我需要一个集群数据库 (f.e :Mariadb + galera，mysql+ mysql+集群)。但是GALERA有一个限制，不适用于xa事务还有doesn集群，但是它也不起作用，因为xa事务只在INNODB存储引擎中工作，但是mysql群集使用NDBCluster引擎。-> 您有推荐的数据库集群环境并与xa事务一起工作吗？

浏览 1提问于2015-10-26得票数 0

2回答

使用k均值和绘制距离矩阵时结果不一致。为什么？

我正在R Studio中做一些数据的聚类。我对K-means聚类分析和绘制层次聚类的结果有问题。所以当我使用kmeans函数时，我得到了4组10，20，30和6个观察值。然而，当我绘制树状图时，我得到了4组，但有不同数量的观察: 23，26，10和7。你有没有发现过这样的问题？下面是我的代码： mydata<-scale(mydata0) # K-Means Cluster Analysis fit <- kmeans(mydata, 4) # 4 cluster solution # get cluster means aggregate(mydata,by=list(fi

浏览 1提问于2016-03-14得票数 0

1回答

哪种聚类算法适用于此任务？

、

我想集群一组数据，如下所示： {[1,2], [2,3], [3,2], [9,8], [8,10], [7,9,8], [7,10,5,9] ... } 其中数据没有固定的维度。当K=2时，应将前3个元素聚为一组，并将其他4个元素聚为一组。我理解k-means算法，但问题是它的距离计算不适合我的情况。我使用Jaccard距离来表示每两个元素的距离，因为它们的维度各不相同。一个想法是找到集群的质心，而不是计算手段。质心是到簇中所有其他点的距离之和最小的点。我正在根据上面的想法做这个程序，实现k-means++聚类。我想要一个稳定的算法(

浏览 17提问于2017-03-04得票数 0

回答已采纳

1回答

如何根据面部地标对人的脸进行聚类？

、、、、

我正在使用dlib获得面部标志。我有1000多张脸的数据集。我想对这1000幅图像和一些未知图像做一个比较。为了减少数据库搜索时间，我想根据dlib的68个面部地标特性将这1000幅图像聚成10个不同的集群。目前，我是基于不同人脸图像的下巴到鼻子距离的聚类。问题:同一人的每一幅图像都会产生不同的面部标志，影响从下巴到鼻尖的距离。请找到csv的截图第一栏-人脸图像名称(同一人脸约有25个样本) 第2栏、第3栏-第4栏的K手段聚集标记和质心第四面下巴到鼻尖欧氏距离第5-68号面部长地标像下巴、眼睛. 问题：这是一种基于面部地标的图像聚类的正确方法吗？如果

浏览 0提问于2018-02-03得票数 1

1回答

用对计数f测度评价层次聚类

、、、

情况如下：我有一个文档数据集，我已经根据它们的主题手动分配给(地面)集群。然后，我使用层次聚集聚类(HAC)自动对同一数据集进行聚类。我现在试图使用对计数f测度来评估HAC集群( Darius Pfitzner，Richard Leibbrandt & David Power在描述和评估对聚类的相似性度量中描述了这一点)。然而，我面临的问题是，我的手动集群生成了扁平的集群(因此集群之间没有任何关系)，而HAC发现的集群是分层的。因此，在查看树状图时，根据您选择的深度(水平线)，您有不同数量的集群(深度为0(根节点)，只有一个集群；在最大深度，您的集群数等于数据集中的元素数)。所以

浏览 4提问于2014-02-22得票数 1

回答已采纳

1回答

你能从R中的pheatmap中提取数据矩阵吗？

、

我根据基因微阵列数据创建了一个热图，然后使用pheatmap对数据进行聚类并输出热图。有没有办法将热图的聚类数据以矩阵形式输出到excel文件中？

浏览 2提问于2015-09-25得票数 0

2回答

Cassandra如何仅通过使用分区键来检索行？

、、

类似于BigTable的数据库存储按键排序的行。 Cassandra使用分区键和聚集键的组合来保持数据的分布式和排序；但是，只有通过分区键才能选择行！ Cassandra架构是如何以这种方式工作的？例如，RocksDB中的一种解决方法是，您可以按分区键使用一个默认的列族，而使用分区和集群组合键使用另一个默认的列族，并迭代排序后的数据并按默认的列族进行检索，这最终会带来非常高的空间复杂性！更新:我猜Cassandra试图将每一列存储在不同的键中，它从分区键开始，遍历不同的“列名”-可能是聚类列的其他组合。请参阅底层存储引擎-的图片。 SELECT * From authors WHERE n

浏览 9提问于2018-11-26得票数 0

1回答

按顺序聚类事件

、、、、

我有一系列反复发生的事件，我要将这些事件组合成代表底层流程的不同操作活动。这些事件的发生可能有一定的顺序，也可能没有。因此，我想探讨和调查这些事件之间是否存在任何关系。有比使用分层聚类更好的方法吗？我可能想要建立一个模型，该模型可以根据它认为属于代表其业务活动的集群的事件来确定业务活动。嗯，RNN，等等。我一直在寻找一种算法来解决我想要解决的问题。我遇到了一些能够解决问题的方法，如HMM、RNN或聚类算法。我不是在寻找解决办法，而是寻求解决问题的正确方向上的建议和指导。我很感激你能和我分享任何见解。

浏览 0提问于2018-06-27得票数 2

1回答

在机器学习任务中使用聚类来执行特征工程的直觉是什么？

、、、

我正在尝试实现研究论文增强树与元结构工程相结合的预测维护。本文有一个叫做元特征工程的部分，他们使用层次聚类来创建特征。报纸上说：第三种分析数据集中异常值的方法是基于层次聚集聚类算法5。分层聚类从Z组开始(Z是观察的数目)，每个组最初包含一个对象，然后在每个步骤中合并两个最相似的组，直到只有一个组，包含所有数据。这种方法的基本原理是，被合并的最后一个观察可能仍然与它们合并到的组有很大的不同。根据定义，离群值是不同的情况，通常不会很好地适合集群，除非该集群是由其他异常值本身组成的。再一次，由于这些不是普通的数据点，我们不期望它们形成大的群体。我无法理解作者这么做背后的直觉。我正在试图解决的问题

浏览 0提问于2021-03-23得票数 1

回答已采纳

1回答

从链接矩阵中检索集群中心/质心

、、

在scipy的分级聚类中，可以从链接矩阵Z开始构建聚类。例如， fcluster(Z, 6,criterion='maxclust' ) 会截断树状图，这样最终会有6个簇。有没有办法得到每一个星团中心的坐标？中心的位置将根据用于构建树状图的度量和方法而有所不同，但我希望获得与用于构建Z的特定方法相对应的中心。

浏览 2提问于2017-05-31得票数 0

2回答

如何随着时间的推移聚在一起？

、

我遇到了一个问题，我有一套对象(比如智能手机，以便于解释)。对于每部手机，我们收集了几个特征特征(比如通话的持续时间，打了多少次电话，接收到的电话等等)，为期3个月(比如说)。现在，根据收集到的数据集，我们需要将手机分组成集群。情况大致如下所示： 📷 我的第一个想法是遵循我们在处理图像的过程中所做的事情。从图像矩阵中提取一个向量，然后进行聚类。在我的例子中，我们通过保持时间序列来生成向量。因此，对于每个电话，如果数据集的大小是m，并且有n个这样的电话，我们构建一个大小为n (m )的数据集。不过，我不能决定这种做法是否有问题，或会否达到我们的要求。我正在寻找一些ideas.Any的建议，将不

浏览 0提问于2019-07-31得票数 2

1回答

多距离测度聚类

、、

我正在尝试使用集群来自动化一个组查找过程，目的是能够在未见数据中自动检测组。数据是任何给定网页中的html元素，这包括许多特性，包括从web浏览器呈现的空间和视觉信息。检测到的组通常在语义上有意义，例如导航链接组或主内容区域中的项列表。我实现了一个微妙的距离度量，捕捉这些元素有多相似或有多不同，并将这些值传递给DBSCAN进行集群。到目前为止，它运行得很好，但我正在设法改进它。距离函数实际上是一个加权和10个不同的距离度量，捕捉不同类型的相似和不同。我比其他人更看重更可靠和更果断的措施。从理论上讲，加权较低的措施只有在它们一致时才能产生效果，否则就会被较高的加权措施所压倒。此外，每个测量功

浏览 0提问于2018-02-03得票数 2

1回答

基于最大惯性的聚类

是否有一种基于惯性阈值的聚类方法，其中每个集群惯性不能超过一个惯性，一个特定的惯性我尝试过与距离阈值完全连接的层次聚类，但无法控制集群的总距离。更多信息：我使用预先计算的距离矩阵，这里的主要目标是使用道路网络划分驾驶员之间的目的地(目的地距离矩阵)。

浏览 0提问于2022-11-05得票数 0

1回答

K-均值与层次聚类

、、

当分层聚类优于k均值聚类时？

浏览 0提问于2018-02-05得票数 6

回答已采纳

1回答

SageMaker中的分布式无监督学习

、、、

我使用GPU在一个大的、单一的节点上运行本地无监督学习(主要是聚类)。 SageMaker是否支持使用聚类的分布式无监督学习？如果是，请提供相关的例子(最好是非TensorFlow).

浏览 13提问于2022-09-17得票数 0

回答已采纳

2回答

基于功能的基因聚类

、、、

我们希望使用分层或k均值聚类，根据基因的功能对数据集中的基因进行聚类。我们得到了每个基因的GO id，现在我们想根据功能将它们分组，最好是分层的。这意味着从底层(每个函数都是唯一的)到上层(我们有更多的泛化/函数组)。我们正在用R编写程序。提前感谢您的帮助！

浏览 2提问于2014-03-10得票数 0

2回答

机器学习中的无监督分类

、、

聚类(例如:K-均值，EM算法等)是利用数据点之间的距离度量，在数据集中形成聚类，用于无监督分类。我的问题是:除了聚类之外，我还可以使用什么来执行无监督的分类，以及如何进行分类？或者，除了对无监督的分类进行聚类之外，没有其他选择？编辑:是的，我的意思是k-意思。

浏览 6提问于2020-11-21得票数 0

回答已采纳

2回答

聚类层次聚类的OpenCV机器学习库

、、、

由于以前不知道聚类的数量，所以我想使用聚类分层聚类来根据距离来聚类一些(x，y)坐标。是否有支持此任务的库？我正在c++中使用Opencv库。

浏览 5提问于2015-02-24得票数 0

回答已采纳

1回答

分段(来自分段)和类(来自层次聚类)之间的区别是什么

、、

我正在使用R！进行均值偏移分割！我现在有点困惑！我的第一个问题是如何聚类分割文件(将每个片段定义为一个超级像素)，第二个问题是如何定义有多少个对象和多少个类！因为当我做聚类时，有许多相邻的片段在一个类中，所以我不能计算它们有多少个片段，它们是一个片段？对吗？请来人帮帮忙！提前谢谢你，

浏览 13提问于2017-07-03得票数 1

2回答

如何计算dtw聚类的质量？

、、、

我的目标是对关于26周的126个时间序列进行聚类(因此每个时间序列有26个观察值)。我在medoids周围使用了pam{cluster} = partitioning来对这些时间序列进行聚类。在聚类之前，我想比较哪种距离度量最合适:欧几里得、曼哈顿或动态时间扭曲。我使用每个距离通过轮廓图进行聚类和比较。有什么方法可以比较不同的距离度量吗？例如，我知道用于验证集群结果的过程clValid {clValid}，但是我不能实现dtw来计算索引。那么，我如何比较不同的距离度量(不仅仅是通过轮廓)？附加问题: GAP统计数据是否足以决定选择多少集群？或者我应该用不同的方法评估集群的数量，或者比较

浏览 1提问于2014-04-25得票数 2

1回答

solr集群组件是如何工作的？

、、、、

我正在寻找solr用于carrot2的默认集群组件(正在制作自己的组件)。在类中，有两种方法调用聚类算法：在重写的进程方法中。 SolrDocumentList solrDocList = SolrPluginUtils.docListToSolrDocumentList( results.docList，rb.req.getSearcher()，engine.getFieldsToLoad(rb.req)，docIds)；对象集群= engine.cluster(rb.getQuery()，solrDocList，docIds，rb.req)；rb.rsp.add(“集群”，集群)；

浏览 0提问于2017-05-09得票数 0

2回答

从相似矩阵执行聚类

、、

我有一个歌曲列表，我为每个歌曲提取了一个特征向量。我计算了每个向量之间的相似度分数，并将其存储在一个相似矩阵中。我想根据这个相似矩阵对歌曲进行聚类，以尝试识别集群或某种类型的歌曲。我使用networkx包从相似矩阵中创建了一个力有向图，使用了弹簧布局。然后，我将KMeans聚类用于该图中节点的位置，这就产生了有意义的集群。但是，我不确定这是否是正确的方法，因为它与弹簧布局所给出的位置有着根本的联系。我也尝试在相似矩阵上运行谱聚类，但是它太慢了。是否使用从相似矩阵生成的图形导出的位置，然后用管道插入KMeans的弹簧布局来提取簇，从根本上存在缺陷？如果是这样的话，在给定相似矩阵的情况下，对

浏览 0提问于2021-04-15得票数 1

1回答

使用Weka进行无监督聚类

、、、

我有以下格式的数据： X,Y,sim(X,Y) 也就是说，一个三元组的列表，其中包括： X，对象的名称； Y，另一个对象的名称； sim(X，Y)，表示两个对象之间距离的实数。现在，我想对这些数据应用一些无监督的聚类算法。我曾想过Weka，但我也很乐意考虑其他选择。

浏览 2提问于2014-05-16得票数 1

回答已采纳

1回答

使用python的层次聚类树形图

、、、、

图论和数据挖掘是计算机科学的两个领域，我对它们还很陌生，所以请原谅我的基本理解。我被要求绘制一个层次聚类图的树状图。我得到的输入如下:这个图的所有边的列表。到目前为止，我已经能够从输入绘制图形。下一步是对图进行聚类，然后根据聚类后的图绘制树状图。我的问题是:有人能给我一个循序渐进的指导吗？在流程的两个步骤中，需要/返回什么输入/输出。(聚类，获取树状图) 注意：到目前为止，我一直在使用图形工具来绘制图形，我还运行了我在互联网上从Scipy.clustering.hierarchy包中找到的测试代码，它似乎具有所有需要的功能。

浏览 0提问于2014-10-19得票数 1

2回答

solr的术语关系与评分

、、、、

我有下面的人和他的技能数据已经编入solr索引。 Candidate, Skills ----------------- 1, Java, JSP, Servlet, Spring, Hibernate 2, Java JSP, JDBC 3, Java, JDBC, RMI 4, JDBC, SQL 5, .Net, C# 从上面我想要与每项技能构建术语关系数据，以及它们之间的关联程度，所以以后这些信息可以用于更好地搜索任何需求&新技能可以适当地与现有技能相关联。根据研究，我发现我需要对向量项进行聚类，可能是mahout或carrot2，但我不知道这是如何实现的。我相信carr

浏览 1提问于2014-03-20得票数 0

回答已采纳

2回答

高维数据聚类

、、、、

TL;DR:给定一个大的图像数据集(大约36 GiB原始像素)的未标记数据，我如何在不知道集群K的数目的情况下(基于像素值)对图像进行聚类？我目前正在进行一个无监督的学习项目来对图像进行聚类；把它看作是用16x16x3RGB像素值对MNIST进行聚类，只是我需要对大约4800万个示例进行聚类。在不知道他们的身份的情况下，我确实知道有些图像是绝对相关的，因为它们来自同一个来源，但是--比如说--我也不知道一个合适的K来“只是”运行K--意思是在集合上运行。我正在考虑使用task进行一些手工的2D嵌入，然后在嵌入式空间中手动进行聚类(这比在16x16x3-d中手工完成要简单)，但是我发现所有的

浏览 0提问于2017-01-25得票数 12

回答已采纳

1回答

为什么我不能导入AgglomerativeClustering类？

、、

我想使用从滑雪，但我不能导入它。 >>> from sklearn.cluster import AgglomerativeClustering Traceback (most recent call last): File "<stdin>", line 1, in <module> ImportError: cannot import name AgglomerativeClustering 这条信息没有给出造成这个问题的原因，你能帮上忙吗？ Python版本 Python 2.7.6 (default, Jun 22 201

浏览 1提问于2015-08-26得票数 0

回答已采纳

2回答

如何在数据集非常小的情况下对特征进行加权，以便更好地进行聚类？

、、、、

我正在做一个程序，它在特征空间(1000+维度)中获取几个(<50)高维点，并通过递归使用标准k-聚类对它们执行层次聚类。我的问题是，在任何一次k聚类过程中，高维表示的不同部分都是冗余的。我知道这个问题在特征提取、选择或加权的保护伞下。一般来说，在选择特定的特征提取/选择/加权算法时，应该考虑什么？具体地说，在我的情况下，什么算法是为聚类做好数据准备的最佳方式？

浏览 8提问于2011-07-15得票数 4

回答已采纳

1回答

二分法K-意思是火花毫升-除法规则是什么？

、、

我开始使用平分K-均值聚类，我想知道在聚类过程中的划分规则是什么。我知道K-表示是在那里完成的，但是下一个除法的下一个集群是如何被选择的呢？我见过有几种方法。最大的集群是分割/聚类，内部相似性较小)，但是我找不到什么是在spark中实现的除法规则。谢谢你的帮助

浏览 0提问于2019-07-23得票数 0

回答已采纳

2回答

分层聚类启发式算法

、、、、

我想探讨大数组中数据项之间的关系。用多维向量表示的每个数据项。首先，我决定使用集群化。我感兴趣的是找到集群(数据向量组)之间的层次关系。我能计算出向量之间的距离。因此，在第一步，我找到最小生成树。在此之后，我需要根据生成树中的链接对数据向量进行分组。但在这一步，我感到不安--如何将不同的向量组合成层次化的集群？--我正在使用启发式方法:如果两个向量连接在一起，它们之间的距离非常小--这意味着它们在同一个集群中--如果两个向量连接在一起，但它们之间的距离大于阈值--这意味着它们在具有公共根簇的不同集群中。但也许有更好的解决方案？谢谢 P.S.感谢大家！事实上，我试过使用k-均值和CLOPE

浏览 2提问于2011-07-10得票数 4

回答已采纳

1回答

基于sklearn的空间数据聚类

、、、

我有纬度和经度数据点的数组，我想进行分层聚类。这是我的代码： position = zip(longitude, latitude) X = np.asarray(position) knn_graph = kneighbors_graph(X, 30, include_self=False, metric= haversine) for connectivity in (None, knn_graph): for n_clusters in(5,8,10,15,20): plt.figure(figsize=(4, 5)) cnt = 0

浏览 0提问于2016-11-16得票数 1

3回答

你会用哪种算法来进行文本聚类分类？

、

如果您被要求使用聚类进行文本分类。你会使用哪种算法?为什么？

浏览 0提问于2015-11-25得票数 1

3回答

基于距离矩阵的词聚类

、、、

我的目标是根据单词与文本文档语料库的相似度对单词进行聚类。我已经计算了每对单词之间的Jaccard相似度。换句话说，我有一个可用的稀疏距离矩阵。有没有人能给我介绍一些以距离矩阵作为输入的聚类算法(可能还有它的Python库)？我事先也不知道集群的数量。我只想对这些单词进行聚类，并获得哪些单词聚在一起。

浏览 0提问于2013-04-27得票数 24