如何使用dbscan了解每个集群中的行数？_使用python分离DBSCAN中每个集群的坐标_如何使用DBSCAN指定集群中的最大点数？ - 腾讯云开发者社区

、、、、

我们非常感谢您的意见、建议或解决方案，谢谢。我正在使用R中的fpc包对一些非常密集的数据(范围-3，6之间的3组40,000个点)进行dbscan分析。我已经找到了一些簇，我只需要画出有意义的簇。问题是我有一个单独的簇(第一个)，其中有大约39,000个点。我需要绘制除这个以外的所有其他集群。 dbscan()会创建一种特殊的数据类型来存储所有集群数据。它不像数据帧那样被索引(但也许有一种方法可以这样表示它？)。我可以使用基本的plot()调用来绘制dbscan类型的图形。但是，正如我所说的，这将绘制不相关的39,000个点。 tl;dr:如何只绘制dbscan数据类型的特定集群？

浏览 0提问于2011-07-26得票数 4

1回答

如何识别Lumer Faieta Ant聚类中发现的簇

我一直在尝试Lumer-Faieta集群，并获得了令人振奋的结果： ? 然而，随着集群的形成，我想知道如何识别最终的集群？我是否要运行另一个聚类算法来识别集群(这似乎适得其反)？我有一个想法，就是在每个数据点的集群中开始。然后，当一只负重的蚂蚁丢弃一个数据点时，它将获得与控制其邻域的数据点相同的集群。这样做的问题是，如果集群被拆分，它们共享相同的集群编号。我被卡住了。有什么建议吗？

浏览 9提问于2019-02-06得票数 0

1回答

DBSCAN对文档的聚类[更新]？

、、、

我是新的主题建模和文本聚类领域，我正在努力学习更多。我想使用DBSCAN来集群文本数据。关于如何在python上实现DBSCAN，比如1、2、3.，有很多文章和源代码，但它们对我来说太难理解了，也不能在python中理解。我有一个包含userID和消息的CSV数据，他们编写的消息如下： user.csv ( csv行数:400 (#message)) userID messages 112 The car was broken and Kevin fixed it . . . 我知道应用DBSCAN的一些步骤，例如：删除停止词找到相似距离(我有一个做余弦相似的代码)

浏览 0提问于2019-06-29得票数 1

3回答

基于空间邻近度的群几何点

、、、

我在3D空间中有以下几点：我需要分组，根据D_max和d_max的说法 D_max = max dimension of each group d_max = max distance of points inside each group 如下所示：上面图像中组的形状看起来像一个框，但是形状可以是任何可能是分组算法的输出的形状。我正在使用Python并使用Blender可视化结果。我正在考虑使用并调用它的 API，但是，我不确定这是否是当前工作的合适工具。我担心可能有更好的工具，而我不知道。我很想知道是否还有其他工具/库/算法可以帮助我。正如@CoMartel

浏览 0提问于2018-05-23得票数 3

回答已采纳

1回答

DBSCAN集群python -在多个集群任务上并行运行

、、、

我需要对大约1400万个用户运行DBSCAN集群，每个用户都有1k个数据点。每个用户都是一个完全独立于其他用户的不同聚类案例。基本上，我有许多小的集群任务。在一台机器上运行它对我来说是行不通的，即使是在使用python多处理模块并行任务时，因为IO和集群需要很长时间。我考虑过使用Spark来管理集群上的并行运行，但我认为这可能不适合我的情况，因为DBSCAN不是在MLlib中实现的，而且我不需要并行运行每个集群任务，而是单独运行每个任务。每当我尝试使用Spark原生RDD或Dataframe之外的任何东西时，它显然都必须收集到驱动程序节点的所有数据。我的问题是，是否有更聪明的解决方案来解

浏览 53提问于2018-07-15得票数 1

2回答

如何执行经度/经度数据点聚类

、、、

我的首选算法是scikit-learn中的DBSCAN。但是，我不确定是否(以及如何)在我已经使用的纬度和经度之外加入半径。我的第二个问题是如何计算新集群的中心。有什么想法吗？

浏览 0提问于2014-12-12得票数 2

2回答

类蛇簇的聚类算法

、、、

我正在寻找一种很好的算法来识别数据集群，这些数据簇往往是线性的，有点像蛇一样的集群。我已经尝试过许多标准的聚类算法，比如DBSCAN、光学、HDBSCAN和RobustSingleLinkage，但是它们看起来都类似于下面的图片，在蛇集群和常规集群之间，它们会变得混乱不堪。有人知道一个很好的聚类算法来解决这个问题吗？ Anony-Mousse的回答很有用。我将添加一些细节来展示我是如何应用它的。我使用了DBSCAN，调整了X轴和DBSCAN eps值的比例，直到它开始收集更多的水平集群。这是相当有效的，足够接近我的目的。 scan = cluster.DBSCAN(eps=20, m

浏览 6提问于2019-10-02得票数 0

回答已采纳

1回答

三维坐标上的DBSCAN找不到集群

、、

我试图在1428点的三维坐标DataFrame中聚集点。星系团是相对平坦的平面，是拉长的云。它们是非常明显的集群，所以我希望尝试无监督的集群(不包括预期的集群数量) KMeans没有正确地将它们分开，并且确实需要集群的数量：。数据如下： 5 6 7 0 9207.495280 18922.083277 4932.864 1 5831.199280 3441.735280 5756.326 2 8985.735280 12511.719280 7099.844 3 8

浏览 2提问于2021-01-26得票数 2

回答已采纳

1回答

如何使用DBSCAN设置好的参数对高密度数据进行聚类？

、、、

我想使用DBSCAN根据给定的位置(X，Y，Z)对一些恒星进行聚类，我不知道如何调整数据以获得正确的聚类数量，然后绘制它？下面是数据的外观 ? 这些数据的正确参数是什么？行数为1.202672e+06 import pandas as pd data = pd.read_csv('datasets/full_dataset.csv') from sklearn.cluster import DBSCAN clusters=DBSCAN(eps=0.5,min_samples=40,metric="euclidean",algorithm="auto

浏览 27提问于2019-08-29得票数 1

1回答

不同轴上不同感光子的光学算法

、、、、

我正试图将所提供的充电电源集中到不同的车辆上。 import numpy as np import matplotlib.pyplot as plt from sklearn.cluster import DBSCAN from sklearn.cluster import KMeans, AgglomerativeClustering, DBSCAN, OPTICS, cluster_optics_dbscan df_temp_12 = list(map(lambda x, y: [x, y], VehicleList, Power)) Eps = 1.3 dbscan_12_object

浏览 14提问于2022-04-22得票数 0

回答已采纳

1回答

DBSCAN集群甚至无法处理40k数据，而是使用python和sklearn处理10k数据

、、、、

我正在尝试对我的数据集进行聚类。我的数据集中有700k行。我从中提取了40k，并尝试了在python和sklearn中使用DBSCAN集群。我在32 GB的内存上运行。算法运行了一整晚，但它没有完成，我停止了程序，然后手动停止。但当我尝试使用10k数据集时，它正在运行。在数据集大小的情况下，DBSCAN是否有限制？我使用了以下代码： clustering = DBSCAN().fit(df) pred_y = clustering.labels_ 以及更低的版本： clustering = DBSCAN(eps=9.7, min_samples=2, algorithm='bal

浏览 2提问于2020-06-26得票数 3

2回答

不同名称的DBSCAN群集(Python)

、、、、

我正在使用TF-IDF和DBSCAN在数据库中对相似的人名进行聚类。该项目的目标是能够将属于同一人但不一定格式化或拼写相同的姓名聚在一起。例如，John Smith也可以在数据库中标记为J. Smith或Smith，John。理想情况下，模型应该能够将这些实例聚集在一起。我正在处理的数据集有超过25万条记录。我知道DBSCAN会将噪声记录标记为-1。然而，该模型还产生了一个额外的集群，该集群中几乎总是有大约200K条记录，并且其中的绝大多数记录似乎都应该在自己的单独集群中。有没有可能发生这种情况的原因？我正在考虑在这个大型集群上运行另一个模型，看看会发生什么。任何建议都将不胜感激。谢谢!

浏览 26提问于2021-07-13得票数 0

2回答

什么命令以值的形式返回dbscan中的群集数？

、、、

我需要一个类似于length()的命令来查找dbscan中创建的集群的数量。假设我对这个数据集执行了dbscan。 set.seed(665544) n <- 600 x <- cbind(runif(10, 0, 10)+rnorm(n, sd=0.2), runif(10, 0, 10)+rnorm(n,sd=0.2)) ds<- dbscan(x,.2,showplot=1) 我可以使用命令ds查看集群的数量。 ds 是否有可以键入的命令并返回群集数量的值？也就是说，我输入一个命令，并返回值12。

浏览 2提问于2013-11-13得票数 0

回答已采纳

2回答

当使用sklearn时，得到一个不太相似的集群是否正常？

、、

我有大量的诊断代码序列，我试图根据相似性对其进行聚类。通过使用最小公共子序列算法计算相似度，建立一个距离矩阵，然后从1中减去相似度，找出每个序列之间的距离。然后，我将该距离矩阵传递给sklearn的DBSCAN，如下所示： db = DBSCAN(eps=0.34, metric='precomputed') db.fit(sim_mat) 在创建集群之后，我将每个集群中包含的序列输出到一个文本文件中。每一个集群对我来说都是有意义的，除了一个。例如，这个集群对我来说是有意义的，因为每个序列都有两个相同的代码，顺序相同： ['345.3', '345.1

浏览 3提问于2017-07-15得票数 0

回答已采纳

1回答

如何在sample_weights中分配sklearn.cluster？

、、

我使用DBSCAN来查找RGB图像的像素值集群。 db = DBSCAN(eps=0.3, min_samples=10).fit(X) 其中，X是一个N x 3矩阵。X的每一行都包含RGB三胞胎。现在，我想把权重分配给像素值，作为距离图像中心的一个函数。这是我使用的函数： score = 1 / (1 + math.exp(-a * distance)) # a = 0.001 我计算的weight_matrix中填充了score，如下所示接下来我做了这个： db = DBSCAN(eps=0.3, min_samples=10).fit(X,y=None, sample_weight

浏览 0提问于2016-06-01得票数 0

回答已采纳

2回答

如何在R中找到DBSCAN()参数的最佳点

、、

如何找到DBSCAN()参数(eps，Minpts)的最佳点和合适的量？来自包fpc的DBSCAN()实现了DBSCAN(基于密度的集群)集群方法。

浏览 1提问于2017-11-04得票数 0

1回答

测试一个示例是否适合现有集群

、、、

我有一个数据样本，我想要创建一个模型，它将创建N个集群。在对集群进行拟合之后，我想根据现有的集群测试各种样本，看看这些样本是否适合任何集群，如果不认为它是“异常”的话。我开始使用DBScan (scikit)，我的数据分成了3个集群，但是我找不到任何函数/方法来根据当前的结果测试特定的样本，而不是“修改”。还有其他适合我需要的型号吗？还是我在使用DBScan时遗漏了什么？提前感谢

浏览 0提问于2019-11-12得票数 0

1回答

基于ELKI的增量聚类

、、、

我正在使用ELKI库，并且已经使用DBSCAN实现了集群，但是由于使用的dataset Im随着时间的推移而增长，所以我想使用增量集群算法。我找到了这个关于增量式DBSCAN算法的。论文说，该算法是用ELKI实现的，这种实现是对ELKI的贡献。但不幸的是，我不知道如何增量地使用DBSCAN。

浏览 0提问于2016-04-21得票数 0

回答已采纳

1回答

使用DBSCAN对GPS数据进行聚类，但是集群没有意义(就大小而言)

、、

我正在处理GPS数据(纬度、经度)。对于基于密度的集群，我在R中使用了DBSCAN。 DBSCAN在我的例子中的优势：我不需要预定义集群的数量我可以计算出一个距离矩阵(使用Haversine距离公式)，并将它作为dbscanlibrary(化石) dist<- earth.dist(df，dist=T) #df的输入。df是包含lat长值库的数据集<-dbscan(dist、MinPts=25、eps=0.43、method="dist")。现在，当我看星系团时，它们是没有意义的。有些星系团有相距超过1公里的点。我想要密集的星系团，但不是那么大

浏览 1提问于2013-12-31得票数 6

回答已采纳

1回答

在两个DBSCAN实现中，集群分配有时不同

、、、

我在R中实现了DBSCAN算法，并将集群分配与的DBSCAN实现相匹配。对合成数据进行测试，如fpc库dbscan示例所示： n <- 600 x <- cbind(runif(10, 0, 10)+rnorm(n, sd=0.2), runif(10, 0, 10)+rnorm(n, sd=0.3)) 聚类的参数如下所示： eps = 0.2 MinPts = 5 我正在比较fpc::dbscan的集群分配和dbscan的实现。最大的运行显示，每一点是相同的分类，由两个实现。但是，在某些情况下，在我的实现中，1或2个点和一些罕见的5或6个点被分配给不同的集群，而不是在fpc实现

浏览 1提问于2012-06-02得票数 5

回答已采纳

2回答

使用空间和时间数据的DBSCAN

、、、

我正在查看具有lat、lng和事件日期/时间的数据点。在研究集群算法时，我遇到的一种算法是DBSCAN。虽然它在lat和lng集群上工作得很好，但我担心的是，当合并时间信息时，它会崩溃，因为它不是相同规模或相同类型的距离。将时态数据合并到DBSCAN算法中有哪些选择？

浏览 0提问于2015-06-03得票数 5

2回答

如何查看ELKI DBSCAN集群结果

、、、

我正在使用ELKI进行DBSCAN集群，大约1.4万个全球定位系统points.Its运行良好，但我想看到有关集群的信息，比如一个集群中有多少点。？

浏览 1提问于2014-05-21得票数 2

回答已采纳

1回答

如何保存集群

、、

我通过创建了下面的集群我的数据是一个numpy数组： array([[-0.22725194, -0.68548221], [ 0.01525107, -0.98825191], [-0.29117618, -0.69614647], ..., [ 0.62125361, -0.79422623], [ 0.59627969, -0.82673572], [ 0.58919524, -1.04003462]]) 我想将这两个新的集群作为变量添加到我的数据中。我使用的代码是： from sklea

浏览 2提问于2014-12-06得票数 0

1回答

在基于密度的算法(DBSCAN)中，我们如何表示集群的摘要？

、、

我想问你一个问题:我们如何在基于密度的算法中表示集群？换句话说，在基于原型的算法中，集群由质心和数据点的数量表示，在基于模型的算法中由质心和方差表示，在基于网格的算法中由长度、高度和每个网格中的数据点的数量表示。那么，基于密度的算法(DBSCAN)如何表示输出聚类的摘要？

浏览 0提问于2016-12-01得票数 0

2回答

最大集群跨度的dbscan设置限制

、、、、

根据我对DBSCAN的理解，您可以指定一个epsilon，比方说，100米，因为DBSCAN在寻找集群时考虑到了密度--可达性和而不是直接密度--最终形成了一个集群，其中任意两个点之间的最大距离是> 100米。在一个更极端的可能性，似乎你可以设置100米的epsilon，并以一个1公里的集群结束：的例子，何时可能发生。(我非常愿意被告知我是个十足的白痴，如果这就是这里发生的事情，我会误解DBSCAN。) 是否有像DBSCAN这样基于密度的算法，但是考虑到集群中任意两个点之间的最大距离的某种阈值？

浏览 6提问于2013-08-31得票数 17

回答已采纳

1回答

不平衡数据和组的聚类

、

我有一个问题，就是如何识别高度相关的项目集群。我最初的重点是构建一个模型和特性，将相似的数据项放在一起。主要的挑战是，我有一个数据不平衡的案例，具体如下：数以千万计的项目是随机的，不一定相关。数百个项目集群(由10-1000个元素组成)存在*或可能出现。*对于现有的事实，我是有部分根据的。星系团在大小和性质上有很大的不同。我想返回已识别的集群以及每个集群中的元素。F1应该是一个很好的衡量标准。为了继续前进，我可以想到基于阈值的分层聚类。还有其他方法需要考虑吗？

浏览 0提问于2020-06-29得票数 3

1回答

如何利用EM算法在一个数据集上确定DBSCAN的参数(eps，minpts)？

、、

最近，我选择在公共数据集中使用DBSCAN集群。但由于参数Eps和挖掘值敏感，很难在整个数据集上获得性能良好的参数值。在调整DBSCAN的参数时，似乎存在过度拟合.我知道EM算法可以用来调整GMM模型的参数，我不知道是否可以将EM算法应用到DBSCAN中。我需要一些关于它的想法或建议。以前有人试过吗？

浏览 1提问于2017-11-15得票数 0

回答已采纳

1回答

如何在python中获得dbscan创建的集群的可信度

、、

我在python中使用了sklearn.dbscan，结果只给出了每个集群的标签，但我也想计算集群的可信度，或者仅仅计算集群之间的平均距离。你们知道吗？

浏览 1提问于2021-11-24得票数 0

回答已采纳

2回答

Python -聚类邻域像素

、

我正在寻找一种聚类算法，最好是在python中，它将所有像素直接聚集在一起。例如，在下面的图片中，我将得到4个集群作为输出。(每种颜色代表一个集群)

浏览 3提问于2022-01-17得票数 0

1回答

使用DBSCAN查找远离高密度集群的数据？

、、

意识到dbscan集群不一定有集群中心，但是对于异常检测任务，我想发现异常值/远离正常集群的数据。是否有一种方法可以使用sklearn的dbscan来完成这一任务？

浏览 0提问于2018-05-01得票数 0

回答已采纳

2回答

如何解释DBSCAN集群的输出？

、、、、

我开始学习用于集群的DBSCAN，但是其中的解释部分似乎很难理解。 dataset = np.vstack((quotient_times, quotient)).T scaler = StandardScaler() dataset = scaler.fit_transform(dataset) db_scan = DBSCAN(eps=0.6, min_samples=1) db_scan.fit(dataset) colors = [int(i % 23) for i in db_scan.labels_] plt.figure(); plt.title(fname) plt.x

浏览 0提问于2019-02-23得票数 4

1回答

具有额外特征的地理位置数据聚类

、、、、

我正在尝试建立一个参与式系统，用从移动客户端收集的数据进行噪音监控(更具体的说，Android客户端有一个独特的ID)。每个客户端以下列格式收集数据:纬度、经度、noise_value、时间戳。最重要的是，我正试图为这些客户开发一个信誉系统，以确定他们的数据有多可靠。根据我所读到的，DBSCAN在地理位置坐标方面是最合适的聚类算法，因此我使用的是在中实现的聚类算法。基本上，我可以将这些数据分组在半径为1或2公里的星团中。是否可以确定属于每个集群的客户端(即:集群1包含来自客户端的数据：#1、#2、#3)和/或来自它的值？

浏览 5提问于2022-05-19得票数 0

1回答

python中的循环问题

、、

我试图绘制DBSCAN集群的集群结果。我将数据聚集到两个集群中，当我编写代码来绘制这些数据时，它会显示“名称错误”。但我不明白有什么问题。这是我的错误代码 for i in range(0, reduced_data.shape[0]): if dbscan.labels_[i] == 0: c1 = plt.scatter(reduced_data[i,0],reduced_data[i,1],c='r',marker='+') elif dbscan.labels_[i] == 1: c2 = plt.scat

浏览 0提问于2018-02-14得票数 1

2回答

具有周期性边界条件的DBSCAN python

、、、

我正在尝试使用sklearn.cluster.DBSCAN sklearn.cluster.DBSCAN来分析2D网格中的集群。但我遇到过一个问题，即跨越周期性边界条件的聚类没有实现。有没有人知道考虑周期性边界条件的实现？或者如何实现它？ / Mikkel C

浏览 0提问于2015-08-06得票数 0

1回答

DBSCAN集群-将集群结果导出到新的列问题

、、

我使用python在Iris数据集下编写了一段代码--我使用的集群技术是DBSCAN。我需要在新的专栏中删除所需的结果。我有集群的图表。需要取出具有更新的新聚类列的总数据集。在K-Means中，我可以通过运行以下命令来做到这一点 iris_frame['NEW_COLUMN'] = pd.Series(y, index=iris_frame.index) 在层次聚类中，我可以从下面的公式中提取所需的结果 from scipy.cluster.hierarchy import fcluster iris_CM=iris.copy() iris_CM['Hierarch

浏览 19提问于2021-01-25得票数 0

1回答

使用HDBSCAN集群时获取集群中心

、

集群和尝试HDBSCAN集群非常新，但我很难弄清楚如何获得集群中心。对于KMeans，它是与集群一起设置的。我该如何获得集群中心呢？这是我的密码： #!/usr/bin/env python3 from sklearn.cluster import KMeans from sklearn import metrics import cv2 import numpy as np import hdbscan from pprint import pprint # Read image into opencv image = cv2.imread('4.jpg') #

浏览 4提问于2017-05-11得票数 1

回答已采纳

2回答

TSP问题的聚类算法

、、

我正在尝试解决一个有大约10,000个城市的非常大的TSP。为了使我的任务并行化，我想将这些城市划分为集群，并求解每个集群的TSP。我想要一种可以将我的城市划分为集群的方法(基于城市密度/集群中每个城市之间的邻近度)。有谁知道做这件事的有效顺序吗？

浏览 1提问于2012-12-14得票数 1

回答已采纳

1回答

小于MinPts的DBSCAN集群大小

、、、、

我只是想到了DBSCAN的一些特殊情况。举例说明了这一情况。假设eps等于圆的半径。对于MinPts=3，p和r是核点。目前还不清楚Q是否属于p或r的簇，如果使用递归实现，并且算法首先检查r，q将是r的一部分，因此p将定义一个只包含两个元素的集群。最初的声明：“注意集群WRT.EPS和MinPts至少包含MinPts点.”我是不是漏掉了什么，还是这个特例没有被考虑？

浏览 3提问于2019-12-02得票数 1

回答已采纳

2回答

在ELKI中运行DBSCAN

、、、、

我正在尝试集群一些地理空间数据，之前我尝试过使用库。我找到了这个，决定试试。尽管建议not使用ELKI作为Java库(这应该比UI更少维护)，我还是将它合并到我的应用程序中，我可以说我对结果非常满意。它用来存储数据的结构比Weka使用的结构效率要高得多，而且它可以选择使用空间索引这一事实无疑是有利的。然而，当我将的结果与的结果进行比较时，我感到有点困惑。我会接受不同的实现可能会产生稍微不同的结果，但是这些巨大的差异让我认为算法有问题(可能是我的代码)。在这两种算法中，簇的数目和它们的几何形状有很大的不同。为了记录在案，我使用的是ELKI的最新版本(0.6.0)，我用于模拟的参数是： mi

浏览 5提问于2014-05-13得票数 3

回答已采纳

2回答

如何在Scala中根据条件动态返回对象？

我已经实现了五到六个聚类算法。当用户在"cluster“方法中指定其名称时，我希望返回聚类算法的对象。例如： val kmeans= data.cluster(clusteringAlgo.Kmeans) 由于使用Kmeans调用的集群方法与Kmeans匹配，因此它应该返回kmeans实例。 def cluster(firstName: ClusteringAlgorithm.Value):???= { algoName = firstName.toString() if (ClusteringAlgorithm.KMeans.toString() == algoN

浏览 0提问于2019-02-15得票数 0

1回答

Python中简单的二维聚类算法

、、、、

作为一个新的无监督方法，我需要一个正确的方向，一些半简单的代码运行一些数据作为一个案例研究。我正在处理的数据只有大约300个观测值，但我想了解如何将集群应用于行为类似的非常大的集合。我有2个数据特性集，我希望使用欧氏距离运行DBSCAN或类似的数据集(如果这是正确的集群方法)。例如，数据如下所示：我可以从眼睛中看出，这种方式的聚类可能不是最好的方法，因为分布看起来是不规则的。我应该使用什么方法来开始理解类似的分布--特别是当集合非常大时(1000次观察)。

浏览 1提问于2018-11-26得票数 2

回答已采纳

1回答

集群中的任何对象不应该有一个概率值> 0吗？产生不一致的结果

、、

我正在使用hdbscan在Python木星笔记本中找到数据集中的集群。 import pandas as pandas import numpy as np data = pandas.read_csv('data.csv') 这些数据如下所示： import hdbscan clusterSize = 6 clusterer = hdbscan.HDBSCAN(min_cluster_size=clusterSize).fit(data) 还有耶！一切似乎都正常！所以我想看到一些结果，所以我将这些结果添加到我的数据框架中： data.insert(18,"

浏览 3提问于2020-11-05得票数 0

2回答

验证DBSCAN集群的最佳方法

、、

我使用DBSCAN的ELKI实现从火数据集中识别火热点集群，结果看起来相当好。数据集是空间的，集群是基于纬度、经度的。基本上，DBSCAN参数可以识别火点高度集中的热点区域(由密度来定义)。这里是火灾热点地区。我的问题是，在试验了几个不同的参数并找到了一个给出合理聚类结果的对之后，如何验证集群我的用例是否有合适的形式验证方法？或者这是主观的，取决于应用程序域？

浏览 4提问于2015-11-03得票数 1

回答已采纳

1回答

Python如何根据向量的平均值绘制集群？

、、、、

嗨，我已经得到了向量的平均值，并使用DBSCAN对它们进行聚类。然而，我不确定我应该如何绘制结果，因为我的数据没有x，y，z。格式。样本数据集： mean_vec = [[2.2771908044815063], [3.0691280364990234], [2.7700443267822266], [2.6123080253601074], [2.6043469309806824], [2.6386525630950928], [2.7034034729003906], [2.3540258407592773]] 为了实现集群，我使用了下面的代码(来自scikit-learn

浏览 4提问于2018-10-10得票数 0

1回答

使用DBSCAN返回每个集群的DataFrame行

、、

概述代码使用一个在一维数组上操作的集群函数，并在一个数组中查找每个点的左和右边距定义的集群。我想使用来复制这个功能。导入： import pandas as pd import numpy as np from sklearn.cluster import DBSCAN 创建一个测试df: df2 = pd.DataFrame( {'AAA' : [80], 'BBB' : [85], 'CCC' : [100], 'DDD' : [98], &

浏览 0提问于2021-03-12得票数 0

回答已采纳

1回答

DBSCAN绘制非几何数据

、、、

我使用集群算法dbscan获取数据集群。数据:基于六进制字符串的非几何对象我使用一个简单的距离来创建一个距离矩阵作为dbscan的输入，从而产生预期的集群。问题是否可以创建这些集群的一个图，如中的结果我没有通过搜索找到解决办法。我需要以图形的方式演示对象和集群之间的相似之处。因为我使用python来处理所有事情(在这个项目中)，所以我希望它能在python中选择一个解决方案。

浏览 1提问于2014-07-27得票数 1

2回答

如何获得DBSCAN滑雪板的中心点？

、、、

我使用DBSCAN进行集群。然而，现在我想从表示它的每个集群中选择一个点，但是我意识到DBSCAN没有像kmeans那样的质心。然而，我坚持认为DBSCAN有一些叫做core points的东西。我在想，如果有可能利用这些核心要点或任何其他备选办法，从每一组中获得一个具有代表性的观点。我已经在下面提到了我使用的代码。 import numpy as np from math import pi from sklearn.cluster import DBSCAN #points containing time value in minutes points = [100, 200, 60

浏览 2提问于2020-06-05得票数 9

回答已采纳

1回答

具有R*-树的ELKI DBSCAN

、、、

我正在尝试使用ELKI库实现一个DBSCAN集群测试应用程序。我的数据集是6维的，由大约100.000个对象组成. 我尝试在我的代码中使用R*-Tree ELKI优化，但是对代码进行基准测试，它似乎仍然适用于O(n^2)。这是我在应用程序中使用的代码： ListParameterization dbscanParams = new ListParameterization(); dbscanParams.addParameter(DBSCAN.Parameterizer.EPSILON_ID, eps); dbscanParams.addParameter(DBSCAN.Parameteri

浏览 3提问于2014-07-18得票数 1

回答已采纳

2回答

scikit中的DBSCAN -学习Python:将聚集点保存在数组中

、、、

按照Scikit Learning的示例，我尝试将每个聚类的x，y存储在一个数组中 import numpy as np from sklearn.cluster import DBSCAN from sklearn import metrics from sklearn.datasets.samples_generator import make_blobs from sklearn.preprocessing import StandardScaler from pylab import * # Generate sample data centers = [[1, 1], [-1, -

浏览 1提问于2013-08-15得票数 21

回答已采纳

3回答

使用DBSCAN找到最密集的集群？

、、、

我一直在看Geoff波音公司在DBSCAN上的优秀博客文章。我最感兴趣的一页是- 我如何修改这种方法以返回最大集群的中心(集群中心被最多的lat/lng点包围)？是否有与每个集群的中心点相关联的密度等级？核心数据库扫描- db = DBSCAN(eps=.01, min_samples=1).fit(coordinates) labels = db.labels_ num_clusters = len(set(labels)) - (1 if -1 in labels else 0) clusters = pd.Series([coordinates[labels == i] for i

浏览 3提问于2015-11-25得票数 4

回答已采纳