我在3D空间中有以下几点:
我需要分组,根据D_max和d_max的说法
D_max = max dimension of each group
d_max = max distance of points inside each group
如下所示:
上面图像中组的形状看起来像一个框,但是形状可以是任何可能是分组算法的输出的形状。
我正在使用Python并使用Blender可视化结果。我正在考虑使用并调用它的 API,但是,我不确定这是否是当前工作的合适工具。我担心可能有更好的工具,而我不知道。我很想知道是否还有其他工具/库/算法可以帮助我。
正如@CoMartel
我需要对较晚、较长坐标的数据集进行聚类。我使用python作为我的语言,并计划使用DBSCAN,因为我不想指定# of clusters。
目标和目的是能够输入较新、较长坐标的大型数据集,这些数据集具有许多附加的特征,并分配将返回的聚类组。原始数据库包含lat feature1,feature2 ...形式条目。需要修改一个名为“集群组”的新字段: lat long clustergroup feature1,feature2 .....这将帮助我识别哪些数据点被紧密地分组在一起,而不必在地图上绘制。我希望异常值将被赋予单独的组ID,而在很大程度上聚集在一起的点将被赋予相同的组ID。
我对DB
我是新的主题建模和文本聚类领域,我正在努力学习更多。我想使用DBSCAN来集群文本数据。关于如何在python上实现DBSCAN,比如1、2、3.,有很多文章和源代码,但它们对我来说太难理解了,也不能在python中理解。
我有一个包含userID和消息的CSV数据,他们编写的消息如下:
user.csv ( csv行数:400 (#message))
userID messages
112 The car was broken and Kevin fixed it
.
.
.
我知道应用DBSCAN的一些步骤,例如:
删除停止词
找到相似距离(我有一个做余弦相似的代码)
更新:在最后,我选择了用于集群我的大型数据集的解决方案是由Anony提出的。也就是说,使用ELKI的DBSCAN实现来完成我的集群而不是scikit的学习,它可以从命令行运行,并通过适当的索引,在几个小时内完成这个任务。使用GUI和小样本数据集计算出您想要使用的选项,然后再去镇上。值得一查。不管怎么说,请继续阅读,了解我最初的问题和一些有趣的讨论。
我有一个有250万个样本的数据集,每个样本都有35个特性(浮点值),我正试图对它们进行聚类。我一直试图用scikit实现DBSCAN,使用曼哈顿距离度量和从数据中抽取的一些小随机样本估计的epsilon值。到现在为止还好。(这是片段,供参考)
db
我有一些独立工作的C++代码、dbscan.cpp和dbscan.h。现在我试着用Cython来包装它。我不确定如何正确地做到这一点,而且关于编译器、链接器、库和makefile的知识也很有限。
这是PyDBSCAN_lib.pyx
# distutils: language = c++
# distutils: sources = dbscan.cpp
from libcpp.vector cimport vector
from libcpp.string cimport string
from libcpp cimport bool
cdef extern from "dbs
我试图在这 .csv上运行DBSCAN算法。在我的程序的第一部分中,我加载它并绘制其中的数据以检查它的分布。这是代码的第一部分:
import csv
import sys
import os
from os.path import join
from sklearn.cluster import DBSCAN
import matplotlib.pyplot as plt
import numpy as np
def load_data(file_path, file_name):
with open(join(file_path, file_name)) as csv_file:
提出的问题如下:使用scikit-学习将数据分割成一个培训和测试集。使用DBSCAN将数据分类为猫或狗。
我试图弄清楚如何使用DBSCAN来使用训练数据来拟合模型,然后预测测试集的标签。我很清楚DBSCAN是用于集群而不是预测的。我还看过和许多其他线程。DBSCAN只附带fit和fit_predict函数,当尝试使用训练数据拟合模型,然后使用测试数据测试模型时,这些函数似乎不太有用。
这个问题是用词不当还是我漏掉了什么?我已经看过科学工具包-学习文档以及寻找例子,但没有任何运气。
# Split the samples into two subsets, use one for trainin
我已经做了一些聚类,我想可视化的结果。
下面是我编写的绘制集群的函数:
import sklearn
from sklearn.cluster import DBSCAN
from sklearn import metrics
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import DBSCAN
from sklearn import metrics
from sklearn.datasets.samples_generator import make_blobs
from sklearn.pr