我试图在这 .csv上运行DBSCAN算法。在我的程序的第一部分中,我加载它并绘制其中的数据以检查它的分布。这是代码的第一部分:
import csv
import sys
import os
from os.path import join
from sklearn.cluster import DBSCAN
import matplotlib.pyplot as plt
import numpy as np
def load_data(file_path, file_name):
with open(join(file_path, file_name)) as csv_file:
我是新的主题建模和文本聚类领域,我正在努力学习更多。我想使用DBSCAN来集群文本数据。关于如何在python上实现DBSCAN,比如1、2、3.,有很多文章和源代码,但它们对我来说太难理解了,也不能在python中理解。
我有一个包含userID和消息的CSV数据,他们编写的消息如下:
user.csv ( csv行数:400 (#message))
userID messages
112 The car was broken and Kevin fixed it
.
.
.
我知道应用DBSCAN的一些步骤,例如:
删除停止词
找到相似距离(我有一个做余弦相似的代码)
提出的问题如下:使用scikit-学习将数据分割成一个培训和测试集。使用DBSCAN将数据分类为猫或狗。
我试图弄清楚如何使用DBSCAN来使用训练数据来拟合模型,然后预测测试集的标签。我很清楚DBSCAN是用于集群而不是预测的。我还看过和许多其他线程。DBSCAN只附带fit和fit_predict函数,当尝试使用训练数据拟合模型,然后使用测试数据测试模型时,这些函数似乎不太有用。
这个问题是用词不当还是我漏掉了什么?我已经看过科学工具包-学习文档以及寻找例子,但没有任何运气。
# Split the samples into two subsets, use one for trainin
我在3D空间中有以下几点:
我需要分组,根据D_max和d_max的说法
D_max = max dimension of each group
d_max = max distance of points inside each group
如下所示:
上面图像中组的形状看起来像一个框,但是形状可以是任何可能是分组算法的输出的形状。
我正在使用Python并使用Blender可视化结果。我正在考虑使用并调用它的 API,但是,我不确定这是否是当前工作的合适工具。我担心可能有更好的工具,而我不知道。我很想知道是否还有其他工具/库/算法可以帮助我。
正如@CoMartel
情况就是这样..。
我有两个函数A()和B()。函数A()有一个for-循环,它在每次迭代中调用函数B()。函数B()有一个for-循环,迭代次数约为1000万次。
Function A()
{
for (i = 0; i < 10; i++)
Function B();
}
Function B()
{
for (i = 0; i < 10000000; i++)
certain_operations()
}
现在,我面临的问题是,A()的for-循环的第一次迭代需要1分钟执行,第二次迭代需要2分钟,第三次迭代需要4分钟等等……即
我正在研究测序数据,我希望使用DBscan来创建簇,使用等位基因频率参数,这基本上是一个发生的基因突变的0-100%。我在比较每个模式的两个时间点,这给了我x和y的参数。我已经玩了eps和minPts值,这是好的,但我的问题是表的数据,我正在得到。
因此,我想知道哪些基因在由程序创建的集群中。我看过DBscan的文档,似乎在任何地方都找不到相关代码。这么说,我完全是一个业余的R,所以我可能错过了一些非常简单的东西。
我使用的是"dbscan“包--这就是我所运行的
#Curating df to have relevant columns plus gene names, and tr
问题陈述
我的2D熊猫数据存储了关于用户工具使用特性的数据(例如,系统A的使用率为88%,系统B的使用率为11%,相应用户的系统C使用率为1%:
A B C
Usage 0,88 0,11 0,01
假设存在三个用户(ID: 1、2、3),则存在以下矩阵:
ID:1 A B C ID:2 A B C ID:3 A B C
Usage 0,88 0,11 0,01 Usage 0,86 0,13 0,01 Usage 0,00
我有一些独立工作的C++代码、dbscan.cpp和dbscan.h。现在我试着用Cython来包装它。我不确定如何正确地做到这一点,而且关于编译器、链接器、库和makefile的知识也很有限。
这是PyDBSCAN_lib.pyx
# distutils: language = c++
# distutils: sources = dbscan.cpp
from libcpp.vector cimport vector
from libcpp.string cimport string
from libcpp cimport bool
cdef extern from "dbs
我试图绘制DBSCAN集群的集群结果。我将数据聚集到两个集群中,当我编写代码来绘制这些数据时,它会显示“名称错误”。但我不明白有什么问题。这是我的错误代码
for i in range(0, reduced_data.shape[0]):
if dbscan.labels_[i] == 0:
c1 = plt.scatter(reduced_data[i,0],reduced_data[i,1],c='r',marker='+')
elif dbscan.labels_[i] == 1:
c2 = plt.scat