使用python仅聚类二进制矩阵中的列_在二进制矩阵中聚类1的组_使用值阈值从矩阵定义聚类，并在Python中按聚类大小命名 - 腾讯云开发者社区

python、python-3.x、matrix、cluster-computing、distance

我需要一些帮助才能将我的binary values集群到我的矩阵中。这是一个二进制矩阵，下面是一个例子： G1 G2 G3 G4 G5 G6 G7 G8 G9 G10 G11 G12Sp1 0 0

浏览 14提问于2020-04-24得票数 0

2回答

数据挖掘:基于两个文本值(ID)和一个数字(比率)进行分组

python、ruby、data-mining、data-analysis

对于一个音乐项目，我想找出哪一组艺术家是用户听的。我从数据库中提取了三列:艺术家的ID、用户的ID和连接到该艺术家的所有用户流的百分比。用户15的话剧一半是艺术家的12部。12 - 15 - 0.5 我希望找到的是一种将一组组聚在一起的方法，例如，找出那些倾向于听艺术家12的用户也会听65、74和34。我想知道这种分组可以使用什么样的方法，以及这种方法是否有很好的

浏览 3提问于2013-09-09得票数 0

回答已采纳

1回答

相似度矩阵的聚类技术

cluster-analysis、hierarchical-clustering、clustering-key

我有128个受访者的二进制数据，基于他们所选择的数码相机的功能。其中'1‘代表特征的选择，而'0’代表未选择的特征。我在列中有92个产品特性，在行中有响应者。我想根据他们选择的功能创建不同用户组的集群。我在这些二进制数据上尝试了一些聚类算法，比如模糊聚类和层次聚类，但它没有给我任何好

浏览 5提问于2017-03-07得票数 0

2回答

python中二进制数据距离矩阵的计算

python、hierarchical-clustering、euclidean-distance、distance-matrix

我正在python中执行分层聚类分析。我的变量是二进制的，所以我想知道如何计算二元欧几里德距离。根据文献，利用这种聚类技术可以使用这种距离度量。我使用的是scipy.spatial.distance.pdist(X, metric='euclidean')，但是这个函数对非二进制数据使用欧氏距离。有没有基于二元欧氏距离度量计算距离矩阵的

浏览 0提问于2018-08-16得票数 2

4回答

在scikit-learn中，DBSCAN可以使用稀疏矩阵吗？

machine-learning、scikit-learn、cluster-analysis、data-mining、dbscan

在运行scikit的dbscan算法时，我得到了内存错误。我的数据大约是20000*10000，它是一个二进制矩阵。无论如何，我找到了scikit的稀疏矩阵和特征提取。但我仍然不知道如何使用它。

浏览 0提问于2013-04-19得票数 10

1回答

二进制稀疏数据UMAP降维的最佳度量和超参数

dimensionality-reduction、binary、sparse

我正在对一个很大的稀疏二进制矩阵进行聚类之前的降维步骤，该矩阵由近3000列和50k行组成。我的想法是用UMAP将3000个维度嵌入到一个二维空间中，然后用HDBScan对得到的5万个二维点进行聚类。我发现UMAP接受了许多选项，比如metric、n_neighbors、min_dist和spread，但是我不知道什么才是给我提供不同集群的最佳组合。对于大多数情况

浏览 0提问于2021-07-27得票数 2

2回答

R中的簇二进制矩阵

r、matrix

我有一个两个变量之间的二进制矩阵。我想知道是否有一种方法可以对R中的二进制矩阵进行聚类。如果有，我应该使用哪种算法？矩阵如下所示person1 1 0 0 1person3 1 1 1

浏览 1提问于2013-12-12得票数 2

1回答

构造特征向量学习聚类

cluster-analysis、feature-extraction

示例：*引文：{*1: cite1，不是，是不是……}我假设根据引用的相似度对文档进行聚类，但每个文档都会有很多引用我在这里的困惑是，在这种情况下，我是否要为数据集构造特征向量，以便将其提供给我的聚类工具包( ...how )。 ps。我在机器学习方面的背景相当薄弱-我正在读我的课堂讲稿，但大多数都没有

浏览 2提问于2013-02-23得票数 1

1回答

有哪些方法可以评估聚类的相似性？

python、statistics、cluster-analysis、evaluation

假设我有两种方法对同一数据集进行聚类，并希望计算它们输出的相似度。我将不得不计算一些类似于相关性的东西，但集群标签是一个分类变量。我考虑过使用卡方，但当列联表中的多个单元格<5时，不建议使用卡方(当聚类非常相似时，这将经常发生)。另一个线索是使用Fisher的精确测试，但Python scipy实现只适用于2x2的

浏览 32提问于2020-03-30得票数 0

3回答

是否对hclust链接使用不同度量？

r、cluster-analysis

在R中，您可以在聚类之前使用各种度量来构建距离矩阵，例如二进制距离、曼哈顿距离等。然而，当涉及到选择链接方法(完全、平均、单一等)时，这些链接都使用欧几里德距离。如果您依赖于差异度量来构建距离矩阵，则这似乎不是特别合适。谢谢!

浏览 3提问于2012-08-30得票数 2

回答已采纳

3回答

python中基于基因表达矩阵的层次聚类

python、numpy、machine-learning、matplotlib、scipy

我如何在Python中进行分层聚类(在本例中是针对基因表达数据)，以显示基因表达值矩阵和树状图？我的意思是像下面这样的例子：如何在Python中使用numpy/scipy或其他工具执行此操作？另外，用欧几里德距离作为度量，用大约11,000个基因的

浏览 0提问于2010-06-05得票数 3

2回答

使用R-lsa包计算语义空间中文档之间的余弦相似度

r、cluster-analysis、text-mining、trigonometry、lsa

我正在尝试使用R语言对类似的文档进行聚类。作为第一步，我为我的文档集计算术语-文档矩阵。然后，为之前创建的术语-文档矩阵创建潜在语义空间。我决定在实验中使用LSA，因为仅使用术语文档矩阵进行聚类的结果非常糟糕。是否可以使用创建的LSA空间构建相异矩阵(使用余弦度量)？我需要这

浏览 3提问于2013-03-06得票数 2

1回答

以一致性矩阵为相似矩阵的层次聚类

machine-learning、clustering、similarity

特别是，如果我们将颜色梯度与0-1的实数范围相关联，使白色对应于0，而暗红色对应于1，如果我们假定矩阵的排列使属于同一集群的项目彼此相邻(使用相同的项目顺序来索引矩阵的行和列)，那么对应于完美一致性的矩阵将在白色背景上显示为以红色块沿对角线描述的颜色编码热图为了从一致矩阵到可视化，作者指出：“我们可以利用一致矩阵本身来确定最优的

浏览 0提问于2021-02-27得票数 1

1回答

R/rpy2中as.dist函数的内存问题

python、r、rpy2

我正在尝试使用自定义距离度量执行分层聚类。我在Python中执行所有计算，然后将数据结构传递给R进行聚类r=robjects.r from rpy2.robjects.packagesPython列表中，转换为R矩阵，然后再转换为集群所需的dist对象。但是，当矩阵变得太大时，我会得到这样的错误：

浏览 1提问于2011-03-19得票数 1

回答已采纳

2回答

超大型(n=140000)二进制数据集聚类分析技术？

machine-learning、python、scikit-learn、clustering

此数据集用于英国警方使用武力的案例。我计划对其进行聚集性的分层聚类，以便在使用强制事件时找到模式(通过集群描述)，但我无法做到这一点，因为距离矩阵总是太大，并且不断崩溃。我尝试通过MCA进行降维(比如PCA，但对于分类变量)，但这只是减少了列的数量，而且距离矩阵仍然太大(1400x140000需要72.7G的RAM)。因此，我正在寻找除分层聚类之外的</

浏览 0提问于2020-05-04得票数 2

2回答

在python中将层次聚类的结果绘制在数据矩阵的顶部

python、cluster-analysis、machine-learning、matplotlib、scipy

在Python中，如何将树状图绘制在值矩阵的顶部，并适当地重新排序以反映聚类？下面是一个示例：我使用scipy.cluster.dendrogram制作树状图，并对数据矩阵执行分层聚类。那么，我如何将数据绘制为矩阵，其中行已被重新排序，以反映在特定阈值下切割树状图所导致的聚类，并使树状图与矩阵一起绘制？我知道如何在scipy

浏览 5提问于2010-06-06得票数 51

回答已采纳

1回答

K-表示每组中的集群-图类比例。

python、machine-learning、scikit-learn、cluster-analysis

我正在进行一个项目，利用未标记数据集的聚类结构来提高监督学习聚类算法的性能。在对存储在矩阵中的数据进行预处理之后，我使用k-方法对数据进行聚类，如下所示：k = KMeans(n_clusters=40).fit(X) 我将所需的标签存储在y中。我全神贯注地看不同的<

浏览 1提问于2017-03-08得票数 2

回答已采纳

2回答

基于随机森林的聚类相似性矩阵:它是如何表现的？

clustering、random-forest、similarity

我的背景如下：目的:将实例聚为临床有意义的亚群体或临床背景，以获得风险亚群体的感觉(根据后续结果经过考虑的方法(请参阅这篇简短的博客文章(读了2分钟)的基本原理)：利用树叶中的共现得到病人的</e

浏览 0提问于2019-04-17得票数 5

1回答

如何对r中充满字符串变量的数据集进行K-means聚类

r、string、cluster-analysis

现在，我有一个充满字符串变量的数据集，但我想在此基础上做一个集群项目。在我对所有变量应用as.factor()后，nbclust()仍然不能工作，我该怎么办？

浏览 63提问于2018-05-31得票数 -1

回答已采纳

2回答

对二进制值使用哪种距离度量？

python、machine-learning、math、cluster-analysis、k-means

所以，我已经用二进制值转换了矩阵，也就是说，如果用户u1喜欢一个项目I1，那么值是1，如果他不喜欢这个项目，那么值是0。因此，现在我需要对喜欢相似项目的相似用户进行聚类。我已经使用K-modes聚类来对它们进行聚类，但我的轮廓得分非常低。我不确定我应该使用哪种距离度量。欧几里德距离不是解决这个问题的好方法。如果我的数据

浏览 0提问于2019-11-20得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云