使用KMeans生成漂亮的聚类图_标准化PC的KMeans聚类图_使用标签数据的KMeans聚类 - 腾讯云开发者社区

python、nlp、k-means、scatter-plot、dimensionality-reduction

我有一个为NLP分类器设计的多维向量。下面是数据帧(text_df)：我使用TfidfVectorizer来创建向量： from sklearn.feature_extraction.text import TfidfVectorizer tfidf_v = TfidfVectorizer(max_df=0.5, max_features=13000, min_df=5, stop_words='english

浏览 14提问于2018-08-29得票数 0

1回答

KMeans与tensorflow.contrib中的KMeansClustering

python、tensorflow、k-means

根据tensorflow的文档，有两个类与Kmeans算法相关。其中一个是，另一个是。文档指出前者是用于为kmeans聚类创建图的，但我实际上并没有得到它。我想使用kmeans for MNIST数据集对数字进行聚类，然后对它们进行分类。我应该为我的代码使用哪个类？

浏览 16提问于2018-07-26得票数 2

1回答

多维数据k均值聚类后的主成分分析

python、data-science、cluster-analysis、k-means、pca

我有以下10个变量的数据集：我想用这个多维数据集来识别集群，所以我尝试使用以下代码来实现k均值聚类算法： clustering_kmeans = KMeans(n_clusters=2, precompute_distances="auto", n_jobs=-1) data['clusters'] = clustering_kmeans.fit_predict(data) 为了绘制结果，我使用PCA进行降维： reduced_data = PCA(n_components=2).fit_transform(data) results = pd.Da

浏览 9提问于2021-10-24得票数 1

回答已采纳

2回答

使用python聚类/查找类似的热图

python、image-processing、machine-learning、computer-vision、k-means

我有以下热图的示例图像(我现在有数百个这样的images...for，以后会增长)：用我的人眼，我会说heatmap1，3和4是相似的，或者3和4是最相似的，我不确定。我希望能够根据模式和强度将最相似的热图图划分成不同的组。例如，中的每个heatmap包含24行和5列(行表示时间，列表示功能)。每列中的每一种颜色代表一个介于0到1之间的数字。与其他热图相比，第1列中用于heatmap 3和4的模式和强度更相似。但是，我不想看每一列，而是要比较每个热图的总体模式和强度。我以为我要用kmeans集群，但是找不到任何能帮助我实现我想要的东西的信息。据我

浏览 10提问于2017-05-11得票数 0

1回答

错误:在Python中看不到K均值聚类算法数据图。

python、python-3.x、machine-learning、k-means

嗨，我想实现K-均值聚类算法. 为此，我从sample.csv文件中获取数据，并在其上应用K均值聚类。这是我的源代码 ## K-Means.py # clustering dataset import pandas from sklearn.cluster import KMeans from sklearn import metrics import numpy as np import matplotlib.pyplot as plt variables = pandas.read_csv("/Users/srikanth/Desktop/sample1.csv") p

浏览 0提问于2018-10-12得票数 1

回答已采纳

1回答

如何在多维数据上可视化kmeans聚类

python、visualization、k-means

我在mnist数据集上使用kmeans聚类算法，并希望在聚类后将图可视化。到目前为止，我这样做了 from mnist import MNIST mndata = MNIST('Datasets') X_train, y_train = mndata.load_training() #do the clustering k_means = cluster.KMeans(n_clusters=len(np.unique(y_train))) k_means.fit(X_train) labels = k_means.labels_ 因此，我现在有10个集群，代表0到9。我如何

浏览 1提问于2017-10-20得票数 8

3回答

哪种算法和哪种超参数组合将是对数据进行聚类的最佳方法？

cluster-analysis、data-science、k-means、unsupervised-learning、gmm

我正在学习非线性聚类算法，我偶然看到了这个二维图。我想知道哪种聚类算法和超参数组合可以很好地对数据进行聚类。就像人类会聚集这5个尖峰一样。我希望我的算法能做到这一点。我尝试了KMeans，但它只是水平地或垂直地进行聚类。我开始使用GMM，但无法为所需的集群获得正确的超参数。

浏览 0提问于2019-05-31得票数 6

回答已采纳

1回答

如何使用高斯混合模型进行聚类？

python、machine-learning、scikit-learn、k-means、gmm

我一直在使用k-Means将数据聚类为2类。然而，现在，我想使用一种不同的方法，使用高斯混合模型将数据聚类到两个类别中。我已经阅读了Scikit-Learn文档和其他SO问题，但我无法理解如何在我目前的上下文中使用GMM进行2类聚类。我可以很容易地使用k-Means将数据聚类为2类，如下所示： import pandas as pd from scipy import stats from sklearn.cluster import KMeans import numpy as np df = pd.read_pickle('my_df.pkl') clmns = df

浏览 31提问于2019-03-15得票数 0

1回答

如何可视化词袋码本(图像分类)？

image、classification、sift

我想使用bag-of-word特征进行图像分类，如何可视化codebook？我使用keypoint-sift，然后使用kmeans进行聚类。例如， (图4)

浏览 11提问于2013-09-24得票数 0

3回答

如何用对象变异Scala方式编写for循环？

scala

我需要用Scala写一个对象变异的for-循环。在机器学习中，当聚类(将样本分配到最优分离组)时，为了确定一组中最优的组数，在不同的组号下运行聚类算法，计算每个组数的误差度量。最优群数是群数图与误差度量成一个弯头的位置。在Spark库中，KMeans对象用于集群，其中将组号作为参数传递。因此，我计算出绘制肘形图的误差度量如下： var baseClusterer = new KMeans() .setFeaturesCol("scaledFeatures") .setPredictionCol("

浏览 0提问于2018-10-01得票数 0

回答已采纳

2回答

从相似矩阵执行聚类

python、clustering、k-means

我有一个歌曲列表，我为每个歌曲提取了一个特征向量。我计算了每个向量之间的相似度分数，并将其存储在一个相似矩阵中。我想根据这个相似矩阵对歌曲进行聚类，以尝试识别集群或某种类型的歌曲。我使用networkx包从相似矩阵中创建了一个力有向图，使用了弹簧布局。然后，我将KMeans聚类用于该图中节点的位置，这就产生了有意义的集群。但是，我不确定这是否是正确的方法，因为它与弹簧布局所给出的位置有着根本的联系。我也尝试在相似矩阵上运行谱聚类，但是它太慢了。是否使用从相似矩阵生成的图形导出的位置，然后用管道插入KMeans的弹簧布局来提取簇，从根本上存在缺陷？如果是这样的话，在给定相似矩阵的情况下，对

浏览 0提问于2021-04-15得票数 1

3回答

数值数据聚类

python、clustering、scikit-learn

我试图在我的数据集中进行聚类，其中有4个数值字段。请查找所附文件：http://www.filedropper.com/example_3. 我试过用这个代码： from sklearn.cluster import KMeans kmeans = KMeans(n_clusters=2, random_state=0, max_iter = 300).fit(dffinal) 我知道在这个例子中有两个类，这就是我尝试使用两个集群的原因。在4200行中，前3196行属于类，其余行属于另一个类。但是当我进行聚类时，聚类标签是随机分配的，准确率低于10%。只是想知道我的特性是否不够适合聚类，还是

浏览 0提问于2016-12-23得票数 0

1回答

在R:只对某些集群计数绘制for集群:失败

r、cluster-analysis、k-means

我正在尝试使用clusplot来可视化kmeans集群。是一个具有[0,1]值的对称相似矩阵(1087行)。由于某些原因，clusplot只会为特定的n值生成一个n集群图。对于n的其他值，它将返回以下错误： library(cluster) simmy = read.csv("reinventthewheel.csv", header=TRUE, row.names=1) disty = dist(1-simmy) kay19 <- kmeans(disty,19)$cluster par(mfrow=c(3,2)) clusplot(disty, diss=TRUE,

浏览 4提问于2014-05-07得票数 2

回答已采纳

2回答

光谱与Kmeans

clustering

是什么使光谱聚类比Kmeans聚类更好？我知道Kmeans聚类是光谱的最后一步。但是，为什么前面涉及到的谱聚类步骤使其成为一种更方便的聚类方法？

浏览 0提问于2018-08-02得票数 3

1回答

使用参数库的K-均值聚类突然没有显示结果。Cluster_analysis()，predict()，plot()

r、cluster-analysis、k-means

我正在处理一个数据集并执行一些k均值聚类。我使用了参数库和下面的命令，这些命令运行得非常顺利，直到它停止给出结果。 cluster_analysis()命令只给出输出，而predict()只给出NAs，绘图给出错误“UseMethod("principal_components")中的错误:不适用于"c('double'，‘数值’)类对象的”principal_components“方法。代码如下所示。我还附加了数据以及我过去在代码运行时获得的示例图，没有出现错误。有人能帮忙吗？ library(parameters) res_kmeans <

浏览 1提问于2022-01-31得票数 1

1回答

K-均值不会导致弯头形状

python、machine-learning、k-means

我正在尝试在提供的数据集中使用k-means，只使用有关客户端的变量。问题是8个变量中有7个是分类的，所以我对它们使用了一个热编码器。为了使用肘部方法选择理想数量的集群，我对2到22个集群运行了KMeans，并绘制了inertia_值。但它的形状一点也不像肘部，它看起来更像一条直线。我做错了什么吗？ import pandas as pd import numpy as np import matplotlib.pyplot as plt from sklearn.cluster import KMeans from sklearn import preprocessing from s

浏览 13提问于2019-11-04得票数 1

回答已采纳

3回答

如何在openCV中加速颜色聚类？

opencv、cluster-analysis、data-mining、k-means、image-segmentation

对于一个项目，我想实现一个颜色聚类算法，它用聚类的平均颜色替换相似的颜色。目前，我使用kmeans算法对整个图像进行聚类。但这需要很长的时间。有没有人知道如何使用kmeans聚类颜色直方图，这样我就可以执行这个算法了？

浏览 2提问于2012-11-29得票数 6

回答已采纳

1回答

多元正态分布样本的K均值

python、cluster-analysis、k-means

我是Python的新手。我想对由两个多变量正态分布生成的样本执行K均值聚类。我生成了样本并执行了K-means聚类，但是当我想要绘制聚类时，我得到了一个错误。应该有一些我遗漏的维度问题。下面是我的代码： mean1 = [-1, -1.5] cov1 = [[1, .2], [.2, 1]] x1, y1 = np.random.default_rng().multivariate_normal(mean1, cov1, 100).T mean2 = [1, 1.5] cov2 = [[2, .1], [.1,2]] x2, y2 = np.random.default_rng().mult

浏览 15提问于2021-05-02得票数 3

2回答

使用k均值和绘制距离矩阵时结果不一致。为什么？

我正在R Studio中做一些数据的聚类。我对K-means聚类分析和绘制层次聚类的结果有问题。所以当我使用kmeans函数时，我得到了4组10，20，30和6个观察值。然而，当我绘制树状图时，我得到了4组，但有不同数量的观察: 23，26，10和7。你有没有发现过这样的问题？下面是我的代码： mydata<-scale(mydata0) # K-Means Cluster Analysis fit <- kmeans(mydata, 4) # 4 cluster solution # get cluster means aggregate(mydata,by=list(fi

浏览 1提问于2016-03-14得票数 0

2回答

如何使用Mahout Streaming K-Means

cluster-analysis、mahout、k-means

我已经看到在mahout中有一个新的K-Means实现，称为Streaming-Kmeans，它实现了没有链式Mapper-Reducer循环的k-means聚类：我在任何地方都没有找到任何关于它的用法的文章。谁能指出它的用法有什么有用的链接，里面有一些关于如何使用它的代码示例。

浏览 2提问于2013-06-24得票数 3

1回答

在使用Kmeans之前，我是否需要从MNIST提取特征向量

python、scikit-learn、cluster-analysis、k-means、mnist

我正在用sklearn.cluster.KMeans的MNIST练习。直观地说，我只是将训练数据拟合到sklearn函数中。但我的准确率很低。我想知道我错过了什么步骤。我应该首先通过PCA提取特征向量吗？或者我应该换一个更大的n_clusters from sklearn import cluster from sklearn.metrics import accuracy_score clf = cluster.KMeans(init='k-means++', n_clusters=10, random_state=42) clf.fit(X_train) y_pre

浏览 0提问于2019-06-04得票数 0

2回答

文档及其结构的聚类

python、machine-learning、cluster-analysis、k-means、unsupervised-learning

我正在通过查看文档的结构来对文档进行聚类。我在下面的代码中提取了BERT嵌入变量X中的结构。我正在尝试的是： for num_clusters in np.arange(2,200): model = KMeans(n_clusters=num_clusters) model.fit(X) pred = model.predict(X) centers = model.cluster_centers_ cluster_sum = 0 for i , c in enumerate(centers): use = []

浏览 0提问于2020-05-13得票数 2

2回答

R使用热图绘制kmeans聚类

r、visualization、cluster-analysis、k-means、heatmap

我想用kmeans聚类一个矩阵，并能够将其绘制为热图。这听起来很微不足道，我见过很多这样的情节。我试着用谷歌搜索一下，但找不到绕过它的方法。我希望能够在这张图上画出像A或B这样的面板。假设我有一个250行5列的矩阵。我不想聚集列，只聚集行。 m = matrix(rnorm(25), 250, 5) km = kmeans(m, 10) 那么我如何将这10个集群绘制为热图呢？你的评论和帮助是非常受欢迎的。谢谢。

浏览 3提问于2011-02-23得票数 5

回答已采纳

2回答

Kmeans算法的特征缩放

python、python-3.x、machine-learning、scikit-learn、deep-learning

我知道在sklearn.cluster.KMeans下定义的KMeans算法需要进行特征缩放我的问题是，在使用KMeans之前是否需要手动完成，或者KMeans是否会自动执行功能缩放？如果是自动的，请告诉我它在KMeans算法中的什么位置，因为我在这里的文档中找不到它：顺便说一句，人们说Kmeans本身就负责功能缩放。

浏览 22提问于2019-08-15得票数 0

1回答

KMeans和创建树状图会产生相同的标签吗？

python、label、k-means、dendrogram、unsupervised-learning

我正在使用一些数据来生成一些标签，这样我就可以对我的数据进行排序，以便在有监督的学习环境中使用。我一直在生成一个树状图来可视化数据集群，但是当我使用KMeans创建标签时，只有几个标签显示它们在显示的集群中。代码： combined_array = pd.read_pickle('arrays.pickle') model = KMeans(algorithm = 'auto', copy_x = True, init = 'k-means++', max_iter = 300, n_clusters = 7,

浏览 1提问于2019-11-15得票数 0

1回答

使用聚类标签作为配色方案绘制Networkx有向图

networkx、draw、k-means、directed-graph

我需要帮助来绘制一个网络有向图。我有一个从数据帧创建的有向图，如下所示： source target weight ip_1 ip_2 3 ip_1 ip_3 6 ip_4 ip_3 7 . . . 然后，在使用Node2Vec将节点转换为嵌入之后，我使用elbow+kmeans对该图进行了聚类： https://github.com/eliorc/node2vec 最后，我得到了以下结果数据帧： source target weight source_kmeans_label target_km

浏览 19提问于2020-08-12得票数 0

回答已采纳

1回答

KMeans聚类:将结果添加到初始数据集

python、pandas、cluster-analysis、k-means

我在KMeans的帮助下定义了集群的特性： x = df_1.iloc[:, np.r_[9:12,26:78]] 并运行代码以获得6个集群： kmeans = KMeans(n_clusters = 6) kmeans.fit(x) 现在，我希望在我的初始数据集中有一个编号为(df_1("new") =.)的列:1用于集群1中的数据组，2用于集群2中的数据组，等等。我该怎么做呢？谢谢!

浏览 2提问于2021-06-19得票数 0

回答已采纳

1回答

如何在新数据上检查深度嵌入聚类？

machine-learning、deep-learning、mxnet

我正在使用mxnet ()中的DEC。虽然它默认在MNIST上运行，但我已经将数据源更改为数百个文档(考虑到mxnet可以处理路透社的数据集，这应该是非常好的) 问题是:在训练MXNET之后，我如何在新的、看不见的数据上使用它？它每次都会向我显示一个新的预测！以下是用于收集数据集的代码： vectorizer = TfidfVectorizer(dtype=np.float64, stop_words='english', max_features=2000, norm='l2', sublinear_tf=True).fit(training) X =

浏览 0提问于2018-07-03得票数 0

2回答

如何绘制一维K均值聚类

matplotlib、plot、cluster-analysis、k-means

我有一个矢量(X2)，我想调查它们可以形成的组。我已经执行了K-means分析，有两个聚类: shape X2 = (19,1) kmeans = KMeans(n_clusters=2,random_state=123) kmeans.fit(X2) label = kmeans.fit_predict(X2) print(label) [0 0 1 0 1 1 0 1 1 0 0 1 0 1 1 0 0 1 0] 现在我想画出这两个星团的散点图。有没有人能

浏览 49提问于2021-10-28得票数 1

回答已采纳

1回答

为什么当使用2D和3D数据时，侧影分数和最优聚类数会发生变化？

clustering、k-means、python-3.x、seaborn

我正在试验Kmeans聚类。我的数据(向量)是在300个维度，我正在转换为2D和3D使用PCA。现在，为了找到最佳的簇数，我使用了剪影得分。然而，对于2D，最佳的侧影得分是显示在3个集群(剪影得分= 0.45)，而在3D显示9个集群(剪影评分= 0.3861)。我想知道这是否正常？如果是，原因是什么？我应该选择什么2D或3D？同时，对2D和3D进行实验的原因也是因为我想用海运绘制3D图。

浏览 0提问于2021-01-03得票数 1

回答已采纳

1回答

完全图上的MST对它们进行聚类(因为余弦相似)

graph、nlp、cluster-analysis、minimum-spanning-tree

我需要根据它们的余弦相似性来聚类(假设作为参数k)，单词(我存储在数组列表中)。我已经将我所有的单词作为顶点存储在一个完整的、加权的、无向图(使用邻接列表)中，并将它们的余弦相似度值放在边上。据我所知，我需要使用MST (Kruskals算法)进行聚类处理。然而，由于我的图是完全图，而MST用于连通图，我有点困惑如何在完全图上使用它？还是我用完全图做错了？这是我的wordList： [directors, producers, film, movie, black, white, man, woman, person, man, young, woman, science, fictio

浏览 2提问于2018-04-28得票数 0

回答已采纳

2回答

关于KMeans错误有真实的意义吗？

machine-learning、data-mining、k-means

我试图理解滑雪板KMeans中错误的含义。在房价预测中，误差线性回归可以看作是单位平方英尺的货币差额。关于KMeans错误有真实的意义吗？

浏览 0提问于2019-07-06得票数 2

回答已采纳

3回答

Matlab: Kmeans每次给出不同的结果

matlab、k-means、feature-selection

我在matlab中对400x1000矩阵运行kmeans，由于某种原因，每当我运行该算法时，我都会得到不同的结果。下面是一个代码示例： [idx, ~, ~, ~] = kmeans(factor_matrix, 10, 'dist','sqeuclidean','replicates',20); 出于某种原因，我每次运行这段代码都会得到不同的结果？有什么想法吗？我正在使用它来识别多重共线性问题。谢谢你的帮助！

浏览 2提问于2012-08-27得票数 8

3回答

一种可视可分簇的聚类算法

machine-learning、cluster-analysis、visualization、distance、pca

在使用PCA之后，我已经在2D中可视化了一个数据集。1维是时间，Y维是第一个PCA分量。如图所示，点(A，B)之间有相对较好的分离。但不幸的是，聚类方法(DBSCAN，SMO，KMEANS，Hierarchical)不能将这些点聚类到两个聚类中。正如你在A部分看到的，有一个相对的连续性，这个连续的过程结束了，B部分开始了，与A和B之间的过去数据相比，有相当大的差距。如果您能向我介绍任何方法和算法(或从数据中设计考虑其分布的任何度量)，以便能够在不可视化的情况下在A和B之间进行分离，我将不胜感激。非常感谢。这是上图的两个PCA分量的图(第一个)。另一个是其他数据集的组件图，我也得到

浏览 3提问于2016-07-30得票数 1

9回答

聚类地理位置坐标(lat，长对)

machine-learning、python、clustering、k-means、geospatial

地理位置聚类的正确方法和聚类算法是什么？我使用以下代码对地理位置坐标进行聚类： import numpy as np import matplotlib.pyplot as plt from scipy.cluster.vq import kmeans2, whiten coordinates= np.array([ [lat, long], [lat, long], ... [lat, long] ]) x, y = kmeans2(whiten(coordinates), 3

浏览 0提问于2014-07-17得票数 66

回答已采纳

1回答

意思是得到相同的结果，但是改变类是从

python、pandas、k-means

我正在对我希望分类的图像进行一次kmeans聚类。当我运行程序时，我得到了相同的结果，期望我的颜色是一致的，这意味着same没有重复完全相同的过程。在每次执行程序时，我如何保持类相等于相同的东西？以下是两个例子。集合中的图像是kmeans聚类结果，其次是图像上的分类图。集1 第二组代码： #Set a 6 KMeans clustering kmeans = KMeans(n_clusters = 4, n_jobs = -2) #Compute cluster centers and predict cluster indices X_clus

浏览 0提问于2018-08-27得票数 0

回答已采纳

2回答

使用TSNE可视化集群

cluster-analysis、data-science

我有一个数据集，我需要以一种方式对其进行聚类和显示，其中同一聚类中的元素应该看起来更接近。该数据集基于研究研究，具有大约16行(条目)和大约50个特征。我确实同意这不是一个理想的数据集，但不幸的是，这就是目前的情况。以下是我采取的方法：在对数据集进行规范化之后，我首先对其应用了KMeans。同时，我还尝试使用TSNE将数据映射到2个维度，并将它们绘制在散点图上。根据我对TSNE的理解，该技术应该已经将相同集群中的项目放得更近了。然而，当我看散点图时，集群实际上到处都是。散点图的结果可以在这里找到：这是因为TSNE和KMeans本质上的工作方式不同吗？我是否应该只做TSNE并尝试标记集

浏览 11提问于2018-02-01得票数 1

4回答

为什么更改集群数会改变Kmeans中的情节？

r、clustering、k-means、plotting

这也许是个愚蠢的问题，但我找不到答案。我对kmeans还没有完全的数学理解，所以如果是的话，我很抱歉。我只是在想，为什么当我改变一个kmeans图中的星系团数时，我会看到一个不同的图？下面是我正在使用的代码： set.seed(1) k <- kmeans(data, centers = x) plotcluster(data, k$cluster) 我改变了x来看看情节是什么样子的。下面是x=3和x= 4的结果。我想知道，如果我只是改变集群的数量，为什么这两幅图看起来都不一样。这是因为正在显示的主组件dc1和dc2在更改x时是不同的，从而使显示的方差最大化吗？另一个快速的问题是

浏览 0提问于2019-06-24得票数 1

1回答

solr分层聚类

apache、solr、hierarchical-clustering、carrot2

我试图在Apache中启用多层集群(子集群生成)。为此，我使用SOLR集群组件，将"outputSubclusters“参数设置为true。但是，当我用JSON显示输出时，我从集群过程中接收到的对象没有显示任何子集群，这使我在这里丢失了wonder...what吗？下面是我在solrconfig.xml中的集群组件： <searchComponent name="clustering" enable="${solr.clustering.enabled:false}"

浏览 3提问于2015-10-23得票数 0

回答已采纳

1回答

聚类后从k-均值集群中获取值

python、scikit-learn、clustering、decision-trees、supervised-learning

我有一个数据集，我已经在这个数据集上运行了一个K均值算法(scikit-learn)，我想在每个集群上构建一个决策树。我可以从集群中恢复值，但不能恢复“类”值(我正在进行监督学习，每个元素可以属于两个类中的一个，我需要与数据关联的值来构建树) 示例:未经过滤的数据集： [val1 val2 class] X_train=[val1 val2] y_train=[class] 群集代码如下： X = clusterDF[clusterDF.columns[clusterDF.columns.str.contains('\'AB\'')]] y = clusterD

浏览 0提问于2018-05-31得票数 -3

1回答

R中的轮廓图

我有一组数据，其中包括:项目，关联聚类，轮廓系数。如果需要，我可以用更多的信息进一步扩充这个数据集。我想在R中生成一个轮廓图。我在这方面遇到了麻烦，因为我遇到的例子使用了内置的kmeans (或相关的)聚类函数并绘制了结果。我想绕过这一步，为我自己的聚类算法生成图，但最后我没有为plot函数提供正确的参数。谢谢。编辑数据集示例我尝试使用基于的各种参数加载dataset并将其传递给plot函数

浏览 0提问于2015-11-30得票数 10

回答已采纳

1回答

K-均值聚类解释

r、ggplot2、cluster-analysis、k-means

我有三个星系团对图"Av. mon.hrs“，"Sat. Lvl"，"Last”，并通过下面的代码找到了一个矩阵图。 library("ggplot2") # Expanded plotting functionality over "lattice" package x<-cbind(HR_left$average_montly_hours,HR_left$satisfaction_level,HR_left$last_evaluation) kmfit<-kmeans(x,3,nstart=25) # Find

浏览 0提问于2019-07-16得票数 2

3回答

如何检验无监督聚类模型输出的准确性？

clustering、k-means

我正在试着测试我的非监督K-均值聚类是否能够正确地聚集我的数据。我有一个无监督的K均值聚类模型输出(如下面的第一张照片所示)，然后使用实际的分类对数据进行聚类。 📷 下面的照片是实际分类。我试图用Python测试我的K-均值分类(上面)与实际分类相比有多好。 📷 对于我的K-表示代码，我使用的是一个简单的模型，如下所示： kmeans = KMeans(n_clusters=4, random_state=0).fit(myData) labels = kmeans.labels_ 对我来说，比较无监督的KMeans聚类模型与实际分类的效果最好的方法是什么？

浏览 0提问于2017-03-09得票数 7

回答已采纳

1回答

对数据集应用k均值聚类后，如何对聚类进行标注？

python、matplotlib、k-means

我有一个.csv格式的数据集，它看起来像-数据 x,y,z, label 2,1,3, A 5,3,1, B 6,2,2, C 9,5,3, B 2,3,4, A 4,1,4, A 我想将k均值聚类应用于上述数据集.正如我们在上面看到的，三维数据集(X)。在那之后，我想用图表中的一个特定的集群标签来可视化三维的集群。如果需要更多细节，请告知。我已经使用了二维数据集，见下文- kmeans_labels = cluster.KMeans(n_clusters=5).fit_predict(data) 绘制二维数据集的可视化图， plt.scatter(standard_embedding[:,

浏览 3提问于2022-07-15得票数 1

回答已采纳

1回答

K-Means聚类后绘制聚类

python、scikit-learn、k-means

我在一个数据集上使用了K-Means聚类，我找到了7个聚类，但我无法绘制这些聚类。请在下面找到我使用的代码： # Plot the clustered data fig, ax = plt.subplots(figsize=(10, 10)) plt.scatter(general_population_scaled[kmeans.labels == 0, 0], general_population_scaled[kmeans.labels == 0, 1], c='green', label='cluster 1') 请帮我改正生成r

浏览 75提问于2020-05-12得票数 0

2回答

pandas数据帧中kmeans损失函数的计算

python、pandas、join、cluster-analysis、k-means

我有一个包含5列的数据帧。我试图对三个变量X，Y和Z的点进行聚类，并找到kmeans聚类的损失函数。下面的代码可以解决这个问题，但是如果我用160,000行为我的实际数据帧运行它，它将永远占用您的时间！我假设它可以更快地完成。 PS:似乎sklearn中的KMeans模块没有提供损失函数，这就是为什么我要写自己的代码。 from sklearn.cluster import KMeans import numpy as np df = pd.DataFrame(np.random.randn(1000, 5), columns=list('XYZVW')) kmeans =

浏览 0提问于2017-07-18得票数 2

1回答

计算word2vec向量的层次聚类，并将结果绘制成树状图。

python、numpy、machine-learning、hierarchical-clustering、word2vec

我使用我的域文本语料库生成了一个100 D的word2vec模型，例如合并了常见的短语(再见=> good_bye)。然后我提取了1000个想要的单词向量。所以我有一个1000 numpy.array这样的： [[-0.050378,0.855622,1.107467,0.456601,...[100 dimensions], [-0.040378,0.755622,1.107467,0.456601,...[100 dimensions], ... ...[1000 Vectors] ] 这样的词语排列方式如下： ["hello","hi",&#

浏览 2提问于2017-01-04得票数 8

回答已采纳

2回答

基于Matlab的纹理分割效果改进

matlab、image-processing、textures、image-segmentation、mathematical-morphology

分割后的图片使用欧几里德距离(仅是绝对距离，而不是绝对平方) 原始纹理图片当我使用Kmeans算法和Laws纹理能量过滤器(集群质心/组=6)执行聚类时，我得到了上面的结果(图1)。改善结果的可能方法是什么？从结果可以看出，纹理没有明确的界限。扩展/erosion能以某种方式实现吗？如果是，请指导。

浏览 15提问于2013-10-28得票数 1

1回答

Apache和KMeans与scikit_learn之间的不一致结果

python、apache-spark、scikit-learn、pyspark、k-means

我正在使用PySpark对数据集执行聚类。为了找到集群的数量，我对一系列值(2,20)执行了聚类，并为k的每个值找到了k(在集群内的平方和)值。在这里我发现了一些不寻常的东西。根据我的理解，当增加簇数时，wsse会单调地减少。但结果我却不这么说。我只显示前几个集群的wsse。 Results from spark For k = 002 WSSE is 255318.793358 For k = 003 WSSE is 209788.479560 For k = 004 WSSE is 208498.351074 For k = 005 WSSE is 142573.272672 For k

浏览 1提问于2018-05-18得票数 4

回答已采纳

4回答