适用于相同用户的kmeans算法_Kmeans算法的特征缩放_python中Kmeans算法的限制 - 腾讯云开发者社区

r、cluster-analysis、k-means

我正在尝试使用clusplot来可视化kmeans集群。是一个具有[0,1]值的对称相似矩阵(1087行)。由于某些原因，clusplot只会为特定的n值生成一个n集群图。对于n的其他值，它将返回以下错误： library(cluster) simmy = read.csv("reinventthewheel.csv", header=TRUE, row.names=1) disty = dist(1-simmy) kay19 <- kmeans(disty,19)$cluster par(mfrow=c(3,2)) clusplot(disty, diss=TRUE,

浏览 4提问于2014-05-07得票数 2

回答已采纳

1回答

如何确定弯头光滑时的最佳弯头

python、k-means

流畅的图表，无法确定最佳的kmeans数，如何处理这样的问题？谢谢 wcss = [] for i in range(1, 40): kmeans = KMeans(n_clusters = i, init = 'k-means++', random_state = 42) kmeans.fit(df) wcss.append(kmeans.inertia_)

浏览 14提问于2019-07-08得票数 0

1回答

如何在成功地对音频文件应用kmeans群集之后，将数据返回到两个单独的音频文件中？

clustering、k-means

好的，我编写了一个非常简单的python代码来读取wav文件，获取mfcc特性，然后在这些特性上使用kmeans集群。hello.wav文件有两个不同的人同时打招呼，我想输出两个不同的声音 from python_speech_features import mfcc from scipy.io import wavfile from sklearn.cluster import KMeans sampfreq, data = wavfile.read('hello.wav') mfcc_feat = mfcc(data,sampfreq) kmeans = KMeans(

浏览 0提问于2018-05-19得票数 2

回答已采纳

1回答

在我的数据上使用Kmeans。

algorithm、cluster-analysis

我想我理解kmeans算法是如何工作的，但我在用我的数据将其建模为一种格式时遇到了很多问题。我正在寻找一种方法，以获得最相似的游戏基于我的输入。示例： Original_Game has n Similar_Games. Similar_Games has n Genres, Themes, Tropes. Original_Game1 has n Similar_Games. Similar_Games has n Genres, Themes, Tropes. 我想kmeans可以告诉我哪些Similar_Games与Original_Game和Original_Game1最

浏览 1提问于2012-06-17得票数 0

1回答

如何为OpenCV和EPS选择合适的值？

c++、opencv、k-means、unsupervised-learning

我正在尝试使用OpenCV中的k均值函数将36000幅样本图像预分类为100+类(以减少我为监督学习准备训练数据的工作量)。在这个函数中，有两个我并不真正理解的参数：cv::TermCriteria::EPS和cv::TermCriteria::COUNT. cv::kmeans(dataset.t(), K, kmean_labels, cv::TermCriteria( cv::TermCriteria::EPS + cv::TermCriteria::COUNT, 10, 1.0), 3, cv::KMEANS_PP_CENTERS, kmean_centers)

浏览 0提问于2016-01-07得票数 0

回答已采纳

1回答

我可以用自定义的距离度量来表示kmeans函数吗？

r、k-means

我正在使用函数kmeans，从K-均值聚类。我有一个特殊的数据，需要一个自定义距离测量函数和自定义平均函数。我能把(1)自定义距离度量函数和(2)自定义平均函数放到kmeans函数中吗？它似乎只使用欧几里德测度。

浏览 2提问于2016-09-23得票数 0

回答已采纳

2回答

如何在邮件中找到集群

python、machine-learning、scikit-learn、cluster-analysis、data-mining

我正在做一个机器学习项目，我有一个包含电子邮件中出现的单词频率的数据集。我需要找到每个邮件所属的集群。我所做的是将一个数据加载到pandas数据帧中，然后我训练了一个KMeans算法。数据集如下所示： [ { "adwords": 2, "google": 4, "ads": 2, "facebook": 1, "shyam": 2 }, { "facebook": 4,

浏览 0提问于2018-09-15得票数 0

2回答

为什么我们在kmeans.fit聚类方法中使用函数？

machine-learning、scikit-learn、cluster-analysis

我正在使用视频中的kmeans聚类技术，但我不明白为什么我们在kmeans聚类中使用.fit方法？ kmeans = KMeans(n_clusters=5, random_state=0) kmeans.fit(X) //why we use this fit method here

浏览 0提问于2019-07-06得票数 3

回答已采纳

3回答

如何以特定的明显模式强制对数据进行聚类？

python、scikit-learn、data-science

我有一个很大的一套‘车速对发动机RPM’值的车辆。我试着预测车辆在每一档上所花的时间。我在dataset上运行了K-Means聚类，得到了以下结果：显然，我的算法未能捕捉到明显的模式。我想强迫K均值(或者其他的聚类算法)沿着六条斜线对数据进行聚类。相关代码片段： import numpy as np import pandas as pd from matplotlib import pyplot as plt from sklearn.cluster import KMeans plt.rcParams['figure.figsize'] = (16, 9) pl

浏览 0提问于2018-09-04得票数 2

回答已采纳

1回答

意思是得到相同的结果，但是改变类是从

python、pandas、k-means

我正在对我希望分类的图像进行一次kmeans聚类。当我运行程序时，我得到了相同的结果，期望我的颜色是一致的，这意味着same没有重复完全相同的过程。在每次执行程序时，我如何保持类相等于相同的东西？以下是两个例子。集合中的图像是kmeans聚类结果，其次是图像上的分类图。集1 第二组代码： #Set a 6 KMeans clustering kmeans = KMeans(n_clusters = 4, n_jobs = -2) #Compute cluster centers and predict cluster indices X_clus

浏览 0提问于2018-08-27得票数 0

回答已采纳

2回答

新的预测标签总是在is之后随着PCA而变化。

python、k-means、pca

我正面临一个问题，那就是在PCA之后，我试图进行Kmean聚类，当我想对一个新的数据进行聚类时，预测标签总是在变化(即2到3到1.) #X is pre-defined dataset pca = PCA(n_components=2) reduced_data = pca.fit_transform(X) kmeans = KMeans(n_clusters=4) kmeans.fit_transform(reduced_data) for filename in os.listdir(directoryName):

浏览 5提问于2020-08-25得票数 0

回答已采纳

1回答

有没有可能估计一下kmean什么时候结束呢？

performance、cluster-analysis、k-means

对于这个奇怪的问题，我很抱歉，但问题是我正在使用运行kmeans。我给自己得到了大约9,000,000个向量，128个维度，我要得到1,000,000个质心。它运行在24核CPU上，现在已经运行了好几个小时。这是我第一次使用如此庞大的数据量运行kmeans，我想知道它什么时候会结束，而不是等到它完成后再知道。所以问题是，有没有可能近似地估计kmean什么时候结束？

浏览 0提问于2012-12-30得票数 2

回答已采纳

1回答

不管聚类中心是如何初始化的，Kmeans算法都能保证收敛吗？为什么？

machine-learning、artificial-intelligence、data-science、k-means、unsupervised-learning

K-means是一种随机初始化聚类中心的迭代算法。不管聚类中心是如何初始化的，Kmeans算法都能保证收敛吗？为什么？

浏览 49提问于2020-05-07得票数 2

1回答

在使用KMeans时为每个质心获得两个以上的协调

machine-learning、k-means、unsupervised-learning

我是机器学习的新手，我用的是 from sklearn import datasets iris=datasets.load_iris() 来了解KMeans。所以我使用KMeans来拟合数据，如下所示 kmeans=KMeans(n_clusters=1,random_state=42).fit(iris['data']) print(kmeans.cluster_centers_) 我看到的是，我得到了4个协调，而不是2个。 [5.84333333 3.05733333 3.758 1.19933333] 我通过这个来了解KMeans，但是本文也用两个协调器来演示。

浏览 3提问于2020-08-24得票数 0

回答已采纳

3回答

Matlab: Kmeans每次给出不同的结果

matlab、k-means、feature-selection

我在matlab中对400x1000矩阵运行kmeans，由于某种原因，每当我运行该算法时，我都会得到不同的结果。下面是一个代码示例： [idx, ~, ~, ~] = kmeans(factor_matrix, 10, 'dist','sqeuclidean','replicates',20); 出于某种原因，我每次运行这段代码都会得到不同的结果？有什么想法吗？我正在使用它来识别多重共线性问题。谢谢你的帮助！

浏览 2提问于2012-08-27得票数 8

1回答

针对以下混合变量数据的KMeans聚类

k-means、categorical-data

有人能帮我解决这个问题吗？我正在学习KMeans集群的概念。如果变量是连续的，我知道如何聚类。但此数据集包含分类/离散变量，如性别和邮政编码。 Sno Age Gender Zip Salary 1 26 0 9822 100 2 38 1 9822 700 3 19 1 9822 100 4 64 0 9810 2500 5 53 1 9810 1200 6 75 1 9810 1800 7 19 0 9822 75 8 36 1 9822 350 9

浏览 3提问于2016-09-12得票数 0

回答已采纳

3回答

预测方法的意思是，它是如何工作的，它在做什么？

python、scikit-learn、k-means

我一直在玩sklearn的k均值聚类类，我对它的预测方法感到困惑。我在虹膜数据集上应用了如下模型： X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42) pca = PCA(n_components = 2).fit(X_train) X_train_pca = pca.transform(X_train) X_test_pca = pca.transform(X_test) kmeans_pca = KMeans(n_clusters=3).fit(X_tr

浏览 11提问于2022-07-04得票数 2

回答已采纳

4回答

如何在scikit学习中获取模型属性(而不是超参数)

machine-learning、scikit-learn、clustering

如何获得模型属性列表(不是传递给Estimator类的超参数)？前任： kmeans = KMeans(n_clusters=5) kmeans.fit(X) kmeans.labels_ 如何从模型对象(以_结尾)获取像labels_这样的属性的列表？

浏览 0提问于2020-07-10得票数 2

回答已采纳

1回答

聚类算法在MapReduce中的结合

java、algorithm、hadoop、k-means

对于我的大学项目，我最初想在MapReduce上实现一种组合聚类算法。我已经用完KMeans了。现在我的问题是：在MapReduce上，还能将其他聚类算法与Kmeans结合起来吗？如果是，哪种算法和程序是什么？如果不可能合并，如何增强现有的KMeans？

浏览 1提问于2015-04-27得票数 2

回答已采纳

1回答

如何提高成绩？我应该移除这些柱子吗？

python、deep-learning、k-means

我使用这个数据集，目标列是最后一个'DEATH_EVENT'，我把最后一个分隔开了。我正在使用KMeans来计算命中和失误的次数。结果非常糟糕，我想我应该删除一些列，或者创建一个删除的循环。你怎么做？ import numpy as np import matplotlib.pyplot as plt from sklearn.model_selection import train_test_split X = np.genfromtxt('heart_failure_clinical_records_dataset.csv', delimiter=

浏览 0提问于2022-05-25得票数 0

1回答

三维坐标上的DBSCAN找不到集群

coordinates、cluster-analysis、dbscan

我试图在1428点的三维坐标DataFrame中聚集点。星系团是相对平坦的平面，是拉长的云。它们是非常明显的集群，所以我希望尝试无监督的集群(不包括预期的集群数量) KMeans没有正确地将它们分开，并且确实需要集群的数量：。数据如下： 5 6 7 0 9207.495280 18922.083277 4932.864 1 5831.199280 3441.735280 5756.326 2 8985.735280 12511.719280 7099.844 3 8

浏览 2提问于2021-01-26得票数 2

回答已采纳

2回答

支持GPU的高维数据上更快的Kmeans聚类

tensorflow、machine-learning、pyspark、cluster-analysis、k-means

我们一直在使用Kmeans对日志进行聚类。一个典型的数据集有10磨。具有100k+特性的样本。为了找到最优的k-我们并行运行多个Kmeans，并选择一个有最好的剪影得分。在90%的病例中，我们的k值在2到100之间。目前，我们正在使用scikit-学习。对于这样的数据集，集群在具有32个核心和244个内存的ec2实例上大约需要24小时。我一直在研究一个更快的解决方案。我已经测试过的是： still + Mean -稍微好一点( k=1024 -> ~13h)，但仍然很慢。库-不支持稀疏矩阵表示。它将需要~3 3TB将该数据集表示为内存中的密集矩阵。 Tensorfl

浏览 5提问于2019-10-11得票数 4

回答已采纳

2回答

Python accuracy_check给出了翻转分类的0结果

python、scikit-learn、classification

我使用的是来自accuracy_check的sklearn.metrics 我的分类测试数据标签是为了 [1 1 0 0 0 1 1] Kmeans给出了标签 [0 0 1 1 1 0 0] 基本上，Kmeans的分类是正确的，但他的标签被翻转了。accuracy_check的准确率为0%。我的代码 X_full, y_full = make_blobs(n_samples=nsamples, centers=2, n_features=no_feat,

浏览 2提问于2019-09-23得票数 3

回答已采纳

3回答

kmeans算法的计算复杂度

algorithm、complexity-theory

我想根据复杂度理论来计算kmeans算法的复杂度。我已经从维基百科上读到了kmeans的标准算法：

浏览 2提问于2014-08-18得票数 0

2回答

如何在python中按条件应用群集？

python、k-means、unsupervised-learning

我有一个大约50 000个样本的数据集，它包含两个特性，第一个是二进制的，第二个是连续的。我想使用python来使用聚类方法来创建两个类别。 PS：我无法指定第一个类别何时被严格限制以制定规则。我需要一个大多数数字= 0的类别，也就是说，我的目标是在我的数据中有一部分我必须消除它。它有大部分col_A值为0，我需要删除它们，但我不知道它们限制在哪里我的数据看起来是： id Col_A Col_B 1 0 2 2 0 3 3 1 25 4

浏览 0提问于2019-05-16得票数 1

3回答

当我们对数据进行聚类时，我们如何检查TSNE结果是否真实？

python、cluster-analysis、pca、tsne

我正在应用TSNE进行降维。我有几个特性，我减少到2个功能。之后，我使用Kmeans对数据进行聚类。最后，我使用海运绘制聚类结果。要导入TSNE，我使用： from sklearn.manifold import TSNE 要应用TSNE，我使用： features_tsne_32= TSNE(2).fit_transform(standarized_data) 在那之后，我用Kmeans： kmeans = KMeans(n_clusters=6, **kmeans_kwargs) kmeans.fit(features_tsne_32) km_tsne_32 = kmeans.predi

浏览 12提问于2021-05-24得票数 0

回答已采纳

1回答

为什么在使用K-Means聚类时，我的数据点不在正确的准确集群中？

python、machine-learning、scikit-learn、k-means、sklearn-pandas

我使用K均值聚类绘制了一些数据点。屏幕截图可以在"https://imageshack.com/i/pomMJXMkj“上找到。当我可视化这些数据点时，可以清楚地看到许多点不在它们各自的集群中，这个绿色的点是其中一个远离其质心的点，显然非常接近蓝色质心。根据K-Means算法，该点被添加到具有最近质心的聚类中。但为什么这里不是这样呢？下面提到了以下可视化的代码，数据集的链接是"https://github.com/Vivek-Nimmagadda/Player-Prediction-Using-Python/blob/master/Bowlers/Bowlers.csv&#

浏览 17提问于2019-05-02得票数 0

1回答

在这种情况下，有什么更好:分类还是聚类？

classification、cluster-analysis

我从不同的来源( FB、Twitter、Linkedin )收集数据，然后用结构化格式制作这些数据。因此，现在我有一个包含10000行(10000个人)的csv文件，相关的数据是关于他们的名字、年龄、兴趣和购买习惯。我真的被困在这一步:分类或聚类。对于分类，我实际上没有预定义的类或模型供用户对它们进行分类。对于聚类:我开始计算相似性和KMeans，但仍然无法得到我想要的结果。在进入协作过滤的下一步之前，我如何决定选择什么呢？

浏览 2提问于2019-05-08得票数 0

回答已采纳

1回答

如何以相似度为衡量标准进行聚类？

cluster-analysis、cosine-similarity

我读过关于球形kmeans的文章，但我没有遇到一个implementation.To是清楚的，相似性很简单，两个文档单位向量的点积。我读到过标准k means使用距离作为度量。指定的距离是否与坐标几何sqrt((x2 -x1)^2 + (y2-y1)^2)中的矢量距离相同？

浏览 2提问于2012-07-19得票数 1

2回答

基于K均值的图像分割

matlab、debugging

当我在Matlab 2012a中执行以下命令时 centroids=kmeans(imread('image.jpg'),4); 我得到以下错误： Error using + Integers can only be combined with integers of the same class, or scalar doubles. Error in kmeans>distfun (line 659) D(:,i) = D(:,i) + (X(:,j) - C(i,j)).^2; Error in kmeans (line 273)

浏览 1提问于2013-06-29得票数 1

回答已采纳

1回答

如何使用KMeans断言数据集具有噪声？

python、python-2.7、machine-learning、scikit-learn、k-means

我偶然看到一份旧报纸上的摘录，如果需要的话，我们可以使用KMeans作为断言这个数据集有噪声的方法，从而证明我们的分类器工作得和预期的一样好。在网上搜索解决方案后，我发现没有提到这种方法。这是如何做到的呢？如何调整此通用KMeans代码以断言此数据集包含噪声？从中提取的代码 print(__doc__) # Code source: Gael Varoqueux # Modified for Documentation merge by Jaques Grobler # License: BSD 3 clause import numpy as np import pyla

浏览 6提问于2014-03-11得票数 3

回答已采纳

1回答

Kmeans Spark ML

scala、apache-spark、apache-spark-ml

我想使用Spark ML执行KMeans。输入是libsvm数据集： val spark = SparkSession.builder.master("local").appName("my-spark-app").getOrCreate() // Start time //val intial_Data=spark.read.option("header",true).csv("C://sample_lda_data.txt") val dataset = spark.read.format("libsvm&

浏览 1提问于2017-01-18得票数 0

1回答

在使用标志KMEANS_USE_INITIAL_LABELS时，在OpenCV C++ kmeans()中有没有/如何解决这个错误？

c++、opencv、xdebug、k-means、flags

当我在OpenCV++ kmeans (参见示例代码)中使用此标志时，该函数根本不会更改标签。使用KMEANS_RANDOM_CENTERS或KMEANS_PP_CENTERS确实可以，只有当我使用这个标志时，问题才会出现。增加尝试次数不会改变任何内容。我正在使用OpenCV版本3.45 (不允许更高版本)和Visual Studio Community 17来编译这段代码。(未指定C++标准。) int main() { //voxelReconstruct(); vector<Point2f> ground_voxels; for (int i =

浏览 0提问于2019-03-10得票数 0

1回答

K-指返回非排他性集群的Mahout

cluster-analysis、k-means、mahout

在我的数据中，我的用户有一个喜欢列表，我已经将这些相似的内容转储到每个用户的单个文件中，并希望对它们进行聚类。除了输出在多个集群中有相同的相似之处外，一切都正常工作。我的理解是k手段应该是排他性的。我想问题可能在于我是如何转储数据的。在我可以写一个自定义令牌之前，我已经暂时没有空格的所有的喜欢。下面是我正在运行的内容(从红宝石脚本)。 system("#{MAHOUT_CMD} seqdirectory -c UTF-8 -i data/users -o data/kmeans/converted") system("#{MAHOUT_CMD} seq2sparse -

浏览 1提问于2011-05-14得票数 2

1回答

评估Hadoop性能所需的数据大小

docker、hadoop、bigdata

我正在使用Docker容器在一台机器上运行带有3个datanodes的Hadoop。我已经在有200个数据点的小型模拟数据集上运行了一个KMeans算法。由于Hadoop的开销，这个过程需要很长的时间，大约2到3分钟，而在R中本地运行kmeans则需要几秒钟。我想知道我的数据集对于Hadoop来说有多大，超过了非分布式方法，如果这是可能的话，因为我在单机上运行所有的节点。

浏览 0提问于2019-11-08得票数 0

回答已采纳

2回答

将部分划分为类: jenks vs kmeans

r、intervals

我想将向量(长度约为10^5)划分为五个类。对于软件包classIntervals的函数classInt，我想使用style = "jenks"自然中断，但这要花费大量的时间，即使向量要小得多，也只有500个。设置style = "kmeans"几乎是瞬间执行的。 library(classInt) my_n <- 100 set.seed(1) x <- mapply(rnorm, n = my_n, mean = (1:5) * 5) system.time(classIntervals(x, n = 5, style = "jenk

浏览 5提问于2011-03-14得票数 15

1回答

地理位置聚类

geolocation、location、cluster-analysis、k-means、dbscan

我有一个客户位置流数据，我需要分析和检查每个事件，如果位置是他通常访问的位置或不是，并生成实时警报，如果不是他经常访问的位置。我在寻找各种聚类算法，但找不到一个好的‘实时’的。 Kmeans对中心数的要求太严格了。DBSCAN很重，不确定它是否足够快来实时响应... 你能推荐一个适合实时流处理的吗？

浏览 0提问于2016-03-03得票数 0

1回答

在Matlab和Python环境下，具有初始质心的Kmeans给出了不同的输出。

python、matlab、cluster-analysis、k-means

在Matlab和Python环境中，Kmeans的输入如下： input = [1.11, 0.81, 0.61, 0.62, 0.62, 1.03, 1.16, 0.44, 0.42, 0.73, 0.74, 0.65, 0.59, 0.64, 0.98, 0.89, 0.62, 0.95, 0.88, 0.60, 0.61, 0.62, 0.62, 0.64, 0.98, 0.90, 0.64] Matlab: [idx, C] = kmeans(input',3,'Start',[0.3;0.9;1.5]); 输出 C = [0.596, 0.825, 1.035

浏览 1提问于2020-10-07得票数 2

回答已采纳

2回答

K-均值输入应该包含唯一值还是所有值(也是重复的)？

algorithm、machine-learning、cluster-analysis、k-means

我正在用kmeans实现对我的一维数据进行聚类。虽然有像Jenks中断和Fishers对一维数据的自然中断这样的方法，但我仍然选择使用kmeans。我的问题是，如果我只对数据点列表中的唯一值进行聚类，或者使用所有数据点(重复)，会有什么区别。什么是明智的？

浏览 3提问于2014-05-28得票数 1

回答已采纳

1回答

得到了与Accord.Net K-均值分类不一致的结果。

cluster-analysis、k-means、c#-5.0、accord.net、multilabel-classification

我有一个测试程序，没有给出一致的结果Accord.Net K-均值. 随函附上一个可在Visual 2013中运行的可重复测试程序。该程序是一个控制台应用程序，要复制需要引用的结果： Accord.MachineLearning Accord.Statistics, 来自Accord.Net 2.15库。当我运行程序几次时，每次都得到不同的结果。该程序使用经典的Fisher Iris数据集。数据集有150行，我将数据分成120行训练数据和30行测试数据。当我运行这个程序时，我可能会得到26 / 30正确的分类。再运行一次可能会产生2/ 30正确的结果。例如： Number c

浏览 1提问于2015-05-06得票数 1

2回答

在K-Means算法中使用绝对皮尔逊相关性作为距离(MATLAB)

matlab、cluster-analysis、data-mining、k-means

我需要使用相关距离进行一些聚类，但我需要绝对皮尔逊距离，而不是使用定义为d=1-r的内置“距离”“相关性”。在我的应用程序中，反相关的数据应该获得相同的集群ID。现在，当使用kmeans()函数时，我得到了高度反相关的质心，我希望通过组合它们来避免这种情况。现在，我对matlab还不是很熟练，在阅读kmeans函数时遇到了一些问题。可以为我的目的编辑它吗？示例：当使用相关距离作为度量时，第1行和第2行应该获得相同的集群ID。我做了一些尝试来编辑内置的matlab函数( open kmeans- >第775行)，但奇怪的是-当我更改距离函数时，我得到了一个有效的距离矩阵，但错误

浏览 1提问于2014-01-24得票数 3

1回答

确定K-平均簇数给定的弯头，轮廓图和间隙统计图( R)？

r、machine-learning、geolocation、cluster-analysis、k-means

我对机器学习和k均值算法完全陌生.在搜索了相当多的内容之后，我已经确定，当试图为k-均值找到正确的k值时，我可以使用肘部、剪影或Gap统计方法。问题是每个图表给我的输出有很大的不同。数据是为一个用户的位置与纬度和经度和缩放没有什么影响，因为所有的位置实际上是在相同的50英里半径。这是我在R中使用的代码： #Determining the right number of clusters for each user beginning with UserId = 2949 la <- user2949$Latitude lo<-user2949$Longitude p &l

浏览 0提问于2018-03-06得票数 0

1回答

K-方法中缺少的簇

python、scikit-learn、cluster-analysis、k-means

我试着用k均值算法来分析一个数据集，在python中使用scikit-learn。有没有人遇到过比所要求的更少的集群的问题？用输入 from sklearn.cluster import KMeans kmeans = KMeans(n_clusters=4) 我的样本只在群集0，1和2中，第3组从未出现。当最后有一个空的集群时，算法难道没有意识到它可以作为新的集群(-center)接受任何样本吗？

浏览 3提问于2022-07-09得票数 0

1回答

K表示R中的聚类算法

我试图在犯罪数据集上实现r中的kmeans算法，并希望使用kmeans.ani()函数在迭代期间查看集群。然而，kmeans算法产生的中心与图中的聚类不匹配。我也尝试过使用set.seed()函数。 > set.seed(5) > fit<-kmeans(mydata,5) > set.seed(5) > kmeans.ani(mydata,5) > fit[2] $centers Murder Rape Kidnapping.and.Abduction Dacoity 1 2712.33333 2183.0000

浏览 5提问于2017-07-03得票数 0

1回答

将KMeans应用于大熊猫DataFrame

python、pandas、k-means

#KMEANS import collections X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.002) kmeans=KMeans(n_clusters=2) kmeans.fit(X_train) labels = kmeans.predict(X_test) //X and y in train_test_split stands for: X=newTotalDataset.drop('identifier',axis=1) y=newTotalDataset[&#

浏览 0提问于2018-06-14得票数 0

回答已采纳

1回答

使用python进行无监督文本分类(聚类)的最佳算法是什么--学习？

python、k-means、text-classification、unsupervised-learning

我尝试过CountVectorizer + KMeans，但是我不知道集群的数量。当我使用KMeans方法时，计算中的集群数花费了很多时间。NMF还需要事先确定组件的数量。

浏览 6提问于2017-05-11得票数 2

2回答

Kmeans算法的特征缩放

python、python-3.x、machine-learning、scikit-learn、deep-learning

我知道在sklearn.cluster.KMeans下定义的KMeans算法需要进行特征缩放我的问题是，在使用KMeans之前是否需要手动完成，或者KMeans是否会自动执行功能缩放？如果是自动的，请告诉我它在KMeans算法中的什么位置，因为我在这里的文档中找不到它：顺便说一句，人们说Kmeans本身就负责功能缩放。

浏览 22提问于2019-08-15得票数 0

2回答

KMeans=KMeans用于火种的情感分析

scala、apache-spark、machine-learning、k-means、apache-spark-mllib

我试着写一个基于火花的情感分析程序。为此，我使用了word2vec和KMeans集群。在word2Vec中，我在100维空间中收集了20k个单词/向量，现在我正在尝试将这个向量空间聚类。当我使用默认并行实现运行KMeans时，该算法工作了3个小时！但如果采用随机初始化策略，则需要8分钟的时间。我做错了什么？我有machine机器，有4个内核处理器和16 GB内存。 K ~= 4000 maxInteration为20 var vectors: Iterable[org.apache.spark.mllib.linalg.Vector] = model.getVectors.map(

浏览 7提问于2016-01-05得票数 2

回答已采纳

1回答

文本数据的K均值聚类

r、dataset、clustering、k-means、rstudio

我有一个关于犯罪的大型原始数据集，我想使用k-方式对数据进行聚类，但是，当我输入以下代码时会出现一个错误： Rawdata.3means <- kmeans(Rawdata, centers = 3). 错误： Error in kmeans(Rawdata, centers = 3) : more cluster centers than distinct data points. In addition: Warning message: In storage.mode(x) <- "double" : NAs introduced by coercion

浏览 0提问于2019-02-22得票数 1

2回答

Python:如何使用k-means算法比较聚类之间的相似性？

python、cluster-analysis、k-means

我对同一事件有两个观察结果。假设是X和Y。我认为应该有nc集群。我正在使用sklearn进行集群。 x = KMeans(n_clusters=nc).fit_predict(X) y = KMeans(n_clusters=nc).fit_predict(Y) 有没有一个度量标准可以让我比较x和y：也就是说，如果集群x和y相同，这个度量标准就是1。

浏览 1提问于2016-05-14得票数 0