如何并行化KMeans？

文章/答案/技术大牛

发布

1回答

pyspark

显然它很慢，但我不能真正地并行化它。我试过使用Window和pandas_udf，但它不适用于标量函数。index, t in enumerate(types): # then I apply kmeans但是我不知道如何以可伸缩的方式做到这一点。

浏览 70提问于2021-02-11得票数 0

2回答

KMeans=KMeans用于火种的情感分析

scala、apache-spark、machine-learning、k-means、apache-spark-mllib

为此，我使用了word2vec和KMeans集群。在word2Vec中，我在100维空间中收集了20k个单词/向量，现在我正在尝试将这个向量空间聚类。当我使用默认并行实现运行KMeans时，该算法工作了3个小时！但如果采用随机初始化策略，则需要8分钟的时间。我做错了什么？我有machine机器，有4个内核处理器和16 GB内存。= new KMeans() kmeans.setInitializationMode(KMeans.K_MEANS_PARA

浏览 7提问于2016-01-05得票数 2

回答已采纳

1回答

KMeans并行处理失败

python、parallel-processing、scikit-learn、k-means、gil

我把它设成这样：km = KMeans(n_clusters=500, max_iter = 1, n_init=1, init

浏览 2提问于2014-10-16得票数 2

1回答

Apache火花MLLib -运行带IDF向量的KMeans . Java堆空间

scala、apache-spark、out-of-memory、k-means、apache-spark-mllib

无论我使用的并行化程度如何(通过合并函数)，KMeans.train总是在下面返回一个OutOfMemory异常。对如何解决这个问题有什么想法吗？:422)at org.apache.spark.mllib.clusteri

浏览 0提问于2014-10-19得票数 4

4回答

在星火中使用剪影聚类

machine-learning、apache-spark、cluster-analysis、distributed-computing、k-means

我希望在星火中使用KMeans聚类时，使用剪影来确定k的最优值。有什么最佳的方法并行化吗？即使其具有可伸缩性

浏览 4提问于2015-08-06得票数 10

回答已采纳

3回答

R中的并行k-均值

r、parallel-processing、parallel-foreach

我试图理解如何使用R并行化我的一些代码，因此，在下面的示例中，我想使用k-方法来使用2，3，4，5，6个中心对数据进行聚类，同时使用20个迭代。以下是代码：library(BLR) kmeans( X[, nstart=i )我们如何

浏览 3提问于2013-12-06得票数 6

回答已采纳

1回答

如何分发小批量kmeans (scikit-learn)的处理？

python、machine-learning、multiprocessing、scikit-learn

MBK比KMeans更快，但在大样本集上，我们希望它将处理分布在多处理(或其他并行处理库)上。 MKB的部分拟合是答案吗？

浏览 0提问于2013-06-12得票数 6

1回答

计算大数据的不同矩阵

r、cluster-computing、r-daisy

此外，如果有人能帮助我在并行内核中运行这个函数，那也是很棒的。下面可以找到计算虹膜数据集上的不同矩阵的函数：d <- daisy(iris)

浏览 1提问于2017-12-01得票数 3

1回答

来自并行包的clusterMap -对多个参数进行迭代

r、parallel-processing、k-means

我在大型数据集(636,688行x7列)上执行k-方法，因此转向并行化。我想迭代的中心数目，并包括一个例子，我试图迭代超过2至5个中心，每个2次。iris.cluster <- iris[,-5] worker <- function(data, nclus, nstarts){总结已经告诉我有些地方不对劲： Length Class

浏览 1提问于2014-02-11得票数 2

回答已采纳

1回答

寻找火花中的“for循环”替代方案

r、apache-spark、for-loop、sparklyr

使用for循环来调优参数并不像预期的那样并行化，而且花费了大量的时间。有什么可以替代的方法来并行工作吗？id_wss <- NA id_cluster <- ml_kmeans(id_ip4, centers = i, seed = 1234, features_col

浏览 0提问于2018-04-25得票数 2

1回答

如何在星火中的groupby之后运行RDD操作？

apache-spark、pyspark、bigdata

本质上，我会先做一个groupby，然后运行KMeans。我看到了两个解决办法，但我希望有一个更好的解决办法。1)手动遍历控制器中的所有数千名用户(当事情变得更大时，可能会有数百万人)，并为每个用户运行kmeans。 2)在控制器中执行群，然后在地图中运行由外部库提供的非并行的方法。

浏览 4提问于2016-05-09得票数 1

回答已采纳

3回答

如何保存Accord.Net K-Means的集群结果以供重用？

c#、k-means、accord.net

我试图保存Accord.Net K-Means的集群结果，这样我就不必每次运行程序时都要重新计算。

浏览 9提问于2015-09-23得票数 4

回答已采纳

1回答

正在尝试并行运行sklearn KMeans的多个实例

python、scikit-learn、multiprocessing、k-means

我正在尝试并行运行Kmeans (from sklearn)的多个实例。我有以下代码： with concurrent.futures.ProcessPoolExecutor() as executor: for f in concurrent.futures.as_completed(k

浏览 18提问于2020-08-06得票数 0

2回答

python中的加权k-means

python、k-means

这如何在python中实现呢？

浏览 6提问于2018-06-11得票数 0

1回答

如何在SPSS中可视化运行kmeans算法的效果？

visualization、k-means、spss

如何在SPSS中可视化运行kmeans算法的效果？我真的看不到任何额外的图形选项，但我想我已经看到了一些在SPSS中制作的kmeans结果的可视化，它似乎专门用于kmeans过程。我想要可视化集群中心的值。

浏览 0提问于2013-05-21得票数 1

1回答

如何将params传递给ML Pipeline.fit方法？

python、apache-spark、pyspark、apache-spark-mllib、apache-spark-ml

random'}, {'k':5,'initMode':'kmeans||''initMode':'kmeans||'},{'k':7,'initMode&#x

浏览 2提问于2016-02-07得票数 4

回答已采纳

2回答

具有多处理能力的Sklearn

python、parallel-processing、scikit-learn、k-means

我不明白n_jobs是如何工作的：k_means = sklearn.cluster.KMeans(n_clusters=10, max_iter=3, n_jobs=1).fit(data)使用n_jobs =(我有8个核心) 对于并行化是如何工作的，有什么我不明白的吗？

浏览 0提问于2018-12-07得票数 0

回答已采纳

1回答

如何加快R中单行码的计算速度？

r、cluster-analysis、parallel-processing

起初，我认为并行化可能是一个很好的解决方案，但后来有人告诉我，对单个调用进行并行化是不可能的。NbClust)) nc = clusterApply(cl,2,function(min.nc) fun=NbClust(mydata,min.nc=min.nc,max.nc = 8,method = "kmeans

浏览 1提问于2016-11-15得票数 0

回答已采纳

1回答

MATLAB是否支持有监督机器学习算法的并行化？替代方案？

matlab、parallel-processing、data-mining、multicore、rapidminer

AFAIK RapidMiner并行处理扩展只适用于企业版--不幸的是，我仅限于社区版。MATLAB或其他库是否支持数据挖掘算法的并行化？

浏览 0提问于2015-06-12得票数 0

1回答

为什么这个地块是平坦的？

python、matplotlib

我正在尝试可视化一个有3列的数据帧，如下所示： Recency Frequency Revenue 382 130144280.48 383 20 126129.37 为了在2d中可视化，我正在应用PCA变换，并得到以下结果： sklearn_pca = PCA(n_components下面的代码用于可视化K-means聚类和数据，但我得到的是一个扁平图。= KMeans(n_clusters=3, random_state=0)

浏览 15提问于2020-01-28得票数 0

回答已采纳

点击加载更多