我可以使用k均值聚类来对各种空间模式进行分类吗？

algorithm、cluster-analysis、data-mining、k-means

我想知道k均值聚类算法是否能做分类？如果我做了一个简单的k-均值聚类。假设我有很多数据，我使用k-均值聚类，然后得到2簇A，B，质心的计算方法是欧氏距离。 A组在左侧。 B组在右侧。所以如果我有一个新的数据。我该怎么办？再次运行k-均值聚类算法，并能得到新的数据属于哪个聚类？记录最后一个质心，用欧氏距离来计算，确定新的数据是否属于？其他方法？

浏览 5提问于2014-03-10得票数 22

回答已采纳

3回答

如何检验无监督聚类模型输出的准确性？

clustering、k-means

我正在试着测试我的非监督K-均值聚类是否能够正确地聚集我的数据。我有一个无监督的K均值聚类模型输出(如下面的第一张照片所示)，然后使用实际的分类对数据进行聚类。 📷 下面的照片是实际分类。我试图用Python测试我的K-均值分类(上面)与实际分类相比有多好。 📷 对于我的K-表示代码，我使用的是一个简单的模型，如下所示： kmeans = KMeans(n_clusters=4, random_state=0).fit(myData) labels = kmeans.labels_ 对我来说，比较无监督的KMeans聚类模型与实际分类的效果最好的方法是什么？

浏览 0提问于2017-03-09得票数 7

回答已采纳

2回答

K-均值和LDA用于文本分类:如何测试准确性？

clustering、k-means、lda、text-classification

我有很多推文，我想根据它们的相似性进行分类。不幸的是，我不太熟悉文本分类和nlp，所以我必须阅读大量的文件，然后才有一个主题的想法。我的推特没有标签，所以我不能对它们进行分类:只是手动的，但这会很费时。我想按主题对它们进行分组，所以我首先考虑了LDA的主题分类，然后考虑了k-均值聚类。这是一个很好的做法吗？有哪些不同之处，以及如何检验分类的准确性？

浏览 0提问于2020-06-22得票数 0

回答已采纳

4回答

K-意思是聚类还是分类？

machine-learning、neural-network、deep-learning、classification、k-means

为什么在k均值聚类方法中选择基于特征的k(以死或活的病人场景为例，k将被认为是聚类而不是分类)？

浏览 0提问于2018-08-28得票数 3

2回答

机器学习中的无监督分类

machine-learning、classification、unsupervised-learning

聚类(例如:K-均值，EM算法等)是利用数据点之间的距离度量，在数据集中形成聚类，用于无监督分类。我的问题是:除了聚类之外，我还可以使用什么来执行无监督的分类，以及如何进行分类？或者，除了对无监督的分类进行聚类之外，没有其他选择？编辑:是的，我的意思是k-意思。

浏览 6提问于2020-11-21得票数 0

回答已采纳

4回答

聚类分类数据

data-mining

我有一个有分类特征的数据集。我想使用聚类技术来分割数据。考虑到数据具有分类特性这一事实，这个场景的可能选择是什么？这里有什么k-均值的变化吗？

浏览 0提问于2016-08-07得票数 2

1回答

WEKA如何评估星系团？

machine-learning、cluster-analysis、weka、data-mining

嗨，在链接中找到了这个解释：使用培训集(默认)。生成聚类后的Weka 将训练实例分类为按集群表示并计算实例的百分比。在每个星系团中坠落。在所提供的测试集或百分比split中可以评估如果聚类表示是概率的(例如，对于EM)，则对单独的测试数据进行聚类。类到集群评估。在这种模式下，Weka首先会忽略类属性并生成集群。然后在它根据每个集群中类属性的大多数值将类分配给集群的测试阶段。在此基础上计算分类误差，并给出相应的混淆矩阵。一个例子对于k-均值，如下所示。但是，我不清楚WEKA是如何对集群中的一个新实例进行分类的，以及它如何度量是否应该将该实例分类到该集群中。

浏览 0提问于2018-11-29得票数 1

1回答

K-均值聚类Matlab

matlab、cluster-analysis、k-means

我的问题是，使用k-means很难获得最优聚类数，所以我想到了使用分层算法来寻找最优聚类数。在定义了我的理想分类后，我想使用这个分类来找到具有k均值的质心，而不需要迭代。 data= rand(300,5); D = pdist(data); Z = linkage(D,'ward'); T = cluster(Z,'maxclust',6); 现在我想使用向量T中定义的聚类和to k-means算法中的位置，而不需要迭代。有没有人能给点建议怎么做？谢谢。

浏览 3提问于2013-02-28得票数 0

1回答

python、python-3.x、k-means

我想使用K聚类将几种空间模式分为四种类型。例如，如果我有40个空间模式，我会将它们分为A、B、C和D模式，12个模式为A模式，8个模式为B模式，10个模式为C和D模式。模式具有二维空间中的数据值(对于np.shape，它的结构为(40,18,81))。我是否可以使用k均值聚类来对具有上述每个(18,81)结构的40个模式进行分类？为了帮助您理解，我将向您展示我提到的模式的一些示例。[ ? [ ?

浏览 16提问于2019-04-04得票数 1

回答已采纳

1回答

使用分类评估聚类标签

machine-learning、classification、clustering、model-evaluations

我用K-均值将500个文档分成7组。使用分类模型评估聚类模型是否合理？我要做的是使用聚类来获取这500个标签文档。然后分裂成训练，对NB等分类器进行测试和评价。其f1_score值为0.85。使用随机标签分类显然是非常糟糕的。

浏览 0提问于2022-01-07得票数 1

3回答

K-表示初始中心决定结果？

algorithm、cluster-analysis、k-means

K-均值聚类是一种常用的聚类方法.假设K-均值聚类有N个点，即N个点应划分为K个群，其中每个组中的点具有相似性。在K-means clustering处理之前，我们应该给初始中心赋值，在这里，我从所有的点中随机选择K点，程序每次运行都得到不同的输出。为什么这会导致不同的结果，我如何知道哪一个是最好的分类？

浏览 5提问于2014-01-07得票数 4

回答已采纳

2回答

在Weka中使用聚类进行预测

algorithm、user-interface、attributes、cluster-analysis、weka

我可以使用聚类(例如，使用k-均值)在Weka中进行预测吗？我有一些基于总统选举研究的数据。我有问卷的答案(数字属性)，我有一个属性，那就是你将投票给谁？(1，2或3) 我在Weka中使用一些分类器(例如Bayes)进行预测。我的结果是基于这个答案(投票意向)，我有大约60%的召回率(正确的预测率)。我明白聚类是另一回事，但是我能用聚类来做预测吗？我已经试过了，但是我意识到集群总是选择自己的质心，它不使用我的投票意向问题。

浏览 3提问于2013-04-28得票数 2

回答已采纳

3回答

如何应用集成聚类方法？

python、data-mining、scikit-learn、clustering、ensemble-learning

我需要使用集成聚类方法，在我的数据集中使用python。我已经通过使用scikit学习库应用了k-均值聚类。我还应用了不同的分类方法，也发现了集成分类方法在科学学习中的应用.现在我感到困惑的是，在scikit中是否存在用于集成聚类的库，或者我如何将集成聚类方法应用于我的数据集？

浏览 0提问于2018-02-03得票数 0

1回答

如何生成未填充空间的骨骼点？

python、algorithm、python-3.x、scikit-learn

给定一个点坐标数组，我想要生成n新坐标，它最好地“定义”未填充的空间。我的方法的第一部分涉及到使用K均值聚类来生成合理表示所有点的k点。然后我想利用这些点为未填充的空间生成骨骼点。下面是一个例子。初始点以小圆点表示，K-均值聚类中心表示为大点(k = 5)，我对骨骼点放置位置的人类估计用黄色方格表示，其中n = 4表示。为未填充的空间生成这些骨骼点的最佳方法是什么？(看起来我几乎需要一个“逆聚类”算法。)可以自由地提供一个不使用所示K均值聚类的解决方案；这只是我简化问题的尝试。 # Dataset used: X = np.array([ [0.0, 0.0], [0.

浏览 1提问于2017-03-30得票数 0

2回答

词袋算法中的直方图构造

matlab、computer-vision、matlab-cvst

我在matlab中实现了图像分类的词袋算法。我对特征进行了k均值聚类，并将其划分为250个聚类。我无法理解如何绘制直方图。

浏览 2提问于2015-05-23得票数 0

1回答

我可以用k-方法来聚类一个非完全图吗？

python、algorithm、cluster-analysis、graph-theory、k-means

我想使用k-均值聚类算法对一个连通的无向图(不是一个完整的图)进行聚类。我只看到k-均值在一个完整的图中被使用，但是我不确定是否有另一种方法可以将它应用到一个非完全图中。这里有人知道这件事吗？如果k-均值不能应用于连通无向图，那么哪种算法对这类图进行聚类比较好？提前谢谢！

浏览 7提问于2017-07-25得票数 1

回答已采纳

13回答

混合数值和分类数据的K-均值聚类

data-mining、clustering、octave、k-means、categorical-data

我的数据集包含许多数字属性和一个分类。比如说，NumericAttr1, NumericAttr2, ..., NumericAttrN, CategoricalAttr，其中CategoricalAttr采用三个可能的值之一：CategoricalAttrValue1、CategoricalAttrValue2或CategoricalAttrValue3。我使用默认的八阶K均值聚类算法的实现。它只适用于数字数据。因此，我的问题是:将CategoricalAttr分类属性拆分为三个数值(二进制)变量(如IsCategoricalAttrValue1, IsCategoricalAttr

浏览 0提问于2014-05-14得票数 200

回答已采纳

2回答

一个热编码/不平衡列会导致聚类分析的偏差吗？

machine-learning、data-mining、clustering、k-means、one-hot-encoding

我想知道，对于某一特定特性，过多的列是否会导致对聚类分析的偏见。例如，如果我的数据集有列= “来电”、“对外电话”、“失踪电话”、“年龄”，如果我运行诸如K-均值或混合模型之类的聚类算法，那么聚类结果是否会有偏差，因为它主要基于调用来分割数据集？另一个例子是，如果我有两个分类列:颜色(‘红色’，‘蓝色’，‘绿色’)和形状(‘圆’，‘方形’)，在一个热编码后，颜色将扩展为三列，形状将扩展为两列。如果我在一个热编码的数据集中，颜色在分割数据方面会比形状有更大的权重吗？

浏览 0提问于2020-05-28得票数 2

2回答

聚类混合数据类型-数值、分类、数组和文本

nlp、clustering、k-means、categorical-data、text

我有一个数据集，有4种类型的数据列： numeric categorical tags text id 1 51585 27 [A, B, C, ...] "Some text bla bla bla" 2 53596 27 [B, D, E] "Other text..." 3 1176345 27

浏览 0提问于2020-06-14得票数 2

2回答

数据分类和聚类有什么区别(从数据的角度来看)

classification、clustering、difference

数据分类(使用专用的基于距离的方法)与数据聚类(有特定的定义方法，如k-means)有什么不同和相似之处？数据分类是数据聚类的一个子主题吗？

浏览 0提问于2020-12-27得票数 5

回答已采纳

1回答

在这个数据集中我能做什么分析？

data-mining、classification、clustering

我有一个客户数据集(他们的城市，姓名，年龄，性别，孩子的数量)和另一个关于他们购买的产品的数据集。有人要求我这样做：提取有关客户配置文件的知识。我不知道该吸取什么知识。我们正在研究聚类和分类，所以它们应该联系这个问题。我想的是让客户成群结队。但我不知道我该依靠什么生物。我应该使用像k均值这样的聚类算法，然后让它给我聚类吗？如有任何建议，将不胜感激。更新以下是我拥有的数据集：卡: CardID，城市，地区，PostalCode，CardStartDate，性别，DateOfBirth，MaritalStatus，HasChildren，NumChildren，YoungestCh

浏览 0提问于2015-06-08得票数 2

2回答

如何实现从分类到聚类的飞跃

python、machine-learning

我有一个似乎无法解决的聚类问题，尽管如果我把它作为一个标记分类问题来处理，我可以以令人满意的精度解决它。是否有一种优雅的方法来实现从能够解决分类问题到能够解决集群问题的飞跃？详情如下：我有一个标记的运动数据集，从中提取每个运动的特征向量。然后，我可以使用几种工具(支持向量机、决策树等)对运动进行分类。得到了满意的结果(0.85精度，在我的情况下是可以的)。问题是，我所面对的真实世界的数据，当然不会被标记，也不会以我所拥有的标记数据为模型(这意味着我不能对标记数据进行分类器训练，并期望它在其他数据上表现良好)。真实世界的数据肯定不只是由这两个类组成，它将由K个未知类组成，我希望它们能够以令

浏览 0提问于2013-12-16得票数 2

1回答

对相似的科目进行分组，并仅对其进行培训

machine-learning、deep-learning、clustering、data-mining、similarity

我有一个5k主题的数据集。这是一个二元分类问题，我有3000个正数和2000个负数。现在要建立一个模型，我不喜欢训练通常的方式(在这里，我们建立一个通用的模型)。相反，我想把类似的病人聚在一起，比如group1，group2，group3，group4等等。当我要预测新的学科时，我想知道他属于哪一组，并找出每一组的重要预测因子？我知道这听起来像K-表示聚类，但我理解得对吗？有人能向我提供关于如何做到这一点的步骤列表(伪代码类型)吗？对不起，我是新来的ML，并探索了各种方法来做分类问题。

浏览 0提问于2021-01-08得票数 1

2回答

什么时候应该选择聚类而不是K-均值聚类？

clustering、k-means、unsupervised-learning

我正在研究一个基于聚类的模型，我读过关于分层聚类和K-均值聚类的文章。在什么条件下我应该选择聚类而不是K-均值聚类？

浏览 0提问于2021-03-26得票数 2

回答已采纳

2回答

如何决定使用哪些特性进行集群？

machine-learning、python、clustering、feature-selection、unsupervised-learning

我在dataset上进行聚类，其中每一行都是客户，每一列都是特性。我有200个特性，这似乎很适合集群。我计划尝试各种聚类模型，例如k-均值，因为我所有的数据都是数值的。H 如何减少/选择这些特性? 我只熟悉SelectKbest等，因为这些都是用于预测建模。但这里没有目标变量。注意，我计划使用python。

浏览 0提问于2021-04-16得票数 0

5回答

朴素贝叶斯分类器与判别分析精度相差甚远。

matlab、statistics、cluster-analysis、bayesian、naivebayes

因此，我有两种分类方法，判别分析diaglinear分类(朴素贝叶斯)和纯朴素贝叶斯分类器，在整个数据集中有23个类。第一种方法是判别分析： %% Classify Clusters using Naive Bayes Classifier and classify training_data = Testdata; target_class = TestDataLabels; [class, err] = classify(UnseenTestdata, training_data, target_class,'diaglinear') cmat1 = confusi

浏览 8提问于2012-11-18得票数 8

回答已采纳

2回答

在k-表示中添加特征

python、machine-learning、scikit-learn

我试图使用k均值聚类对文本文档进行分类。是否可以将一组文档向量化并执行计算，然后添加更多要分类的文档？到目前为止，这就是我所拥有的 true_k = 4 vectorizer = TfidfVectorizer(stop_words='english') X = vectorizer.fit_transform(documents) model = KMeans(n_clusters=true_k, init='k-means++', max_iter=100, n_init=1) model.fit(X) 如何将更多文档添加到X中？因为我想腌制X并保存它。

浏览 1提问于2016-05-18得票数 0

回答已采纳

1回答

聚类算法中的平稳时间序列

time-series、clustering、k-means

我有一组时间序列数据，我想要输入一个聚类算法(像k-均值，使用动态时间翘曲作为距离函数)。在将平均值为0和方差为1的数据标准化之后，k均值分类器生成了一批看起来很适合数据的质心。我唯一的问题是数据是否应该是固定的。像ARIMA这样的模型由于数据的性质而要求数据是平稳的。然而，我想聚类的数据是抵押贷款利率随时间的变化，这可能会受到季节性趋势的影响，这在将来对其他时间序列数据进行聚类时可能是有用的。问题是:时间序列数据的聚类算法通常要求数据保持平稳吗？

浏览 0提问于2019-06-18得票数 0

1回答

K-均值聚类对使用PCA和原始数据减少的数据有什么不同吗？

machine-learning、python、data-mining、clustering、unsupervised-learning

我正在做聚类工作，我有90个特征，有13500个数据点，去除了相关变量，其中皮尔逊相关性超过90%，我的特征空间减少到70个。而且，几乎所有我最初的90个特性都有大量的零值(超过70%-80%的数据点)。我在算法实现方面所做的是： Ran K-通过根据轮廓指数选择聚类数来表示原始数据的70个特征(均为数字)。 Ran K-通过根据剪影索引选择簇数将维度降到2。我所观察到的和我相应的问题是： K-表示pca减少的数据提供了更好的聚类。有什么办法可以让我用这个集群来解释吗？就像从pca分配聚类标签一样，将数据减少到原始数据原始数据上的K-均值和pca上的K-均值是如何不同的？我知道pca会将数

浏览 0提问于2020-01-21得票数 3

1回答

为什么k-均值在科学学习中有预测作用，而DBSCAN/凝聚却没有？

machine-learning、scikit-learn、cluster-analysis、k-means、dbscan

Scikit-学习K-means的实现有一个predict()函数，可以应用于不可见的数据。其中，as DBSCAN和Agglomerative不具有predict()函数。这三种算法都有fit_predict()，用于对模型进行拟合并进行预测。但是k-均值有predict()，它可以直接用于看不见的数据，而另一种算法则不然。我非常清楚，有一些聚类算法，按照我的观点，predict()也不应该存在于K-means中。这种差异背后的可能直觉/原因是什么？这仅仅是因为k均值执行"1NN分类“，所以它有一个predict()函数吗？

浏览 6提问于2020-07-22得票数 7

回答已采纳

1回答

如何获得k均值簇的权重和方差？

python、clustering、scikit-learn

我试图复制这论文的结果，但是使用python和HMMlearn库来代替matlab。本文介绍了一种利用隐马尔可夫模型( HMM )预测股票价格的方法。本文详细介绍了用四态5混合高斯分布作为模型.转移概率和初始状态概率是一致的，但发射概率是根据现有股票价格数据集的k均值算法的结果来确定的。后半部分是我陷入困境的地方，本文建议使用k-均值算法返回的每个聚类的均值、方差和权重作为混合算法每个组分的均值、方差和权重。据我所知，星系团的平均值只是每个质心的中心，但是我不知道你如何获得方差或权重。给出一个三维数据集X(以[[a, b, c], [d, e, f]...]的形式)，并使用k-均值算法，

浏览 0提问于2016-04-28得票数 2

回答已采纳

2回答

K-表示是否适合用于四个或更多变量？

dataset、statistics、visualization、k-means、normalization

只是一个一般性的问题，我正试图在脑海中想象。我对使用k均值聚类相当陌生，以前在两个变量上使用过它，它创建了一个二维点图。我也知道，虽然我以前还没做过，但是你可以用x，y，z轴用三个变量绘制一个k均值集群。但是现在我的位置上有四个变量，它们的z分数标准化了，我不知道如何恰当地使用k-均值聚类。在这种情况下，我应该使用k均值集群吗？谢谢

浏览 0提问于2019-06-27得票数 0

回答已采纳

1回答

机器学习算法在数据属性子集中的应用

python、clustering、bigdata、categorical-data、dimensionality-reduction

我有一个庞大的混合数据集，它由数值属性和分类属性组成，在OneHotEncoding上形成一个具有很高维数的数据集。将机器学习算法(如K-均值聚类、降维和回归)应用于数据集子集是否明智？例如，首先将K-均值聚类应用于数值列，然后将结果与分类数据集连接起来。

浏览 0提问于2018-02-28得票数 1

回答已采纳

1回答

变量转换后的聚类结果解释

clustering

从一段时间以来，我有一个问题，我还没有找到正确的答案。我对clustering algorithm结果的解释表示怀疑，该结果运行于应用log-transformation的特性上。具体来说，让我们假设我们希望在3个区间变量上运行一个k-means algorithm。不幸的是，这三个区间变量分布极差，k均值给出了我们所见过的最糟糕的结果。但是，让我们想象一下，通过对每个变量应用一个log transformation，我们得到了三个非常完美的normal distribution。然后，我们再次运行k-means，我们获得了完美的clusters。现在，我怀疑通过在三个k-means

浏览 0提问于2017-12-10得票数 5

回答已采纳

3回答

比k均值聚类更精确的方法

machine-learning、neural-network、k-means、biological-neural-network

在径向基函数网络(RBF网络)中，选择了隐层中的所有原型( RBF函数的中心向量)。此步骤可以通过以下几种方式执行：中心可以从一些例子中随机抽样。或者，它们可以用k均值聚类来确定. 智能选择原型的方法之一是在训练集上进行k均值聚类，并使用聚类中心作为原型。我们只知道k均值聚类的简单性(快速)，但不是很精确。这就是为什么我想知道比k均值聚类更精确的另一种方法是什么？任何帮助都将不胜感激。

浏览 7提问于2014-03-06得票数 1

回答已采纳

2回答

自动生成k值的K-均值聚类

cluster-analysis、data-mining、k-means

在不给k值的情况下，如何在k均值算法中生成聚类.我想要做k-均值聚类并自动生成集群。

浏览 7提问于2015-11-04得票数 0

回答已采纳

1回答

如何选择多分类器的样本

python、text-mining、random-forest、sampling

我有一个150万的数据集，我想训练7个不同的分类器--对于每一个分类器，我要预测多达10个类别。总样本有20K的文本特性(如果我包括bigram的话)。与大多数文本特性的分布一样，只有20%的文本特征在样本中发生了80%的事件。我将手动标记每个预测类别的10K，并使用它对剩余的150万以及新文档进行预测。我的问题是，如何根据特性和分布来选择子样本。我应该选择一个随机抽样(试着匹配分布)吗？或者，我是否应该尝试找到最大限度地增加示例中所表示的特性数量的10K？每个人的优点和缺点是什么？我只有一次机会来标记这10K，所以我想确保我选择了正确的样本，最大限度地提高了我对每个预测类别的准确性！

浏览 0提问于2017-04-18得票数 -1

回答已采纳

1回答

如何用Python中的K-均值聚类划分数据

python、k-means

我用K均值聚类算法将我的数据分成4部分.我将其形象化，但现在我需要将每个集群作为dataframe。有什么办法吗？

浏览 1提问于2019-12-30得票数 0

回答已采纳

1回答

银行客户细分的算法查询

clustering、algorithms、k-means

到目前为止，我一直在使用k均值聚类来划分银行客户，我希望在银行领域探索其他聚类算法。对银行数据使用亲和传播算法是个好主意吗？如果你能提前向我推荐银行domain.Thanks中常用的其他聚类算法，那也是很棒的。

浏览 0提问于2020-06-29得票数 0

回答已采纳

2回答

使用随机森林评估聚类(例如，由k均值建立)

machine-learning、classification、clustering、random-forest、k-means

我用k均值为我的数据集(150万个样本和800个特性)制作了集群。我知道评估集群的内部指数。然而，我正在考虑训练一个监督分类模型(例如随机森林分类器)，其中聚类数是因变量，所有其他特征都是自变量。使用这个模型的准确性是对k均值聚类的一个很好的评价吗?为什么？

浏览 0提问于2018-08-13得票数 1

1回答

如何将K-均值聚类与朴素贝叶斯相结合

k-means、naivebayes

最近，我读了一些关于K均值和朴素贝叶斯学习approach.But的论文，我对如何将这两种方法结合在一起感到困惑。例如，X(x1，x2，x3，.，xn)表示数据record.Label表示数据记录Xi属于to.Assume的类，有两个类表示为K1和K2。所以，我们总是有Xi (i K1 1，n)属于{∈，K2} 众所周知，K-means方法可以对数据记录进行聚类，X.Suppose K=2.Then (Clx(I)∈{1，2}，i∈1，n)表示聚类结果。朴素贝叶斯可以计算概率。如果P(K_1_X)>P(K_2_X)}，则样品X可归为K1类。否则，X可以归类为K2类。我们可以用Bay

浏览 4提问于2016-04-14得票数 0

2回答

一类分类的K-均值聚类

python、classification、keras、k-means

我想知道我是否可以使用k-均值聚类算法来进行一个类别的分类(例如一个类别的支持向量机)，这意味着我有两个类的数据，而我只标记了我用于训练的一个类？

浏览 0提问于2019-04-22得票数 1

2回答

具有多属性的数据点的K-均值聚类

machine-learning、python、scikit-learn、clustering、k-means

我对K-表示聚类很陌生。我看到的每一个例子都有一个二维数据集。我正在努力将不同成分组成的食谱分类。每个菜谱都是由一些成分组成的，我想把彼此相似的食谱组合在一起。每个菜谱平均有8种配料。有什么方法可以用K-均值聚类将这些菜谱组合在一起吗？或者你会建议另一种无监督的机器学习方法吗？

浏览 0提问于2020-02-04得票数 0

回答已采纳

2回答

apache数学的k-表示集群是否包含一种均值方法？

algorithm、math、k-means、mean、apache-commons-math

我得弄到k均值聚类的方法。目前，我正在使用ApacheCommons数学库，它实现了k均值加聚类算法。有谁知道，如果有一种简单的方法可以在使用这个库进行聚类之后获得该方法，或者让我自己实现它？如果没有，你能解释我如何计算它或者给我一个代码示例吗？

浏览 2提问于2014-04-10得票数 0

回答已采纳

1回答

什么时候在k上使用k-medoid，反之亦然？

algorithms、k-means

我让人在工作中问我关于k-medoid的问题，并且不知道这个算法相对于其他聚类算法的性能(即k-均值，因为它与它最相似)。在这种情况下，它被推荐用于分类学数据(即细菌/病毒物种/菌株)，但我不知道为什么这样做更好。 K个medoid的时间复杂度为O(k * (n-k)^2)。可比较k均值算法的时间复杂度是否相同？你什么时候使用其中一种？使用k-medoid需要哪些品质？输出有什么不同？

浏览 0提问于2020-04-03得票数 1

1回答

K (PAM)算法的缺陷

algorithm、cluster-analysis、data-mining、k-means、hierarchical-clustering

本文研究了K算法(PAM)是一种基于聚类的聚类算法，是K-均值算法的一个变体.它解决了K-均值产生空簇和对离群点/噪声的敏感性等问题。然而，K-medoid的时间复杂度为O(n^2)，而K-均值(劳埃德算法)的时间复杂度为O(n)。我想问K-medoid算法除了其时间复杂性外是否还有其他缺点。

浏览 2提问于2017-10-01得票数 1

回答已采纳

1回答

在K-均值聚类中是否应使用唯一向量(SIFT描述符)？

clustering、k-means、features

我做图像分类，通过提取SIFT特征，对它们进行聚类，然后找到BOVW直方图和分类。我有大约180张训练图像，我正在从中提取SIFT描述符。我需要使用k均值聚类对这些特性进行聚类。现在，在SIFT描述符中，有些是重复的。在应用K-均值之前，我是否应该删除这些重复的向量？还是没有什么区别？谢谢!

浏览 0提问于2019-02-01得票数 1

回答已采纳

3回答

预测方法的意思是，它是如何工作的，它在做什么？

python、scikit-learn、k-means

我一直在玩sklearn的k均值聚类类，我对它的预测方法感到困惑。我在虹膜数据集上应用了如下模型： X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42) pca = PCA(n_components = 2).fit(X_train) X_train_pca = pca.transform(X_train) X_test_pca = pca.transform(X_test) kmeans_pca = KMeans(n_clusters=3).fit(X_tr

浏览 11提问于2022-07-04得票数 2

回答已采纳

1回答

K-均值在猪描述符中的应用

computer-vision、dlib

我使用dlib提取了一个HOG描述符，并将它们存储在一个由二维数组组成的数组中。现在，我想用K-均值对描述符进行聚类。人们将如何进行这样的聚类？我可以想出两种实现它的方法：按线执行聚类。因此，对任意二维数组都是分开的。同时对所有行执行群集。

浏览 1提问于2017-07-26得票数 0

回答已采纳

2回答

超大型(n=140000)二进制数据集聚类分析技术？

machine-learning、python、scikit-learn、clustering

本质上: Python中有哪些技术可以在非常大的分类数据集中找到集群/趋势？我的非常大的数据集(140000行/观测，80个变量)已经用一个热编码重新编码，所以它们都是二进制的(例如ethnicity_black、ethnicity_asian)。此数据集用于英国警方使用武力的案例。我计划对其进行聚集性的分层聚类，以便在使用强制事件时找到模式(通过集群描述)，但我无法做到这一点，因为距离矩阵总是太大，并且不断崩溃。我使用了gower的距离，因为它们都是虚拟变量，以及gower包。我尝试通过MCA进行降维(比如PCA，但对于分类变量)，但这只是减少了列的数量，而且距离矩阵仍然太大(1400

浏览 0提问于2020-05-04得票数 2