使用Scikit-learn KMeans对多维数组进行聚类_scikit-learn kmeans使用jaccard距离对文本进行聚类_使用facetwrap进行多Kmeans聚类和绘图 - 腾讯云开发者社区

python、machine-learning、data-mining、scikit-learn

我正在使用scikit-learn对文本文档进行聚类。我使用CountVectorizer、TfidfTransformer和MiniBatchKMeans类来帮助我做到这一点。新的文本文档一直被添加到系统中，这意味着我需要使用上面的类来转换文本并预测聚类。我的问题是:我应该如何在磁盘上存储数据？我是否应该简单地处理向量化器、转换器和kmeans对象？我应该只保存数据吗？如果是这样，我如何将其添加回向量器、transformer和kmeans对象？任何帮助都将不胜感激

浏览 2提问于2012-06-21得票数 5

回答已采纳

1回答

聚类后从k-均值集群中获取值

python、scikit-learn、clustering、decision-trees、supervised-learning

我有一个数据集，我已经在这个数据集上运行了一个K均值算法(scikit-learn)，我想在每个集群上构建一个决策树。我可以从集群中恢复值，但不能恢复“类”值(我正在进行监督学习，每个元素可以属于两个类中的一个，我需要与数据关联的值来构建树) 示例:未经过滤的数据集： [val1 val2 class] X_train=[val1 val2] y_train=[class] 群集代码如下： X = clusterDF[clusterDF.columns[clusterDF.columns.str.contains('\'AB\'')]] y = clusterD

浏览 0提问于2018-05-31得票数 -3

1回答

绘制多维K-means聚类NLP python

python、nlp、k-means、scatter-plot、dimensionality-reduction

我有一个为NLP分类器设计的多维向量。下面是数据帧(text_df)：我使用TfidfVectorizer来创建向量： from sklearn.feature_extraction.text import TfidfVectorizer tfidf_v = TfidfVectorizer(max_df=0.5, max_features=13000, min_df=5, stop_words='english

浏览 14提问于2018-08-29得票数 0

1回答

scikit-学习kmeans自定义距离

python、scikit-learn

我希望使用kmeans算法对一些数据进行聚类，但我希望使用自定义的距离函数。有什么方法可以改变scikit-learn使用的距离函数吗？我也会满足于一个不同的框架/模块，它可以交换距离函数，并可以并行计算kmeans (我想加快计算速度，这是scikit-learn的一个很好的特性)。有什么建议吗？

浏览 0提问于2015-06-30得票数 7

1回答

多维数据k均值聚类后的主成分分析

python、data-science、cluster-analysis、k-means、pca

我有以下10个变量的数据集：我想用这个多维数据集来识别集群，所以我尝试使用以下代码来实现k均值聚类算法： clustering_kmeans = KMeans(n_clusters=2, precompute_distances="auto", n_jobs=-1) data['clusters'] = clustering_kmeans.fit_predict(data) 为了绘制结果，我使用PCA进行降维： reduced_data = PCA(n_components=2).fit_transform(data) results = pd.Da

浏览 9提问于2021-10-24得票数 1

回答已采纳

1回答

稀疏矩阵的k均值的图簇

python、matplotlib、scikit-learn

我有一个在svmlight格式的数据文件上做集群的python脚本。我使用函数sklearn.datasets.load_svmlight_file从数据文件加载数据。我知道这个函数返回一个稀疏矩阵。我需要散点图的集群，有没有人可以帮我。这就是我所做的： import sklearn.datasets import sys from sklearn.cluster import KMeans dataFilename = sys.argv[1] X, y = sklearn.datasets.load_svmlight_file(dataFilename) kmeans = KMeans(n_

浏览 2提问于2020-07-09得票数 0

3回答

数值数据聚类

python、clustering、scikit-learn

我试图在我的数据集中进行聚类，其中有4个数值字段。请查找所附文件：http://www.filedropper.com/example_3. 我试过用这个代码： from sklearn.cluster import KMeans kmeans = KMeans(n_clusters=2, random_state=0, max_iter = 300).fit(dffinal) 我知道在这个例子中有两个类，这就是我尝试使用两个集群的原因。在4200行中，前3196行属于类，其余行属于另一个类。但是当我进行聚类时，聚类标签是随机分配的，准确率低于10%。只是想知道我的特性是否不够适合聚类，还是

浏览 0提问于2016-12-23得票数 0

2回答

Kmeans算法的特征缩放

python、python-3.x、machine-learning、scikit-learn、deep-learning

我知道在sklearn.cluster.KMeans下定义的KMeans算法需要进行特征缩放我的问题是，在使用KMeans之前是否需要手动完成，或者KMeans是否会自动执行功能缩放？如果是自动的，请告诉我它在KMeans算法中的什么位置，因为我在这里的文档中找不到它：顺便说一句，人们说Kmeans本身就负责功能缩放。

浏览 22提问于2019-08-15得票数 0

1回答

如何使用高斯混合模型进行聚类？

python、machine-learning、scikit-learn、k-means、gmm

我一直在使用k-Means将数据聚类为2类。然而，现在，我想使用一种不同的方法，使用高斯混合模型将数据聚类到两个类别中。我已经阅读了Scikit-Learn文档和其他SO问题，但我无法理解如何在我目前的上下文中使用GMM进行2类聚类。我可以很容易地使用k-Means将数据聚类为2类，如下所示： import pandas as pd from scipy import stats from sklearn.cluster import KMeans import numpy as np df = pd.read_pickle('my_df.pkl') clmns = df

浏览 31提问于2019-03-15得票数 0

2回答

基于聚类的RGB图像分割

scikit-learn、clustering、image-classification、k-means

为了预处理目的，我想在数据集上应用一些分段。为了分割图像，我尝试了"otsu阈值“方法。这是一个很好的方法，然而，我认为聚类算法，如K-均值，可以更成功地进行基本的分割。下面是Otsu Thresholding的一些问题： 📷 正如您所看到的，在一些示例中，Otsu阈值处理可能会失败，就像在图片1中一样。我认为，采用像素化的定位方法和颜色阈值可以进一步提高效果。然而，我无法设法使用scikit-learn的KMeans函数来处理RGB图像，因为它是一个3通道的二维矩阵(基本上是3d矩阵)。如何将像素距离法和颜色聚类法与K均值聚类或相似方法结合起来？

浏览 0提问于2018-12-04得票数 1

回答已采纳

3回答

如何检验无监督聚类模型输出的准确性？

clustering、k-means

我正在试着测试我的非监督K-均值聚类是否能够正确地聚集我的数据。我有一个无监督的K均值聚类模型输出(如下面的第一张照片所示)，然后使用实际的分类对数据进行聚类。 📷 下面的照片是实际分类。我试图用Python测试我的K-均值分类(上面)与实际分类相比有多好。 📷 对于我的K-表示代码，我使用的是一个简单的模型，如下所示： kmeans = KMeans(n_clusters=4, random_state=0).fit(myData) labels = kmeans.labels_ 对我来说，比较无监督的KMeans聚类模型与实际分类的效果最好的方法是什么？

浏览 0提问于2017-03-09得票数 7

回答已采纳

1回答

在scikit-learn中如何使用KDE (核密度估计)进行一维数组聚类？

machine-learning、scikit-learn、cluster-analysis、kernel-density

我读了几篇关于一维阵列聚类的文章，其中有人说聚类不适合一维阵列，应该使用核密度估计。然而，没有人解释如何使用kde准确地执行聚类，如何检索输入数据的聚类标签？在scikit-learn中，我得到了单变量(一维)数据的核密度估计。 kde = KernelDensity(kernel='gaussian', bandwidth=0.75).fit(features) 现在如何将其用于集群，即如何检索输入数据的集群标签？我在考虑两种可能的方法: a)使用kde为一些聚类估计器(例如kmeans)获取新的2D输入数据。我想以直方图(值，频率)的形式检索2D数据数组，但我不知道如何

浏览 3提问于2016-06-14得票数 0

1回答

Kmeans与Scikit-learn在三维数据中的应用

python-3.x、scikit-learn、k-means

我有数据( numpy数组p)，其形状为(n,68,2)。我正在尝试使用Scikit-learn将k均值聚类应用于这些数据。我需要从这些数据中找到k集群，集群之后的最终输出数据应该具有(k,68,2)的维度。当我向Kmeans函数提供p时，如下 kmeans = KMeans(n_clusters=no_of_clusters, random_state=0).fit(p1) 它给出了一个错误 ValueError:找到带有dim 3的数组。估计器期望<= 2。为了解决这个问题，我必须将x坐标和y坐标分开，得到2数组维数(n,68)，并分别对它们应用kmeans，然后将结果组

浏览 1提问于2019-04-15得票数 1

2回答

KMeans聚类后的聚类点(scikit学习)

python、scikit-learn、k-means

我已经使用Kmeans和sklearn进行了集群。虽然它有一种打印质心的方法，但我发现很奇怪的是，scikit-learn没有打印出每个集群的聚类点的方法(或者说我到目前为止还没有见过它)。有没有一种巧妙的方法来获得每个簇的聚类点？我目前有一个相当复杂的代码来做这件事，其中V是数据集： def getClusterPoints(V, labels): clusters = {} for l in range(0, max(labels)+1): data_points = [] indices = [i for i, x in enumerat

浏览 0提问于2015-08-27得票数 10

回答已采纳

3回答

如何在openCV中加速颜色聚类？

opencv、cluster-analysis、data-mining、k-means、image-segmentation

对于一个项目，我想实现一个颜色聚类算法，它用聚类的平均颜色替换相似的颜色。目前，我使用kmeans算法对整个图像进行聚类。但这需要很长的时间。有没有人知道如何使用kmeans聚类颜色直方图，这样我就可以执行这个算法了？

浏览 2提问于2012-11-29得票数 6

回答已采纳

2回答

对复数值使用sklearn

python、scikit-learn、complex-numbers

我正在尝试使用scikit-learn在Python中执行一个kmeans。问题是我的数据是复杂的值，Python不喜欢这样。有没有什么方法可以用复数值来使用sklearn？

浏览 0提问于2020-07-04得票数 1

1回答

Spark / PySpark - GMM聚类返回完全等概率且仅返回1个聚类

pyspark、cluster-analysis、gmm

我尝试在给定的DataFrame上应用GMM聚类算法(与https://spark.apache.org/docs/latest/ml-clustering.html中一样)，如下所示： vector.show(1) ID |功能 33.0 |0.01.0 27043.0，.... type(vector) pyspark.sql.dataframe.DataFrame type(vector.select('features')) pyspark.sql.dataframe.DataFrame vector.printSchema() 根部 |-- id:双精度(nulla

浏览 32提问于2019-05-31得票数 2

2回答

如何检索数组中的最小值索引？

c#、arrays

我正在研究kmeans聚类算法，我需要找到数组中最小值的索引。例如，我为3项编写了以下代码： if ((DistanceArray[1, j] < DistanceArray[2, j]) && (DistanceArray[1, j] < DistanceArray[3, j])) { min= 1; } else if (DistanceArray[2, j] < DistanceArray[3, j]) { min= 2; } else { min= 3; } 但我需要从多维数组中检索最小值。怎么能做到这一点？

浏览 3提问于2014-02-01得票数 0

回答已采纳

2回答

如何处理集群标签不匹配

python、scikit-learn、k-means

假设我有一个数据集，它有一个类列：[1,1,0,0,2,2]。然后我使用kmeans聚类作为分类，并假设我获得了集群标签：[0,0,1,1,2,2]。现在，如果我使用confusion_matrix或classification_report来评估算法(将集群标签作为类来处理)，我应该会得到很好的分数，但实际上我不会，因为类0和1之间的集群标签不匹配。这是一个假设性的问题，我没有代码。我该怎么处理呢？我正在使用scikit-learn。

浏览 2提问于2021-03-21得票数 0

1回答

用kmeans/其他方法对一组矩阵进行聚类

machine-learning、clustering、k-means、data-analysis

我张贴在这里，因为溢出社区告诉我，最好在这里问它。为了得到基于矩阵相似性的n聚类，我尝试对一组矩阵进行聚类。在实践中，我的数据集由矩阵r\times c和离散值\{-1, 0, 1\}组成。其作用范围是得到聚类相似矩阵的n簇。例如，设置r = 4, c = 3，我的数据如下所示： [[[0, 0, 1], [0, -1, 0], [0, 0, 0], [0, 1, 0]], [[0, 0, -1], [0, 0, 0], [0, -1, 0], [0, 1, 1]], [[1, 0, 1], [0, -1, 0], [1, -1, 0], [0, 1, 0]],

浏览 0提问于2022-04-03得票数 0

1回答

在多个集群中出现的术语？

python、scikit-learn、cluster-analysis、k-means、tf-idf

使用Kmeans与TF-以色列国防军矢量器是否有可能在多个集群中得到术语？下面是示例的数据集： documents = ["Human machine interface for lab abc computer applications", "A survey of user opinion of computer system response time", "The EPS user interface management system", "Syst

浏览 0提问于2016-11-10得票数 2

回答已采纳

1回答

当我对文本数据进行聚类时，我应该使用什么向量器？

python、scikit-learn

我正在使用Python的Scikit-Learn中的Kmeans对文本数据进行聚类。我对数据的矢量化有问题，因为当我使用不同的矢量器时，得到的结果是非常不同的。我想对文本数据进行聚类(数据是关于美国政治的instagram评论)，我想为每个集群找到关键词。但是我不知道我应该使用哪个向量器。例如，当我使用： cv = CountVectorizer(analyzer = 'word', max_features = 8000, preprocessor=None, lowercase=True, tokenizer=None, stop_words = 'english

浏览 1提问于2019-09-12得票数 0

1回答

多元正态分布样本的K均值

python、cluster-analysis、k-means

我是Python的新手。我想对由两个多变量正态分布生成的样本执行K均值聚类。我生成了样本并执行了K-means聚类，但是当我想要绘制聚类时，我得到了一个错误。应该有一些我遗漏的维度问题。下面是我的代码： mean1 = [-1, -1.5] cov1 = [[1, .2], [.2, 1]] x1, y1 = np.random.default_rng().multivariate_normal(mean1, cov1, 100).T mean2 = [1, 1.5] cov2 = [[2, .1], [.1,2]] x2, y2 = np.random.default_rng().mult

浏览 15提问于2021-05-02得票数 3

9回答

聚类地理位置坐标(lat，长对)

machine-learning、python、clustering、k-means、geospatial

地理位置聚类的正确方法和聚类算法是什么？我使用以下代码对地理位置坐标进行聚类： import numpy as np import matplotlib.pyplot as plt from scipy.cluster.vq import kmeans2, whiten coordinates= np.array([ [lat, long], [lat, long], ... [lat, long] ]) x, y = kmeans2(whiten(coordinates), 3

浏览 0提问于2014-07-17得票数 66

回答已采纳

1回答

KMeans是否会在sklearn中自动归一化要素

python、scikit-learn

我想知道KMeans是否会在进行聚类之前自动归一化特征。似乎没有提供请求规范化的输入的选项。

浏览 2提问于2013-11-17得票数 14

回答已采纳

1回答

在图像向量上使用k均值

opencv、image-processing、computer-vision、k-means

在图像向量上使用k-means时，我有一个挥之不去的疑问。我有一个RGB图像，我已经将其转换为HSV空间。基本上，我只想在H向量上执行k-means。这是一个214x300的向量。我有两个问题： 1.在将样本送入kmeans命令之前，是否应该将其重塑为64200*1向量？ 2.如何找到每个集群的中心(我将集群划分为4个集群，因此我需要4个位置，每个位置代表每个集群的中心)。

浏览 4提问于2013-06-27得票数 0

回答已采纳

2回答

是否有可能在KMeans中用Python(Scikit-Learn)对非浮动数据进行集群？

python、arrays、machine-learning、k-means

我正在尝试将KMeans(Scikit-learn)应用于下面提到的数据。。我已经看到了集群中显示Float64值的足够多的例子。我想知道的是，在df[Description ]列上是否可以进行聚类，其x和y轴为经度和纬度。我的代码看起来是这样的。 from sklearn.cluster import KMeans import matplotlib.pyplot as plt import numpy as np import matplotlib from sklearn.preprocessing import LabelEncoder import pandas as pd

浏览 0提问于2016-12-17得票数 2

2回答

如何设置K-means算法的种子值？

python、machine-learning、scikit-learn、cluster-analysis、k-means

我正在尝试根据特定的给定数据集对客户进行分组，这些数据集具有诸如道布、性别、州、PIN码、transaction_id、促销码等属性。每次我运行该算法时，聚类的轮廓得分与前一次相比有很大的不同，即结果不一致。这可能是因为数据集的随机种子。下面是将属性传递给算法的代码行。 km1 = KMeans(n_clusters=6, n_init=25, max_iter = 600) 有没有什么方法可以分配集群或优化，使我每次运行程序后，得分都是一致的和更好的？我正在使用Python 3和scikit-learn。

浏览 3提问于2017-11-10得票数 0

回答已采纳

3回答

哪种算法和哪种超参数组合将是对数据进行聚类的最佳方法？

cluster-analysis、data-science、k-means、unsupervised-learning、gmm

我正在学习非线性聚类算法，我偶然看到了这个二维图。我想知道哪种聚类算法和超参数组合可以很好地对数据进行聚类。就像人类会聚集这5个尖峰一样。我希望我的算法能做到这一点。我尝试了KMeans，但它只是水平地或垂直地进行聚类。我开始使用GMM，但无法为所需的集群获得正确的超参数。

浏览 0提问于2019-05-31得票数 6

回答已采纳

2回答

K-均值簇中会有重叠吗？

cluster-analysis、k-means

我不清楚为什么k-均值聚类在簇中会有重叠。从陈(2018)身上我看到了以下定义： "..let观测结果是一个样本集，被划分为K个不相交的簇“ 然而，我看到我的情节有重叠之处，我不知道为什么会这样。作为参考，我试图用三个变量(最近、频率、收入)对多维数据集进行聚类.为了可视化聚类，我可以使用PCA将3D数据投影到2D中，并对其运行k均值。下面是我得到的代码和情节： df1=tx_user[["Recency","Frequency","Revenue"]] #standardize names = df1.columns # Create

浏览 8提问于2020-03-29得票数 3

回答已采纳

1回答

Kmean聚类在图像分割中的应用

image、k-means

下面的kmeans聚类有什么不同吗？ a)将图像转换为灰度，并对1D特征向量执行kmeans b)保持3个通道RGB，并对3D特征向量执行kmeans c)获取图像直方图并对分布执行kmeans 第一种解决方案肯定更快，但会有区别吗？也许某些像素具有不同的RGB，但具有相同的强度？

浏览 0提问于2012-09-25得票数 0

2回答

K均值矩阵聚类

r、multidimensional-array、k-means

我正在尝试使用"kmeans“算法对一个多维函数对象进行聚类。这意味着什么:所以我不再为每行或每个个体提供向量，甚至每个Individual.For示例都有一个3x3的观察矩阵: anymore =1具有以下观察结果： (x1，x2，x3)，(y1，y2，y3)，(z1，z2，z3)。对于其他个体，也给出了相同的观察结构。所以你知道我如何使用"kmeans“进行聚类，包括所有3个观察向量，而不仅仅是一个观察向量，如何正常地用于”-and“聚类？你会对每个观测向量都这样做吗，f.e。(x1，x2，x3)，然后以某种方式将这些信息组合在一起？我想用R中的kmeans()函数来做这

浏览 3提问于2017-06-08得票数 0

2回答

光谱与Kmeans

clustering

是什么使光谱聚类比Kmeans聚类更好？我知道Kmeans聚类是光谱的最后一步。但是，为什么前面涉及到的谱聚类步骤使其成为一种更方便的聚类方法？

浏览 0提问于2018-08-02得票数 3

2回答

在R中使用NAs和定性数据的无监督监督聚类

r、cluster-analysis、unsupervised-learning

我有如下所示的篮球运动员数据： Player Weight Height Shots School A NA 70 23 AB B 130 62 10 AB C 180 66 NA BC D 157 65 22 CD 我想做无监督和有监督(基于高度)的聚类。查看在线资源，我发现我可以使用kmeans进行无监督，但我不知道如何在不丢失大量数据的情况下处理NAs。我也不知道如何处理数量变量“

浏览 0提问于2018-02-01得票数 0

2回答

如何使用Mahout Streaming K-Means

cluster-analysis、mahout、k-means

我已经看到在mahout中有一个新的K-Means实现，称为Streaming-Kmeans，它实现了没有链式Mapper-Reducer循环的k-means聚类：我在任何地方都没有找到任何关于它的用法的文章。谁能指出它的用法有什么有用的链接，里面有一些关于如何使用它的代码示例。

浏览 2提问于2013-06-24得票数 3

1回答

与集群混淆

python、scikit-learn、cluster-analysis、data-science

我对数据科学过程中的聚类感到非常困惑。我们知道，在2D空间中对相似点进行分组的过程基于以下公式： distance = sqrt( (x2-x1)^2 + (y2-y1)^2 ) 但是在向sklearn引入输入时，我们只是提供x轴值:( y轴值发生了什么？例如，我们有以下数据库： index x y ------------------ 0 5 8 1 6 9 2 7 10 我们将x引入到KMeans中 from sklearn.cluster import KMeans kmeans = KMeans(2) k

浏览 0提问于2019-12-30得票数 0

1回答

如何使用Python将“文本文档”与“球形k-意思”进行聚类？

python-3.x、k-means、spherical-kmeans

我已经完成了传统的k均值文本聚类.然而，现在，我需要将我的程序修改为“球形k-表示文本聚类”，但还没有成功。我已经在网站上寻找解决方案，但仍然无法成功地修改我的程序。下面的资源应该有助于我的项目，但我仍然无法找到一个方法。这是我的传统K-表示程序： from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.cluster import KMeans from sklearn.metrics import adjusted_rand_score from sklearn.

浏览 0提问于2019-05-07得票数 1

1回答

基于y距离0的聚类算法

python、machine-learning、scikit-learn

为了建立一个有监督的学习模型，我采取了兴趣变量的每日st.dev。我想找一组每日st.dev，即st.dev最小的第一组，第二组更大的，等等。聚类结果将为CART算法提供分类标签。怀疑有4类。我有一个2d矩阵的日期'X'，和每日st.dev‘y-真’。将date列转换为数字后： mat.X = pd.to_numeric(mat['X']) 在sklearn lib中使用k-方法，结果是： kmeans = KMeans(n_clusters=3) kmeans = kmeans.fit(mat)] labels = kmeans.predict(mat)

浏览 3提问于2018-03-13得票数 1

回答已采纳

1回答

意思是迭代的意思？

scipy、k-means

我正在使用kmeans2算法从枕木到聚类图像中的像素颜色，以获得图像中的最高平均颜色。我对这个参数的含义感到困惑： iter : int Number of iterations of the k-means algrithm to run. Note that this differs in meaning from the iters parameter to the kmeans function. 如果我想要在集群不改变之前运行kmeans算法，我会将iter值设置得很高吗？有办法找到最好的iter值吗？

浏览 1提问于2013-07-13得票数 1

回答已采纳

1回答

我如何将一个数字数组分割成两个集群，并返回两个相应索引的子集？

scikit-learn、subset、cluster-analysis

我有一个标量数字数组pm和一个索引列表idx，所以pm[idx]是pm的一个子集。如何根据欧几里得距离将scikit-learn)？分解为两簇，并获得两组相应的索引(理想情况下使用) 例如, pm = array([0,1,2,3,4,100,105]) idx = [0,2,3,5,6] 如何获得idx1 = [0,2,3]和idx2 = [5,6]

浏览 1提问于2020-03-10得票数 0

回答已采纳

1回答

在支持向量机分类技术中，如何将kmeans聚类作为一种特征来实现？

python、machine-learning、scikit-learn、svm、k-means

我已经创建了一个集群并保存了模型，但是我搞不懂我应该如何处理这个模型，以及如何使用它作为分类的一个特性。这种聚类是根据犯罪地点的坐标进行的。在对数据进行聚类后，我想使用聚类模型作为支持向量机的特征。 import pandas as pd import matplotlib.pyplot as plt import random import numpy as np import xlrd import pickle import tkinter as tk from tkinter import * plt.rcParams['figure.figsize'] = (1

浏览 6提问于2021-12-30得票数 -1

2回答

图像从多个数字和字符图像聚类，将相似的图像聚类在一起。

python、image-processing、scikit-learn、neural-network、cluster-analysis

我有很多图片是0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ的内容之一，如下所示：有一万张照片，我不想自己贴上标签。所以我试着用滑雪板把它们聚在一起。我的计划：选择滑雪板聚类模型，如Kmeans 由于1,l,I c,C o,O s,S x,X v,V z,Z是相似的，所以我可以设置一个较低的n_cluster参数，例如56。垫所有的图像到相同的大小，但位置随机(我认为这可能会带来一个好的结果)。在聚类完成后，我可以将标签(1~56)标记为真正的字符。然后可以利用这个数据集来训练分类

浏览 0提问于2017-07-13得票数 1

1回答

Opencv在HoughLineP()的输出上运行Kmeans :向量到Mat的转换？

c++、opencv、vector、k-means、mat

我一直在尝试对cv::HoughLinesP()的输出运行kmeans。我的问题来自于将HoughLinesP()，opencv_lines的输出转换为矩阵，它是Vector<Vec4i>的向量。这听起来非常简单，我敢打赌确实如此，但是，我对opencv和数据结构还是个新手，我尝试过很多东西。下面是我正在尝试实现的代码。 HoughLinesP(image_after_canny, opencv_lines, 2, 0.05*CV_PI/180, lower_hough_prob_min_no_of_intersections_trackbar + hough_prob_min_n

浏览 0提问于2015-12-03得票数 0

3回答

如何以特定的明显模式强制对数据进行聚类？

python、scikit-learn、data-science

我有一个很大的一套‘车速对发动机RPM’值的车辆。我试着预测车辆在每一档上所花的时间。我在dataset上运行了K-Means聚类，得到了以下结果：显然，我的算法未能捕捉到明显的模式。我想强迫K均值(或者其他的聚类算法)沿着六条斜线对数据进行聚类。相关代码片段： import numpy as np import pandas as pd from matplotlib import pyplot as plt from sklearn.cluster import KMeans plt.rcParams['figure.figsize'] = (16, 9) pl

浏览 0提问于2018-09-04得票数 2

回答已采纳

2回答

K均值聚类PCA后的标准化

clustering、k-means、unsupervised-learning、pca

在主成分分析降维后，我想将K均值应用于聚类。在主成分分析之前，我已经用StandardScaler标准化了数据，然后我想训练Kmeans来找到簇。然而，PCA组分之间的差异不可能是相同的数量级。聚类前对PCA组件进行标准化是一个很好的实践吗？

浏览 0提问于2019-06-13得票数 2

回答已采纳

1回答

KMeans聚类:将结果添加到初始数据集

python、pandas、cluster-analysis、k-means

我在KMeans的帮助下定义了集群的特性： x = df_1.iloc[:, np.r_[9:12,26:78]] 并运行代码以获得6个集群： kmeans = KMeans(n_clusters = 6) kmeans.fit(x) 现在，我希望在我的初始数据集中有一个编号为(df_1("new") =.)的列:1用于集群1中的数据组，2用于集群2中的数据组，等等。我该怎么做呢？谢谢!

浏览 2提问于2021-06-19得票数 0

回答已采纳

1回答

文档解析建模和方法？

classification、scikit-learn、data-mining、text-mining、word2vec

我对数据科学/机器学习还比较陌生(是的，我知道)，并且正在尝试文本分析。我只想要一个相对幼稚的方法，我想知道我的方法在程序上是否有效，即使我可能没有得到完美的结果。我想比较我的模型与全文tf-以色列国防军搜索特定技能/关键字对照的简历索引。任务:对job descriptions进行分类，而不是以一种无监督的方式对它们进行聚类。最后，我希望将resumes与它们相匹配，作为我的想法的一个基本实现。我在想，简单地实现单词嵌入和kmeans是可以的。基本上，从特定的职务说明中提取document_vectors，然后根据这些向量对职务说明进行聚类。这将创建一个贫民区“标记”系统，这样我就可以应用

浏览 0提问于2019-02-08得票数 1

1回答

用k-mean python进行图像分离

python、image、image-processing、machine-learning、k-means

我是机器学习的新手，我正在学习用于图像分离的k-mean，但我无法理解它的代码： from matplotlib.image import imread image = imread(os.path.join("images","unsupervised_learning","ladybug.png")) image.shape X = image.reshape(-1, 3) kmeans = KMeans(n_clusters=8, random_state=42).fit(X) segmented_img = kmeans.cluster_

浏览 0提问于2018-07-09得票数 0

1回答

如何在新数据上检查深度嵌入聚类？

machine-learning、deep-learning、mxnet

我正在使用mxnet ()中的DEC。虽然它默认在MNIST上运行，但我已经将数据源更改为数百个文档(考虑到mxnet可以处理路透社的数据集，这应该是非常好的) 问题是:在训练MXNET之后，我如何在新的、看不见的数据上使用它？它每次都会向我显示一个新的预测！以下是用于收集数据集的代码： vectorizer = TfidfVectorizer(dtype=np.float64, stop_words='english', max_features=2000, norm='l2', sublinear_tf=True).fit(training) X =

浏览 0提问于2018-07-03得票数 0

1回答

你能用聚类来识别含噪数据中的信号吗？

python、clustering、scikit-learn

作为我在数据科学方面的第一个项目，我想在嘈杂的数据中挑选出主要的集群。我认为一个很好的例子是尝试在一个有许多答案的给定StackExchange问题上找到某些链接。最常见的链接类型是指向SE网络上的问题的链接。下一个常见的是标记链接，或者是指向用户配置文件的链接。其余的链接可能是随机链接包括在帖子，这被认为是噪音。理想的情况下，我正在寻找一个解决方案，我不知道有多少集群的链接将提前。我使用scikit-learn和KMeans实现了我的第一次尝试。然而，这并不理想，因为我似乎必须提前指定集群的数量，而且我认为随机、有噪音的链接分组不当。我还认为，与相对较小的URL标记相比，它在更大的语料库上

浏览 0提问于2015-06-28得票数 5

回答已采纳