K聚类来自Panda Dataframe而不是样本数据

文章/答案/技术大牛

发布

1回答

python、pandas、jupyter-notebook、cluster-analysis

Panda有12列，一列是“时间戳”，然后是11列，其中包含不同国家的数据。我想要做的是将它们可视化到一个集群中。我找到了以下代码来创建一个基本的集群。但我已经努力了一段时间，才能对我的数据做与下面完全相同的事情。有人知道我需要做些什么才能用我的熊猫数据替换随机样本数据吗？

浏览 14提问于2020-11-05得票数 0

回答已采纳

1回答

在R中使用k-means的结果

r、cluster-analysis、k-means

我使用R的kmeans指令在数据集中执行k-means算法。我有一个关于我去的一些参数的问题。

浏览 2提问于2013-01-25得票数 5

回答已采纳

2回答

如果我的全部训练文件都是A类，我如何使用TF-国防军找到A类的其他文件？

python、machine-learning、tf-idf、text-classification

我收集了X个文档，所有这些文档都属于A类(是我感兴趣或了解的唯一类)。我也有一个更大的收集Y文件，我不知道。X和Y中的文档来源相同，格式相似，主题也有些相似。我想使用X中文档的TF-国防军特征向量来查找Y中最有可能属于A类的文档。在过去，我使用TF-国防军特征向量来构建朴素的Bayes分类器，但在这些情况下，我的训练集X由许多类的文档组成，我的目标是将Y中的每个文档归类为X中所见的类之一。这似乎是另一种情况。在这里，我的整个培训集都有相同的类(我没有我知道的不属于A类

浏览 5提问于2015-09-13得票数 1

回答已采纳

2回答

标杆EM软聚类对K-均值？

cluster-analysis、benchmarking、k-means、data-mining、expectation-maximization

我有两种实现，一种是K-均值，另一种是EM进行软聚类。但我不知道如何验证它们的准确性。也就是说，通过检索更好的集群，哪一个表现得更好。我的假设是，因为EM做的是软赋值，而不是K-均值中的硬赋值。如何衡量EM软聚类对K-均值的准确性？对合成数据也有什么建议吗？

浏览 14提问于2014-07-21得票数 0

回答已采纳

1回答

如何将使用k-medoids算法的聚类解决方案(例如PAM)应用于另一个数据集？

cluster-analysis

我正在寻找一种方法，将k- medoids算法(我正在使用PAM)中的聚类解决方案从一个样本应用到另一个样本。我认为k-means算法可以做到这一点:对于data1，从聚类结果中获得质心；然后在data2中，对于每个观察值，计算到每个质心的距离，然后将每个观察值分配到其最近的质心。然而，k- medoids算法(例如PAM)使用medoids作为聚类中心，而不是均

浏览 30提问于2020-02-12得票数 2

回答已采纳

1回答

有太多类别的数据

python、r

我希望在做数据工程的时候知道一种通用的方法。我有一个数据集，有些变量包含太多的类别，将这些变量包含到一个预测模型中肯定会增加模型的复杂性，从而导致过度匹配。

浏览 2提问于2018-05-09得票数 0

2回答

如何将机器学习分类方法应用于一维时间序列数据

python、machine-learning、classification

我有IMU数据(加速计、磁力计和陀螺仪)，在不同的练习中(下沉、俯卧撑、仰卧起坐、穿孔)。这些练习是在单个1D时间序列信号中完成的，我想使用机器学习分类方法来识别信号中的不同练习。下图显示了包含四个练习的加速度计的示例数据。因此，我的问题是，在这样做时，哪种方法最有效？K-means聚类在0D意义上是完美的，那么有1D等价吗？

浏览 2提问于2018-05-25得票数 2

1回答

通过聚类选择样本

clustering、scikit-learn、sampling

我有一个偏倚的样本集进入二值分类滑雪板流水线，白色和黑色的样本。特征集(在完全不变特征之后)约为28k特征。我想出的最好的方法是把我的黑色样本聚成一个百分比的白色样本。例如，假设我有500 k白色样本，然后将黑色

浏览 0提问于2016-10-24得票数 1

2回答

处理K-意味着使用大数据集6gb与scikit学习？

python、scikit-learn

我想对6gb的文档数据集进行集群，并找到文档集群。谢谢，如果你有什么问题请告诉我。

浏览 6提问于2014-02-03得票数 1

回答已采纳

2回答

为什么Silhouette_score需要标签作为输入？

machine-learning、cluster-analysis

为什么认为它只需要数据是错误的，因为它：“输出一个对象与它自己的集群(内聚力)与其他集群(分离)相比有多相似的度量。” 但是，我还需要输入标签(由函数自己计算)；那么，为什么必须输入标签呢？

浏览 2提问于2020-03-09得票数 0

1回答

自组织映射“错误”

k-means、som

正如我们从K-Means知道的那样，在样本数据被聚类到N个集群(每个集群有一个质心向量)之后，并不是所有的数据都被聚在它们所属的集群中！我的意思是，一些数据向量可能被聚集在错误的集群中。这意味着即使在K-意味着在聚类时也不是100%的精度。我想知道这样的“错误”是否也发生在SOM算法中。So...after自组织映射算法收敛是否存在不属于实际放置的节点的数据<em

浏览 2提问于2013-03-19得票数 0

2回答

K均值算法中n_clusters的最大值

python、machine-learning、nlp、cluster-analysis、k-means

我有一个有28000条记录的数据集。数据是一个电子商务商店的菜单项.所面临的挑战如下：多家商店有相似的产品，但名称不同。

浏览 0提问于2021-01-20得票数 0

1回答

X秒采样间隔不均匀

python、time-series、clustering、predictive-modeling

我有以下规范的数据集：每个样本是来自传感器的8秒数据，分辨率为4ms。例如，我在第一天采集了5个样本，然后在第5天采集了10个以上的样本等等。我想要对数据进行聚类，以检查是否可以从单个8秒的样本中推断出机器的操作模式。此外，我还想衡量一年来组件的性能，以便进行预测维护。目前，我想使用自组织映射进行聚类。我是

浏览 0提问于2021-04-29得票数 0

回答已采纳

2回答

如何在SciKit学习Python中识别KNN模型中每个集群中的记录？

python、scikit-learn、label、knn

目标变量分为2类，其特征为3个分类变量(国家、语言和公司)。这个模型说最优的是5个簇，所以我用5来做。我试过了:预测=knn.predict(特性) 但这只是返回目标变量的两个标签的估计值。

浏览 0提问于2019-08-09得票数 0

回答已采纳

2回答

如何在集群上应用集群？

r、cluster-computing、cluster-analysis、igraph

我使用R library(igraph)对我的数据集进行聚类。我有几个连接的组件，但第一个非常大，这是巨大的组件。我想在这个巨大的组件上重新应用集群，以便重新构建集群。这样做有意义吗？

浏览 4提问于2019-06-06得票数 0

1回答

K-均值聚类与R

r、k-means

我试图在R中使用K均值聚类来聚类一些数据。要聚类的数据是来自tweet样本的一组特定特性。这些tweet被标记为x或y。下面显示了一个数据示例，删除了用户名和ID，这些字段不用于集群。总共有246k个数据项，其中约17k标记为y，其余标记为x。在聚类之后，我预计会出现两个集群，每个集

浏览 0提问于2017-07-05得票数 1

1回答

K-means聚类不是围绕质心进行分组

python、pandas、k-means

我正在尝试使用sklearn.cluster KMEANS模块运行K-means聚类，但我没有从聚类中获得预期的结果。我正在处理的数据集是一个64x6830的基因组数据矩阵。我标准化了数据，使标准差为1，平均值为0。在dataframe中，数据如下所示： 0 1 2 3 4 5 \ Cance

浏览 19提问于2021-10-04得票数 0

回答已采纳

1回答

从聚类获得的标注在视觉上看起来不正确

python、machine-learning、scikit-learn、cluster-analysis、unsupervised-learning

我有以下基于10个数据点的距离矩阵：我将distance_matrix转换为热图，以便更好地查看数据import seaborn as snsdistance_matrix_df.columnsclusters =

浏览 3提问于2020-10-24得票数 1

1回答

当选择远离数据的初始质心位置时，K-意味着如何工作？

python、machine-learning、scikit-learn、cluster-analysis、k-means

根据我对K-均值聚类的理解，k被选择，质心位置被选择，样本被分配，然后质心移动到样本的平均值，直到没有更多的运动。我期望所有的样本都分配给(5,1)质心，然后移动到数据的平均值(5,0)，算法将结束于属于一个聚类的所有样本(其他质心不移动，并且有一次迭代)。.: data = pd.DataFrame({"Xa": xa, "Xb"

浏览 13提问于2022-01-11得票数 2

1回答

如果培训和测试数据集来自同一源，怎么办？

machine-learning、svm、training

将k均值聚类和支持向量机算法相结合，结合10倍交叉验证，可达到95%的准确率。所有的训练和验证数据集都来自于实验。在测试中，我是否可以在同一个样本重复相同的实验后获得数据集，或者我必须使用不同的样本集？

浏览 0提问于2021-05-02得票数 0

回答已采纳

点击加载更多