Pyspark: k表示模型拟合时的聚类误差

、、、、

虽然运行K意味着使用pyspark进行集群，但我使用以下代码行来查找最佳K值。但是在模型拟合线上经常会出现一些错误。).select('ID','features')拟合K均值的代码行cost = np.zeros(21) from pyspark

浏览 47提问于2020-06-01得票数 1

回答已采纳

2回答

如何计算重构误差？

、、

如何计算重建误差，在哪里可以找到有关重建误差的信息？(我将在K-means算法之后计算我的数据的重建误差)

浏览 2提问于2011-06-02得票数 0

回答已采纳

1回答

我使用PyCluster的kMeans来集群一些数据--很大程度上是因为SciPy的kMeans2()产生了无法克服的错误。。无论如何，PyCluster kMeans运行良好，我现在正在尝试优化kMeans集群的数量。PyCluster附带的文献表明，我可以通过实现EM算法-- --来优化它的kMeans，但是我找不到一个例子。有人能给我指个PyCluster k-means优化问题吗？提前感谢您的帮助。

浏览 1提问于2013-05-16得票数 2

回答已采纳

3回答

如何检验无监督聚类模型输出的准确性？

、

我正在试着测试我的非监督K-均值聚类是否能够正确地聚集我的数据。我有一个无监督的K均值聚类模型输出(如下面的第一张照片所示)，然后使用实际的分类对数据进行聚类。下面的照片是实际分类。我试图用Python测试我的K-均值分类(上面)与实际分类相比有多好。📷 对于我的K-表示</em

浏览 0提问于2017-03-09得票数 7

回答已采纳

1回答

数据簇数比较的统计检验

、、、、

我正在由K观测和d变量组成的数据集上执行-means集群，并试图确定集群的最佳数量。是否有一个测试可以确定添加另一个集群的统计意义？-1} \Big)} 其中WCSS_i是包含i簇的模型的群内平方和或惯性之和。得到了F-statistic 这里在“回归问题”下的一般公式。在这种情况下，我将惯性作为模型中误差的度量，而di是i集群模型中的参数数，因为每个i簇

浏览 0提问于2023-03-10得票数 0

2回答

带Mahalanobis的k-均值是聚类的有效选择吗？

、、、

我想要更多的信息，如果k-均值与Mahalanobis距离是一个数学上/方法上正确的选择，数据集与不同的方差簇。这些步骤是：估计每个聚合/集群数据集的mu，sigma 通过计算每个点到每个簇的Mahalanobis距离并更新聚类，重新计算聚类。没有办法对Mahalanobis进行“绝对”最佳聚类<

浏览 0提问于2020-01-20得票数 3

2回答

什么是主题建模以外的？

、、

我现在很好奇，是否还有其他方法可以在相同或相似的上下文中对文档进行无监督的聚类？ (旁白)是否有任何方法显示一个或多个主题的相似之处？

浏览 0提问于2018-08-05得票数 2

回答已采纳

1回答

WEKA如何评估星系团？

、、、

生成聚类后的Weka集群表示并计算实例的百分比。如果聚类表示是概率的(例如，对于EM)，则对单独的测试数据进行聚类。类属性并生成集群。然后在它根据每个集群中类属性的大多数值将类

浏览 0提问于2018-11-29得票数 1

1回答

Java/WEKA: K聚类错误:无法处理任何类属性

、

assignments = kmeans.getAssignments(); e.printStackTrace();我正在尝试用k均值算法初始化EM算法的参数.因此，我试图得到两个质心，在其中，我可以进一步训练参数的GMM。java.lang.NullPointerException at hmm.HMM.main(HMM.java:22) 另外，我如何设置两个随机的</em

浏览 5提问于2014-12-17得票数 2

回答已采纳

1回答

R:海量的聚类标准错误：：polr()

、、

我试图使用MASS包的polr()函数来估计带有聚集标准错误的有序logistic回归。没有内置的集群特性，因此我正在寻找(a)包或(b)使用模型输出计算集群标准错误的手动方法。我计划使用margins软件包来估计模型的边际效应。# Estimate and summarize model对于一般最小二乘模型(在某些情况下是

浏览 1提问于2017-05-26得票数 2

2回答

如何在pyspark中获得模型的预测

、、

我已经使用pyspark开发了一个聚类模型，我只想预测一个向量的类别，下面是代码 spark = SparkSession.builder.config("spark.sql.warehouse.dirFEATURES_COL, outputCol="features") k= 6

浏览 46提问于2021-01-27得票数 0

回答已采纳

1回答

从word2vec模型中提取距离矩阵和特征矩阵

、、、

我已经为一个巨大的语料库生成了一个使用gensim的word2vec模型，并且我需要使用k均值聚类来对词汇表进行聚类，我需要：对于特征矩阵，我尝

浏览 7提问于2017-07-24得票数 0

1回答

如何比较自组织地图的输出？

、、

我正在尝试使用自组织地图同时对文本文档进行聚类和可视化。由于文本文档可以用各种方式表示(向量空间模型、GloVe等)，所以我想知道如何判断哪种表示方式生成最佳地图。量化误差等度量，确定给定数据集的地图的优劣。然而，它们对于定量地判断哪种表示形式提供了更好的输出并不有用。是否有一种定量的度量来比较使用不同表示方式生成的地图(例如Tf-以色列国防军和GloVe)，并指

浏览 0提问于2019-01-22得票数 1

1回答

活动相似度评分模型？

、

这是一个非常高层次的问题。我正在寻找一种技术或模型，可以采取人们的网络活动，并能够产生一个基于相似性的分数。因此，具有相似流量模式的人，特别是那些在整个集合中不常见的人，得分会高得令人难以置信。我愿意做研究，我只是想得到正确的方向。聚类分析是否能够将具有相似活动的人聚在一起？

浏览 0提问于2015-03-19得票数 0

2回答

我应该使用哪种集群技术？

、

user access matrix..each行代表用户，每一列代表该用户访问的页面类别。这种双聚类技术将首先生成用户集群，然后生成页面clusters.after，它将用户集群和页面集群结合起来生成双集群。现在，我不知道应该使用哪种集群技术来实现此目的。最好的聚类将从该矩阵生成一致的双色图。

浏览 2提问于2014-05-07得票数 0

1回答

如何在HMM matlab统计工具箱中定义发射矩阵

、、、

我是Matlab中图像处理的新手，现在我正在使用Matlab统计工具箱使用HMM进行字符识别。F=26 55 74 123 186 260 258 75 43 21在问这个问题之前，我已经看

浏览 1提问于2013-02-18得票数 1

回答已采纳

1回答

有办法对一组多元高斯分布进行聚类吗？

、、、、

我有一组多元(2D)高斯分布(用均值和方差表示)，并希望对这些分布进行聚类，以保持概率高斯信息(也许使用方差的重叠？)。

浏览 2提问于2016-09-24得票数 1

回答已采纳

2回答

使用K-均值聚类生成锚盒

、、、、

我试图了解YOLO的工作原理，以及它如何检测图像中的对象。我的问题是，k-均值聚类在检测对象周围的边界框中起着什么作用？谢谢。

浏览 0提问于2019-06-04得票数 3

回答已采纳

1回答

什么时候使用Word2vec和书包字？

、、

我仍然不确定什么时候该使用word2vec，什么时候该依靠一袋袋的单词。例如，如果我想开发一个文本聚类模型，该模型将文本作为输入并为每个输入输出一个集群，我应该关心单词表示和使用word2vec，还是应该依赖单词包，并将输入文本作为文档处理？请与我分享更多的阅读和理解资源；我对文本预处理和聚类非常感兴趣，并想了解我所能了解的一切。此外，如果我想使用k-均值进行聚类</em

浏览 3提问于2022-03-30得票数 0

回答已采纳

2回答

如何使用TensorFlow对某些文本进行聚类

、

对由于这一领域尚处于起步阶段而造成的任何不准确之处表示歉意。我正在学习如何返回包含三个类的dataset，这些类将由TensorFlow进行集群。在这个阶段，我读了很多书，并对几个Colabs进行了实验，但在文本(仅仅是分类)方面，它们都没有提到聚类技术。问题是，我不知道文本如何分类，而且我认为TensorFlow使用的递归过程可以提供一个更好的方法和结果，说明我通常通过使用K-方法得到的结果。很

浏览 0提问于2020-04-21得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何计算重构误差？

使用PyCluster优化K(理想簇数)

如何检验无监督聚类模型输出的准确性？

数据簇数比较的统计检验

带Mahalanobis的k-均值是聚类的有效选择吗？

什么是主题建模以外的？

WEKA如何评估星系团？

Java/WEKA: K聚类错误:无法处理任何类属性

R:海量的聚类标准错误：：polr()

如何在pyspark中获得模型的预测

从word2vec模型中提取距离矩阵和特征矩阵

如何比较自组织地图的输出？

活动相似度评分模型？

我应该使用哪种集群技术？

如何在HMM matlab统计工具箱中定义发射矩阵

有办法对一组多元高斯分布进行聚类吗？

使用K-均值聚类生成锚盒

什么时候使用Word2vec和书包字？

如何使用TensorFlow对某些文本进行聚类

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐