如何对R中不同变量组的聚类结果进行统计汇总

文章/答案/技术大牛

发布

1回答

、、

我想知道是否有一个软件包或快速方法来为聚类结果生成统计汇总表。我想我可以选择感兴趣的变量并按聚类编号分组，然后计算平均值和最大值等。我正在寻找一种快速的方法来做到这一点。有没有我可以用的包？谢谢

浏览 19提问于2020-09-09得票数 0

回答已采纳

2回答

我应该使用哪种集群技术？

、

user access matrix..each行代表用户，每一列代表该用户访问的页面类别。这种双聚类技术将首先生成用户集群，然后生成页面clusters.after，它将用户集群和页面集群结合起来生成双集群。现在，我不知道应该使用哪种集群技术来实现此目的。最好的聚类将从该矩阵生成一致的双色图。

浏览 2提问于2014-05-07得票数 0

1回答

特征选择、聚类、降维算法的区别

、、、

有人能指出特征选择和聚类以及降维算法之间的区别吗？聚类帮助我们指出哪些变量簇清楚地定义了输出。特征选择+聚类不是和降维算法一样吗？

浏览 4提问于2015-10-27得票数 0

2回答

如何将更多行添加到esttab汇总stat表中

、

我试图使用esttab创建一个包含汇总统计信息的LaTeX表，使用汇总命令。，存储它，总结另一行，存储它，等等，然后在不创建不必要的列的情况下将它们合并到同一个表中。如果我想通过变量对每个变量进行个体化的限制，那么我可能希望对每个变量进行单独的总结，以便对观察结果进行

浏览 3提问于2016-03-26得票数 0

回答已采纳

2回答

在R中过滤聚类分析中的变量

、、、

我正在尝试对一个噪声很大的金融数据集运行聚类分析(PAM)。有超过100个变量，其中许多是高度共线的。考虑到噪声和共线性的数量，在整个列数组上运行聚类算法几乎是无意义的，我不希望使用PCA，因为我最终将得到每个集群的组件，而不是现有变量的范围，我计划进一步分析。在评估由10个变量组成的已定义组的聚类<

浏览 7提问于2018-08-16得票数 1

2回答

将变量聚集在一起并运行ANOVA

、、

我想将16个连续的(7点Likert Scale)变量分成三个单独的类别，然后使用一个因子对其进行方差分析。目前，我在将变量聚在一起以使其作为方差分析运行时遇到了问题。这就是我到目前为止所拥有的。"S15" "S16" > lapply(test[,1:16], class)> class(test$Condition)如何将<e

浏览 0提问于2014-11-19得票数 1

1回答

如何只查看少数x变量的汇总统计数据

我用R中的lm对一个线性模型进行了拟合，它有超过1000个虚拟变量。经过回归，我得到了一个名为“适合”的变量中的汇总统计数据。我感兴趣的是只提取非常有限的10个自变量的系数和汇总统计数据。如何才能看到这些变量的汇总

浏览 0提问于2014-03-12得票数 1

回答已采纳

3回答

在R中由群运行的数百个线性回归

、

我有一个包含3,000+行和10+变量的表。我试图对300个不同的组进行线性回归，其中一个变量作为预测变量，另一个变量作为响应。我需要每个回归的斜率，p值和r平方。每个回归和记录汇总变量需要几个小时，如果不是数日的话。我使用了以下包来获取每个组的截距和斜率，但我不知道如何为每个组</e

浏览 1提问于2018-07-28得票数 2

回答已采纳

2回答

聚类算法在建立模型之前？

、、、

我想了解的是，在建立预测模型/模型之前，如何使用聚类算法(如果可能的话)在数据集中识别自然出现的组，从而提高模型/模型的准确性。

浏览 0提问于2018-03-05得票数 0

回答已采纳

1回答

工作日周末时间序列数据的聚类

、、

我有一个数据集，说明人们在一天中在几个月内采取的步骤。我对它们进行了汇总，以便每个人都有一个平均工作日和周末时间序列的步骤。1 78 21 46 78 26我尝试使用K均值聚类，通过将平日和周末结合在一起(即每个人只有1例数据)进行聚类，并显示出两<

浏览 0提问于2019-05-08得票数 2

1回答

可训练簇监督聚类或组ID分配的ML纪律名称

、、

是否有一个机器学习算法的名称，它从聚类数据点的例子中学习“聚类方法”(每次使用不同数量的集群)？有没有人在任何文献中遇到过类似的问题？而且我们不知道最初的故事，而只知道(数据点->他们的分组)的实例。编辑:也许聚类这个词不是我明智的选择

浏览 0提问于2017-12-11得票数 0

回答已采纳

2回答

混合变量(范畴和数值)距离函数

、、

我想对一组作业进行模糊聚类。职务属性是：我的问题是:如何计算不同工作之间的距离？computer science,(java ,.net,responsibility),1500, 3)PS:我是数据挖掘集群的初学者，我非常感谢您的帮助。

浏览 0提问于2011-08-07得票数 10

回答已采纳

2回答

如何计算dtw聚类的质量？

、、、

我的目标是对关于26周的126个时间序列进行聚类(因此每个时间序列有26个观察值)。我在medoids周围使用了pam{cluster} = partitioning来对这些时间序列进行聚类。在聚类之前，我想比较哪种距离度量最合适:欧几里得、曼哈顿或动态时间扭曲。我使用每个距离通过轮廓图进行聚类和比较。有什么方法可以比较

浏览 1提问于2014-04-25得票数 2

1回答

如何显示两组之间的差异(聚类)

、

我的数据集由(X，Y)坐标的观测组成，表示某个网格上的位置。有两个基于变量Z的组，A组是Z>10的所有点，B组是Z<10的所有点。将(X，Y)坐标的两组分别进行聚类，比较星系团的位置，得出Z对点位置的影响是一个好主意吗？我想用统计学的方法来说明，如果有的话，A组

浏览 0提问于2019-10-22得票数 1

2回答

R中的聚类时间序列-K均值是否准确？

、、、、

我的数据集是由105个国家(行)的14年(列)相同指数的测量结果组成的。我想根据这些国家随时间变化的指数趋势对其进行聚类。我正在尝试使用DTW距离矩阵(dtw包)的层次聚类(hclust)和K Medoids (pam)。我还尝试了K均值，使用DTW距离矩阵作为函数kmeans的第一个参数。我也在考虑直接使用数据，但我不能理解结果</e

浏览 7提问于2020-03-03得票数 0

2回答

基于多变量的用户聚类

、、

我有一个网站，我收集了很多关于用户行为的日志。他们什么时候登录，看什么产品，多久看一次，等等。我想看看我是否能在此基础上进行聚类分析，但我不知道如何合并多个变量。具体来说，我的问题是当不同的变量对不同的组更重要时，如何对它们的重要性进行加权，并对不同的<em

浏览 3提问于2015-05-29得票数 1

回答已采纳

1回答

如何测试/训练ML管道中具有新数据点和类的实时数据模型

、、、、

首先，对于一个文本分类问题，如果我对模型进行了2类的训练，并给出了较好的精度。现在，当我实时使用该模型时，有一个来自完全不同的业务团队的全新的类，我需要使用经过训练的模型并对这些数据进行测试。在这里，很明显，模型会有更糟糕的结果，而且预处理或任何其他数据清理可能会有很大的不同。所以，问题是-唯

浏览 0提问于2020-03-01得票数 2

1回答

为什么R和Matlab中的差距统计结果不同？

、、

我尝试将相同的数据放在一起进行差距统计，并希望获得最优的聚类数量。为了检查结果的真实性，我尝试使用不同的程序R和Matlab进行相同的测试。然而，R和Matlab中的结果是不同的。R的最佳聚类</

浏览 3提问于2018-12-12得票数 1

1回答

ML模型的鲁棒性

、、、

在试图模拟类似于这论文中描述的ML模型时，经过一些调整后，我似乎最终在一些样本数据上获得了良好的聚类结果。“好的”结果，我的意思是很高比例的观测结果被放入正确的聚类中，表明模型确

浏览 0提问于2018-09-07得票数 10

1回答

R中具有不同范围/尺度的连续异质变量的系统聚类

、、、、

我想使用R来使用描述相同样本的两组变量来执行分层聚类。一组是微阵列基因表达数据(针对特定基因)，这些数据已经标准化并进行了批量效应校正。另一组也有一些描述相同样本的定量临床参数。然而，这些临床变量还没有被归一化或进行任何类型的转换(即原始连续值)。例如，其中一个变量的值范围从2到35，而另一个变量的<

浏览 13提问于2017-01-28得票数 2

点击加载更多