在DBLP数据集中查找聚类数_在R中查找聚类结果_使用R中的层次聚类生成描绘数据集中的聚类的热图 - 腾讯云开发者社区

cluster-analysis

我正在尝试使用研究领域来查找DBLP V11数据集中的聚类数。我已经尝试使用doc2vec预训练和word2vec预训练平均，并使用DBSCAN、层次聚类对结果进行聚类，并使用肘部方法、轮廓方法和差距统计获得聚类的数量。

浏览 16提问于2019-05-22得票数 0

1回答

作者姓名消歧数据

database、author、pubmed、disambiguation

我想对引用记录进行聚类。我需要训练数据和测试数据，其中每个出版物记录的真正作者是可用的。有许多书目数据库，如DBLP，Medline和Pubmed等。我对测试阶段感到困惑。将DBLP划分为训练和测试是否是一种好的做法？是否手动添加DBLP引用记录？我能保证每个引用记录都被分配给DBLP中的真实作者吗？对训练和测试数据库有什么建议吗？注意:在文献中，我注意到在一些论文中，他们使用Pu

浏览 5提问于2016-06-21得票数 0

1回答

什么是光谱聚类？

clustering

什么是光谱聚类？我几乎没有统计学的背景。我试着在网上搜索笔记，但他们假设了很多知识。如果你能在网上找到一些关于光谱聚类的基础知识和数学基础的笔记，那就更好了。

浏览 0提问于2018-06-21得票数 4

2回答

层次聚类

machine-learning、hierarchical-clustering

我已经阅读了一些参考资料，并了解了层次聚类的工作原理。然而，当我将其与k-means聚类进行比较时，在我看来，k-means确实构成了特定数量的聚类，而层次分析则向我展示了如何对样本进行聚类。我的意思是，在分层聚类中，我没有获得特定数量的集群。我只得到了一个关于集群如何构成的方案，以及样本之间的部分关系。因此，我无法理解在哪里可以使用这种聚类方法。

浏览 4提问于2018-04-24得票数 1

1回答

两步聚类spss显示具有聚类编号的列

spss

在spss中，我运行twostep集群。在输出控制台中，我可以看到显示集群的图形。如何在数据集中创建新列并显示每行所属的聚类数？

浏览 17提问于2020-01-14得票数 2

回答已采纳

3回答

数值数据聚类

python、clustering、scikit-learn

我试图在我的数据集中进行聚类，其中有4个数值字段。请查找所附文件：http://www.filedropper.com/example_3.import KMeans我知道在这个例子中有两个类，在4200行中，前3196行属于类，其余行属于另一个类

浏览 0提问于2016-12-23得票数 0

3回答

我们能自动选择k-均值算法中的k值吗？

k-means、partial-least-squares

我们能否自动选择K值，尝试每一个可能的值(k=1，..，n)，其中n是要集群的实例数。然后，我们保留K的值，然后用最小二乘和的方法得到最小值。这个策略能起作用吗？

浏览 0提问于2020-12-22得票数 1

1回答

在K-均值中找到K的弯头曲线有多可靠？

python、r、cluster-analysis、k-means、word2vec

所以我试着用弯头曲线来寻找K-均值聚类中最优的'K‘(簇数)的值。我读到的理由是在保持平方误差之和(SSE)低的同时，有一个很小的k值。有人能告诉我弯头曲线有多可靠吗？如果我有什么遗漏的话。

浏览 0提问于2018-09-26得票数 1

回答已采纳

1回答

Oracle序列重复

c#、asp.net-mvc、oracle10g

我的应用程序部署在不同的站点上，但使用具有单个数据库的集中式架构。问题是我选择sequence不在数据库中重复数据，但是我们部署在多个站点的应用程序sequence repeat这里是我的代码 entryid = objDB.CallSequence("SEQ_RESULTTEST

浏览 1提问于2018-01-26得票数 0

2回答

高维最近邻搜索的最佳数据结构

algorithm、data-structures、nearest-neighbor、tradeoff、approximate-nn-searching

实际上，我正在处理高维数据(~50.000~100.000功能)，必须对其执行最近邻搜索。我知道KD树的性能随着维数的增长而下降，而且我也读过，一般来说，所有的空间分区数据结构都倾向于对高维数据执行详尽的搜索。(创建数据结构的时间并不重要)。如果使用aNN (近似最近邻)方法更好，那么将其设置得尽可能准确吗？

浏览 6提问于2015-08-22得票数 4

回答已采纳

1回答

如何使用分层聚类来预测新观测的聚类标记？

python-3.x、scikit-learn、scipy

实际上，在我的例子中，使用pdist的n x n将计算距离，我想要计算从一个观察到的距离( o vs n samples o x n )。谢谢你的高调

浏览 5提问于2020-10-29得票数 2

回答已采纳

1回答

用较小的形状(圆圈)填充多边形

algorithm、polygon、fill

我只想解释一下我在图片上的问题：有一个基本多边形，但在所有情况下都可以简化为一个圆：输出应该如下所示：没有正确的结果，只有好的和坏的。

浏览 3提问于2016-02-28得票数 4

1回答

聚类三维多元数据

clustering

我正在寻找一个聚类过程，它将根据空间关系和多元维度对一些3D点进行分组。维数主要用(区间)度量变量表示，很少由范畴变量组成。我的问题：是否有分析分类维度和度量维度的聚类过程？我的数据如下： 0.0000 0.0000 0.0000 0.0084 0.01

浏览 0提问于2018-06-22得票数 1

2回答

哪种算法可以用来降低多个时间序列的维数？

python、autoencoder、pca、pytorch、dimensionality-reduction

在我的数据集中，数据点本质上是一个时间序列，每个月都有6个特性，因此，总的来说，它会产生6*12=72特性。我需要找到类异常值，所以我执行降维，希望保持数据的差异，然后应用k均值聚类和计算距离。对于降维，我尝试了PCA和简单的自动编码器将维数从72降到6，但结果并不令人满意。有谁能建议其他减少这类数据尺寸的方法吗？

浏览 0提问于2019-07-28得票数 1

1回答

使用具有层次聚类的距离矩阵查找聚类的数量

r、hierarchical-clustering、traminer

如何在使用层次聚类时确定最佳聚类数量。如果我只有距离矩阵，因为我只测量成对距离(levenshtein distance )，我如何找到最佳聚类数？我提到了其他的帖子，他们都使用k-means，层次结构，但不是字符串类型的数据，如下所示。关于如何使用R来查找聚类的数量，有什么建议吗？

浏览 13提问于2019-08-30得票数 2

回答已采纳

8回答

确定k近邻的最佳k值

algorithm、language-agnostic、artificial-intelligence、cluster-analysis、complexity-theory

我需要对一组二维数据进行聚类分析(我可能会在此过程中添加额外的维度)。你会推荐什么样的捷径/近似来提高性能。

浏览 9提问于2009-11-09得票数 6

1回答

从平面(2D)中的一组点出发，丢弃孤立的和组剩余的

algorithm、geometry、graph-theory

我目前正在从事一个需要解决以下问题的项目：然后，我需要能够告诉用户他用来访问该资源的“区域”。所谓的“面积”y可以是指周长(中心和比率)。我打赌一定有一些关于这个问题的文献，但问题是，我甚至不知道这个问题的术语，以及从哪里开始寻找。

浏览 2提问于2011-11-16得票数 2

回答已采纳

1回答

确定K-表示Python中的簇数

python、cluster-analysis、k-means、data-mining

我将一个轨迹数据集保存在一个*.csv文件中，并根据月份对其进行排序。我是说，我按月把它分成了不同的文件。每个文件中的记录数是不同的。例如，一月份我有一万张唱片，四月份我有五十万张唱片。我将对每个文件在python中执行k均值集群。你能告诉我怎样才能找到或确定的最佳簇数到初始的K 谢谢

浏览 1提问于2021-03-21得票数 0

2回答

R中的集群PAM -如何忽略列/变量但仍然保留它

r、cluster-analysis

我想使用R中的集群PAM算法来对大约6000行的数据集进行聚类。我希望PAM算法忽略一个名为"ID“的列(而不是在集群中使用它)，但我不想删除该列。我希望稍后使用该列将群集数据与原始数据集组合起来。基本上，我想要的是向原始数据集中添加一个集群列。我想使用PAM作为一种数据压缩/变量缩减方法。我有220个变量，我想对其中的一些变量进行聚类，并降低数据集的维

浏览 4提问于2013-12-06得票数 2

回答已采纳

2回答

聚类python中的500万个地理空间点

python、cluster-analysis、geospatial

目前，我面临的问题是如何在python中对50万纬度/经度对进行聚类。点存储在元组中，其中包含纬度、经度和该点的数据值。简而言之，在python中对大量的纬度/经度对进行空间聚类的最有效方法是什么？对于这个应用程序，我愿意以速度的名义牺牲一些准确性。编辑:算法要查找的簇数是未知的。

浏览 2提问于2014-06-03得票数 8

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云