从非常大的配对列表中提取单链聚类_在R中测量层次聚类(单链路)的准确性_从相似数量的聚类的分组列表中查找最大值 - 腾讯云开发者社区

graph、nlp、cluster-analysis、minimum-spanning-tree

我需要根据它们的余弦相似性来聚类(假设作为参数k)，单词(我存储在数组列表中)。我已经将我所有的单词作为顶点存储在一个完整的、加权的、无向图(使用邻接列表)中，并将它们的余弦相似度值放在边上。据我所知，我需要使用MST (Kruskals算法)进行聚类处理。然而，由于我的图是完全图，而MST用于连通图，我有点困惑如何在完全图上使用它？还是我用完全图做错了？这是我的wordList： [directors, producers, film, movie, black, white, man, woman, person, man, young, woman, science, fictio

浏览 2提问于2018-04-28得票数 0

回答已采纳

3回答

为什么Kruskal聚类生成次优类？

algorithm、tree、cluster-analysis、minimum-spanning-tree、kruskals-algorithm

我试图开发一种聚类算法，任务是在一组2D点上查找k类，(以k作为输入)，使用Kruskal算法进行轻微修改，找出k个生成树，而不是一个。我用rand指数将我的输出与提议的最优(1)进行了比较，当k=7时，结果是95.5%。比较可以在下面的链接中看到。问题：集合中有5个清晰的聚类，它们很容易被算法分类，但是当k> 5时，结果是相当令人失望的，这是事情开始变得棘手的时候。我相信我的算法是正确的，也许数据对Kruskal方法特别不好。单链接聚类，如Kruskal，在某些问题上表现不佳，因为它将对聚类质量的评估降低到一对点之间的单一相似性。该算法的思想非常简单：用数据集制作一个完整

浏览 2提问于2013-12-05得票数 6

回答已采纳

1回答

聚类最小生成树的数据集

dataset、cluster-analysis、minimum-spanning-tree、unsupervised-learning

最近我遇到了最小生成树的概念，发现它在聚类中有一个应用程序。我正在寻找一个真实的数据集(最好是干净的)，它可以作为各种聚类算法的数据源。有一种信息表明，MST聚类在球面和非球面数据上工作得足够好。这就是为什么非球面数据集也被追求的原因。我心目中的数据集应该包含地面真相信息(标签)，因此各种标志的有效性可以通过与WSS不同的东西来衡量。

浏览 1提问于2018-06-12得票数 0

回答已采纳

2回答

分层聚类启发式算法

algorithm、graph、cluster-analysis、data-mining、hierarchical-clustering

我想探讨大数组中数据项之间的关系。用多维向量表示的每个数据项。首先，我决定使用集群化。我感兴趣的是找到集群(数据向量组)之间的层次关系。我能计算出向量之间的距离。因此，在第一步，我找到最小生成树。在此之后，我需要根据生成树中的链接对数据向量进行分组。但在这一步，我感到不安--如何将不同的向量组合成层次化的集群？--我正在使用启发式方法:如果两个向量连接在一起，它们之间的距离非常小--这意味着它们在同一个集群中--如果两个向量连接在一起，但它们之间的距离大于阈值--这意味着它们在具有公共根簇的不同集群中。但也许有更好的解决方案？谢谢 P.S.感谢大家！事实上，我试过使用k-均值和CLOPE

浏览 2提问于2011-07-10得票数 4

回答已采纳

1回答

比较图之间的相似性？

cluster-analysis、similarity、directed-graph

我有多个，表示为有向图。我已经使用来比较两个概念图，但是现在我想将相似的图分类/聚类在一起。 AFAIK，传统的聚类算法以输入为多维数据点.但我也读到，很难，而且不建议将一个图转换成一个向量。在这种情况下，我如何处理这个问题？

浏览 3提问于2016-06-14得票数 0

1回答

如何应用nltk对问题进行分类

python、nlp、data-mining、text-mining、text-classification

我有一个从在线网站提取的文本文件中的问题列表。我是第一次接触nltk (Python语言)，并且经历了( )的初始章节。请任何人帮我把我的主题归类在不同的标题下。我不知道问题的标题。那么，如何创建标题和分类，然后呢？

浏览 2提问于2015-03-12得票数 0

2回答

从相似矩阵执行聚类

python、clustering、k-means

我有一个歌曲列表，我为每个歌曲提取了一个特征向量。我计算了每个向量之间的相似度分数，并将其存储在一个相似矩阵中。我想根据这个相似矩阵对歌曲进行聚类，以尝试识别集群或某种类型的歌曲。我使用networkx包从相似矩阵中创建了一个力有向图，使用了弹簧布局。然后，我将KMeans聚类用于该图中节点的位置，这就产生了有意义的集群。但是，我不确定这是否是正确的方法，因为它与弹簧布局所给出的位置有着根本的联系。我也尝试在相似矩阵上运行谱聚类，但是它太慢了。是否使用从相似矩阵生成的图形导出的位置，然后用管道插入KMeans的弹簧布局来提取簇，从根本上存在缺陷？如果是这样的话，在给定相似矩阵的情况下，对

浏览 0提问于2021-04-15得票数 1

1回答

带质心链的层次聚集聚类是否存在链效应？

clustering

众所周知，分层聚类的结果采用单链方法，以确定簇间距离受链效应的影响(自然簇往往通过几个点的线延伸，如下图所示)。质心联动也有同样的缺点吗？ 📷

浏览 0提问于2018-06-05得票数 1

回答已采纳

1回答

基于GPS数据的人群驾驶组合

clustering、beginner、geospatial

我需要根据GPS数据把开车的人聚在一起。数据由移动电话收集。我们每10秒就从每个用户那里分批接收它们。每批的GPS数据(位置、速度、方向)每2秒收集一次。理想的解决方案是实时处理这些数据，并识别/更新一起开车的人群。但是，我们可能会从用户那里收到无序的数据(例如，由于连接性的丧失)。最终，我们应该得到所有的条目，但这使得实时处理更加复杂。相反，我想先从后处理开始。我计划使用线性回归对每个用户在给定时期的数据进行规范化--在同一时间具有位置标记。然后利用聚类算法对用户进行聚类。这是一个好办法吗？如果是，那么您会推荐哪种聚类算法。或者有更好的方法来解决这个问题？

浏览 0提问于2022-10-23得票数 1

1回答

Hadoop单节点与多节点

java、linux、hadoop

我是安装单节点和多节点(1主和1从)集群。当我试图运行我的应用程序时，单节点和多节点都需要相同的时间。在我的应用程序中，我将数据从HDFS复制到本地文件系统，然后对其执行处理。这是因为我在本地存储了文件，并且集群中的其他节点无法访问这些文件吗？我提供了一个文件，它实际上被分成三个块，所以逻辑上应该在多节点上处理得更快。有什么想法吗？谢谢!

浏览 1提问于2014-09-07得票数 0

1回答

如何对HAC中具有相同余弦相似度的对象进行聚类

python-2.7、cluster-analysis、hierarchical-clustering、cosine-similarity

我想将对象A与对象B或对象C聚类，但对象A与对象B的余弦相似度为0，对象A与对象C的余弦相似度为0。在直接聚类之前，我需要一步一步地对这些对象进行聚类，哪个应该是第一个对象A与B或对象A与C的组合？

浏览 0提问于2018-06-22得票数 0

3回答

不同大小的聚类邻接矩阵

graph、cluster-analysis、data-mining、adjacency-matrix

我已经为不同大小的有向图创建了邻接矩阵。我有大约30,000个矩阵，每个矩阵都在一个单独的文本文件中。我如何对它们进行集群，是否有可用的工具。表示集群的有向图的最佳方式是什么？谢谢。

浏览 0提问于2011-12-06得票数 2

1回答

如何对地理数据进行密度聚类？

r、algorithm、cluster-analysis、geospatial、dbscan

我想使用基于密度的算法来聚类地理数据(坐标，至少高度)。我发现DBSCAN应该可以很好地满足我的需求。我想要用分钟数1或2的小的单独的集群。它可以做这项工作，但留下其他点作为一个巨大的集群或噪音，我希望这些集群也被分成更小的组。例如，如果我在地图上有两组位于不同位置的高点(如山脉)，我希望它们位于两个独立的集群中。如何做到这一点？也许是为了在算法中设置最大点数？我很感谢你的建议。附注:我为了这个目的使用了R，但问题更多的是关于方法。

浏览 0提问于2018-06-29得票数 0

1回答

我知道哪个论坛的特定用户阅读-如何集群的数据？

clustering、k-means

我有如下数据集。对于每个用户，我与他阅读的论坛有一个单独的行。有多达100个不同的论坛。 📷 我想对这些数据进行聚类，这样每个用户都将根据他阅读的论坛被分配到其中一个组(我不知道有多少组)。你知道我是否可以使用现成的算法吗？现在，我在想，如果我能从所有论坛的列表中计算出向量，并在上面使用k-均值。第二件事是按以下方式转换数据： 📷 我想，如果我只使用1，如果用户阅读论坛，或0，如果没有，这将不会与k-的意思。我可以提取的帖子数量，声誉或向上，而不是"1“。它能用k方法吗？

浏览 0提问于2021-04-16得票数 0

1回答

基于特定关键字创建集群

nlp、clustering、k-means、python-3.x、association-rules

我正在处理原始文本数据。我正在使用聚类将文档中的常见单词组合在一起。我的要求是根据特定的单词列表创建集群，也就是说，我想获得一组通常与用户给定的单词列表一起发现的单词。从视觉上看，集群应该如下所示。通常，集群技术的重点是创建隔离的集群，而我需要有一些重叠的隔离集群。图像显示了预期结果的视图。我尝试过使用k均值聚类、Apriori算法和Python中的PrefixSpan。但我想要的结果没有实现。如有任何建议，将不胜感激。 📷

浏览 0提问于2021-03-30得票数 0

1回答

为什么:：只适用于列表？

list、scala、collections、cons

使::特定于List而不是对Seq的所有子类可用的原因是什么？举一个具体的例子： // :: for pattern matching def getTail[E](s: Seq[E]): Seq[E] = s match { case head :: tail => tail case empty => empty } getTail(Seq(1, 2)) // returns List(2) as expected getTail(Seq()) // returns List() as expected getTail(Queue(1, 2)) // returns

浏览 2提问于2015-10-23得票数 4

1回答

Python中相似字符串的聚类算法？

python、string、algorithm、cluster-analysis、bioinformatics

我正在编写一个脚本，该脚本目前包含多个DNA序列列表(每个列表有不同数量的DNA序列)，我需要根据Hamming距离相似性对每个列表中的序列进行聚类。我目前的实现(目前非常粗糙)提取列表中的第一个序列，并计算每个后续序列的Hamming距离。如果它在一定的Hamming距离内，它会将其附加到一个新的列表中，该列表稍后用于从原始列表中删除序列，并将类似的序列存储在一个defaultdict中。请参阅下面代码的当前实现： def hamming_dist(sequence1, sequence2): """ Calculates the hamming distance b

浏览 0提问于2018-03-04得票数 1

3回答

使用updateApplicationContext发送密钥链值安全吗？

ios、watchkit、watchos-2、watchconnectivity

在watchOS 2中，不再有共享的密钥链。如果我想将密钥链值从iOS应用程序发送到Watch应用程序，那么通过WCSession updateApplicationContext发送它安全吗？

浏览 9提问于2016-01-28得票数 16

回答已采纳

1回答

Dart:如何使用mixins绕过菱形图案？

dart、mixins

在Dart中使用Mixins时，有没有办法解决菱形问题？看看下面这个简单的例子： class M1 { String sayHello() => "hello M1"; } class M2 { String sayHello() => "hello M2"; } class S { String sayHello() => "hello S"; } class C extends S with M1, M2 {} main() { C c = new C(); print(c.sayHello());

浏览 1提问于2014-07-02得票数 3

1回答

如何从agnes中提取聚类中心并输入到kmeans中？

r、cluster-analysis

为了得到一个好的聚类结果，首先使用层次聚类方法，选择多个聚类，然后提取质心，然后将其作为K均值聚类算法重新运行，并预先指定中心。一个玩具示例： library(cluster) data(animals) ag.a <- agnes(agriculture, method = "ward") ag.2 <- cutree(ag.a, k = 2) 这会给我两个簇。我如何提取聚类中心的格式，然后将其放入kmeans()算法中，并将其重新应用于相同的数据？

浏览 4提问于2015-06-09得票数 0

3回答

聚类:可变数据维度的训练数据集

cluster-analysis、dimensionality-reduction

我有一个包含n个数据的数据集，其中每个数据都由一组提取的特征表示。通常，聚类算法要求所有输入数据具有相同的维数(相同的特征数)，即输入数据X是n个数据点的n*d矩阵，每个数据点具有d个特征。在我的例子中，我之前从我的数据中提取了一些特征，但每个数据提取的特征的数量很可能是不同的(我的意思是，我有一个数据集X，其中数据点具有不同数量的特征)。有没有办法调整它们，以便使用一些常见的聚类算法对它们进行聚类，这些算法要求数据具有相同的维度。谢谢

浏览 7提问于2011-12-18得票数 1

回答已采纳

1回答

使用平均链接的“`hclust”和“`agnes”的不同结果

r、cluster-analysis、hclust

我正在将一个简单的聚类过程应用于自定义的模拟相似矩阵。() 然而，当使用平均链接时，我注意到了hclust和agnes过程之间的差异(注意:对于一个完整的链接，我也观察到了相同的行为)。 load("sim_col.RData") # A 606 x 606 similarity matrix library(cluster) c1 <- hclust(as.dist(1-sim_col),method="average") c2 <- as.hclust(agnes(as.dist(1-sim_col),diss=TRUE,method="

浏览 2提问于2017-03-11得票数 0

回答已采纳

4回答

数以百万计的高维数据的聚类

dataset、cluster-analysis、large-data

我有一组5000万个文本片段，我想从它们中创建一些集群。维度可能在60k-100k之间。文本片段的平均长度为16个单词。正如你可以想象的，频率矩阵将是相当稀疏的。我正在寻找一个软件包/ libray / sdk，可以让我找到这些集群。我曾经尝试过CLUTO，但这对CLUTO来说似乎是一项非常繁重的任务。从我的在线研究中，我发现BIRCH是一种可以处理这类问题的算法，但不幸的是，我在网上找不到任何BIRCH实现软件(我只找到了几个特别的实现，比如分配项目，缺乏任何类型的文档)。有什么建议吗？

浏览 3提问于2011-09-15得票数 3

2回答

不带输入参数的数据聚类

parameters、machine-learning、hierarchical-clustering

这更多的是一个理论问题：您是否知道任何不需要任何输入参数的聚类算法(平面或分层)，如聚类的数量或邻域的大小等？换句话说，您只需将数据作为输入提供给算法，并将聚类作为输出。如果在相关文件/文档中得到建议，我将非常高兴。

浏览 2提问于2013-02-08得票数 4

1回答

NLP - amazon回顾特征提取

python、machine-learning、nlp

我正在处理亚马逊评论数据集。目标是提取每种产品的正面和负面特征。例如:对于“这个产品有很好的电池寿命”这句话，我想把‘电池’这个词提取出来作为一个积极的特征。数据集包含以下字段：审核者的reviewerID - ID，例如A2SUAM1J3GNN3B 产品的asin - ID，例如0000013714 reviewerName -审阅者的名称有帮助的-评估的有用性，例如2/3 reviewText -评论文本整体-产品的评级摘要-评论摘要 unixReviewTime -评审时间(unix ) reviewTime -评审时间(raw) 到目前为止，我将两个列表的评论分开: pos

浏览 2提问于2020-03-26得票数 0

1回答

为什么继承单例方法(AKA:类方法)？

ruby、metaprogramming

我对这种行为有点惊讶： puts RUBY_VERSION # 2.4.1 class A class << A def my_method puts self end end end class B < A ; end puts A.singleton_methods.inspect # [:my_method] puts B.singleton_methods.inspect # [:my_method] puts B.my_method # B puts A.my_method # A 在元编程Ruby 2(了不起的书BTW)中，

浏览 0提问于2019-05-04得票数 2

1回答

如何应用自适应模式生成

c++、c、opencv、image-processing

其中一篇关于运动物体提取方法的定义如下：提出的基于FLD的径向基函数算法通过感知的三个变量在YCbCr颜色空间中建立输入，为许多数字视频应用提供支持。这些变量是亮度(Y)、蓝差色度(Cb)和红差色度(Cr).因此，像素pt(x；y)的颜色元素一起使用Y、Cb和Cr值来表示每个传入视频帧中每个像素的强度和颜色。为了提供可变比特率视频流特性，有必要生成低维鉴别模式。这是通过使用最优投影向量通过FLD技术从进入帧的连续流入在鉴别模式提取操作中实现的。通过使类间散射和类内散射32、33的比率最大化的过程获得最优投影向量。该方法将每个传入帧分成N个块，kth块xk属于ith类。让类间散射矩阵确定如下

浏览 2提问于2014-02-13得票数 1

回答已采纳

1回答

如何在分层聚类中使用surf功能

matlab、image-processing、computer-vision、sift

首先，提取surf特征并将其用于聚类是真的吗？我想在图像中聚类相似的对象？(每个图像包含一个对象) 如果是，怎么可能。我像这样提取特征： I = imread('cameraman.tif'); points = detectSURFFeatures(I); [features, valid_points] = extractFeatures(I, points); 特征不是向量，而是由“detectSURFFeatures”提取的点的数量在不同的图像中不同。功能应该如何使用？

浏览 5提问于2017-12-15得票数 0

1回答

如何管理Flutter中的大型模型的状态？

flutter、bloc、flutter-provider

我正在编写我的第一个Flutter应用程序，并努力应对各种状态管理解决方案。我决定从Provider开始，但我正在考虑切换到BLoC。到目前为止，我发现的大多数示例都局限于相对简单的事情，比如显示项目列表或响应一些按钮按下。在我的例子中，几乎所有的应用程序都专注于设置相当大的数据块。(它基本上是一堆表单，所有表单都在大型数据结构的不同位上工作。) 目前，所有的状态管理都被放在一个provider类中，因为它们中的大多数都是非常密切相关的。例如，它最大的部分是一个项目列表，然后是该列表的一系列子集。应用程序中的大部分数据操作都在这些子集上。一开始我并不打算这样做，但我发现自己将实际使用提供程

浏览 12提问于2021-09-22得票数 4

1回答

bagoffeatures提取不同类型的特征

matlab、computer-vision、matlab-cvst

我对matlab计算机视觉系统工具箱中实现的函数包有一个问题。我正在研究不同类型图像的分类，首先我尝试使用bagoffeatures和diffenrets自定义提取器，我想将我的工作分成两个分支，首先提取SURFpoints并提取3种不同类型的描述符，例如SURF BRISK和FREAK，当我在自定义提取器中使用下一行时： features = extractFeatures(grayImage,multiscaleGridPoints,'Upright',true, 'method', 'SURF'); 它总是需要让SURF方法工作，但我需

浏览 9提问于2017-02-27得票数 0

2回答

如何对大型数据集进行聚类

algorithm、data-structures、cluster-analysis

我有一个非常大的文档数据集(5亿)，并希望根据其内容对所有文档进行聚类。什么是最好的方法来解决这个问题？我尝试使用k-方法，但它似乎不合适，因为它需要所有的文档同时进行计算。是否有适合较大数据集的聚类算法？参考:我正在使用Elasticsearch来存储我的数据。

浏览 1提问于2015-05-12得票数 2

回答已采纳

1回答

有人能帮助我使用sift和比利时数据集进行交通标志识别吗？

image-processing、out-of-memory、svm、k-means、sift

我想使用sift和词袋方法来识别交通标志。我使用了比利时交通标志数据集和德国tsr数据集，但图像太多了。我提取了sift特征，并计算了从训练集中提取的整个sift集的K-Means。但在这一步中，matlab给出了内存不足的情况，因为整个比利时数据集上有3668271个sift特征。我能做些什么来防止内存不足问题？

浏览 1提问于2015-03-09得票数 0

1回答

如何正确管理对数据库对象的访问？

java、oop、object-oriented-analysis

我想知道是否有更好的方法来解决我的问题。更好的是，并不是Segment类的每个对象都必须创建一个新的数据库对象。我试图在我的程序中只保留一个数据库，因为这个数据库非常大，我相信有一个更有效的解决方案。数据库在列表中保存类SegmentInformetion的对象。每个对象包含每个Segment对象实例化所需的许多信息。 Layer Class包含一个线段列表。Layers构造函数包含一个带有ID的数组。每个段都将根据它调用数据库所使用的ID从数据库中获取信息。 Database { List<SegmentInformation> segInfoList; p

浏览 0提问于2019-10-31得票数 4

1回答

K表示交叉验证

k-means、cross-validation

我得到了一份美国县的列表，其中包含贫困、人口等数据，并使用k均值算法进行了聚类。我对聚类进行了交叉验证，如下所示:我将县分为一个训练集和一个坚持集。我在聚类过程中去掉了贫困特征，然后对于坚持集中的每个县，我找到了最近的聚类，然后从最近聚类的平均贫困中减去了该县的贫困。最后，我将上面的差值平方，对坚持集合中的每个县进行求和，然后除以坚持集合中的县的数量。然后我做了同样的事情，但这一次贫困特征参与了聚类。我观察到错误比以前明显减少了，但我读到这是某种程度上的“作弊”。什么是直观的方式来理解为什么在聚类中包含贫困是错误的？

浏览 0提问于2012-12-09得票数 0

回答已采纳

1回答

weka中的ClusterMembership类是做什么的？

machine-learning、classification、cluster-analysis、weka、categorization

我在用weka做分类实验。我尝试了weka提供的一些特性，这些特性可以应用于提取的属性上，我发现将聚类成员资格应用于这些属性将提供比其他方法更高的准确性。我不太清楚这个特性是做什么的，因为它删除了所有的属性，只保留了一些东西，比如pCluster__0、pCluster_1_0、pCluster_2_0和类属性，所以我不太确定我从它得到的结果是否有效，它会对其他新的未见实例起作用吗？来自Weka的文件一种过滤器，它使用基于密度的聚类器生成集群成员资格值；过滤后的实例由这些值和类属性(如果在输入数据中设置)组成。如果设置了(名义)类属性，则为每个类分别运行集群程序。在集群操作期间，类属性(如

浏览 5提问于2015-10-29得票数 1

1回答

时间序列聚类与时间序列分割的区别

time-series、cluster-analysis、data-mining、segment

在时间序列数据挖掘的背景下，我读过关于时间序列分割和时间序列聚类的文章，但是我无法区分两者。如果它们是不同的，这些方法如何相互关联？根据我的理解(如果我错了，请纠正我)，分割被认为是聚类阶段的预处理步骤。我的意思是，分段步骤主要用于将时间序列数据划分为分段，例如，将其划分为状态。在此基础上，采用传统的聚类算法对这些片段进行聚类(相似段属于同一簇)。例如，假设分段过程将给定的时间序列表示为以下部分：(S1、S2、S3、S4、S5、S6)。然后，在应用分割过程后，采用传统的聚类方法对提取的片段进行聚类。因此，我们可能会得到这样的结果:如果k= 3:那么K1 {S1，S5}，K2 {S3，S6}

浏览 0提问于2018-03-31得票数 3

回答已采纳

1回答

根据提取的关键字和tf将新文档分配给集群。

clustering、similarity、tfidf

我有大约40组文档，由k均值聚类算法和手工管理相结合来定义。例如，k均值给出的一些簇太吵，因此它们被进一步细分。现在，我想为这些集群分配新的文档。我发现可以使用基于tf的方法来提取关键字，就像前面提到的这里一样。我的方法是使用基于tf的方法从这些集群中提取关键术语，我可以使用相同的方法从新文档中提取关键字。我的问题是，如何将新文档分配给最相似的集群？编辑:我没有足够的声誉来评论Marks的答案: kmeans的输入是所有文档的文档向量(来自doc2vec) --我得到了初始集群的质心，即centroids = kmeans_model.cluster_centers_。但是，我已经将

浏览 0提问于2018-12-14得票数 1

2回答

基于n的文本类别的聚类或分类

classification、clustering、text-mining、ngrams

我有大量的数据记录如下所示： "text", "category" 我从文本中提取n克(2-、3-和4克)，并对每个类别的n克进行存储计数，如下所示： "ngram1", "category1", 1000 "ngram1", "category2", 20 "ngram1", "category3", 15 "ngram2", "category1", 25 "ngram2", "category2",

浏览 0提问于2017-05-08得票数 6

1回答

时间序列聚类与时间序列分割的区别

data-mining、clustering、time-series

浏览 0提问于2018-03-31得票数 4

回答已采纳

1回答

在矩阵中标注相邻点

r、algorithm

我有一个8x8矩阵： 1 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 创建它的代码： examplemat <- matrix(c(1, 1, rep(0, 6), 1, rep(0, 9), 1, 1, rep(0, 17), 1, rep(0, 7), 1, rep(0, 5), 1, rep(0, 11), 1), 8, 8, byrow=T) 它们被提取为坐标： onecoo

浏览 2提问于2016-06-21得票数 4

回答已采纳

1回答

周末数据聚类与多重共线性

machine-learning、clustering、unsupervised-learning、correlation

嗨，我有工作日和周末步骤计数的数据，其中我从它们中提取了度量，如wd步骤，我们步骤，wd步骤的标准偏差，我们步骤的标准偏差等等。 wd_count we_count wd_sd_count we_sd_count ... .... .... 1 5000 3000 300 500 2 7000 2000 400 100 如果我对这些数据进行聚类，那么工作日和周末变量将是高度相关的，我必须在聚类之前删除它们。对于这种分析，有什么办法解决这个问题吗？

浏览 0提问于2019-12-30得票数 2

2回答

文档及其结构的聚类

python、machine-learning、cluster-analysis、k-means、unsupervised-learning

我正在通过查看文档的结构来对文档进行聚类。我在下面的代码中提取了BERT嵌入变量X中的结构。我正在尝试的是： for num_clusters in np.arange(2,200): model = KMeans(n_clusters=num_clusters) model.fit(X) pred = model.predict(X) centers = model.cluster_centers_ cluster_sum = 0 for i , c in enumerate(centers): use = []

浏览 0提问于2020-05-13得票数 2

2回答

如何在数据集非常小的情况下对特征进行加权，以便更好地进行聚类？

statistics、machine-learning、cluster-analysis、feature-extraction、feature-selection

我正在做一个程序，它在特征空间(1000+维度)中获取几个(<50)高维点，并通过递归使用标准k-聚类对它们执行层次聚类。我的问题是，在任何一次k聚类过程中，高维表示的不同部分都是冗余的。我知道这个问题在特征提取、选择或加权的保护伞下。一般来说，在选择特定的特征提取/选择/加权算法时，应该考虑什么？具体地说，在我的情况下，什么算法是为聚类做好数据准备的最佳方式？

浏览 8提问于2011-07-15得票数 4

回答已采纳

1回答

黑白图像文档聚类

python、opencv、machine-learning、computer-vision、cluster-analysis

我有一些黑白文档(图像扫描)，并希望根据它们的布局对它们进行聚类。为了使事情更具体，假设我有以下三张图片，前两张更有可能落入同一个集群，而不是第三张图像，因为前两张的布局比较相似。我的问题是，对文档进行聚类的最佳方法是什么？现在我有几个初步的方法：获取图像哈希并比较哈希用主成分分析和几种聚类方法(K-均值)对低维表示进行比较。使用OCR提取字符串，提取文本特性并进行比较。使用OCR提取字符串并进行关键字搜索还有其他更好的方法吗？同样，只有布局才重要。

浏览 0提问于2017-11-23得票数 5

2回答

如何在集群上应用集群？

r、cluster-computing、cluster-analysis、igraph

我使用R library(igraph)对我的数据集进行聚类。我有几个连接的组件，但第一个非常大，这是巨大的组件。我想在这个巨大的组件上重新应用集群，以便重新构建集群。这样做有意义吗？

浏览 4提问于2019-06-06得票数 0

2回答

寻找聚类算法的准确性

machine-learning、data-mining、cluster-analysis

如何找出一个聚类算法的准确性，给出该算法的真实聚类和预测聚类？我在网上搜索，但找不到任何有用的资源。我知道如何计算分类算法的准确率。

浏览 0提问于2013-07-29得票数 0

回答已采纳

1回答

使用局部敏感散列**随机投影进行聚类

machine-learning、clustering、dimensionality-reduction、search、randomized-algorithms

众所周知，随机投影(RP)与局部敏感散列(LSH)紧密相连。我的目标是在d维欧几里得空间中聚集大量的点，其中d非常大。问题:首先使用RP降低了输入空间的维数后，通过LSH对点进行聚类是否有意义？为什么是/不是？在LSH作为聚类方法之前，RP作为降维方法的联合使用是否存在冗余？

浏览 0提问于2022-09-26得票数 1

回答已采纳

1回答

K-均值在猪描述符中的应用

computer-vision、dlib

我使用dlib提取了一个HOG描述符，并将它们存储在一个由二维数组组成的数组中。现在，我想用K-均值对描述符进行聚类。人们将如何进行这样的聚类？我可以想出两种实现它的方法：按线执行聚类。因此，对任意二维数组都是分开的。同时对所有行执行群集。

浏览 1提问于2017-07-26得票数 0

回答已采纳

3回答

了解scikit learn KMeans返回的"score“

python、scikit-learn、k-means

我对一组文本文档(大约100个)进行了聚类。我使用TfIdfVectorizer将它们转换为Tfidf向量，并将向量作为输入提供给scikitlearn.cluster.KMeans(n_clusters=2, init='k-means++', max_iter=100, n_init=10)。现在当我 model.fit() print model.score() 在我的向量上，如果所有的文本文档都非常相似，我会得到一个非常小的值，如果文档非常不同，我会得到一个非常大的负值。它实现了查找哪些文档集相似的基本目的，但是有人能帮助我理解这个model.score()值对于拟合

浏览 3提问于2015-09-03得票数 27