大数据聚类分析_matlab聚类分析_聚类分析python - 腾讯云开发者社区

r、cluster-analysis、outliers

我如何在R中编码复制在SAS中进行的聚类分析，其中涉及method=Ward和TRIM=10选项，自动删除10%的情况作为异常值？(这个数据集有45个变量，每个变量都有一些异常值响应。)当我使用Ward的方法搜索R聚类分析时，trim选项被描述为缩短名称而不是删除异常值的东西。如果我在聚类分析之前不整理数据集，就会出现一个大的聚类，其中有许多代表外围个体的单案例“集群”。

浏览 3提问于2015-04-11得票数 1

回答已采纳

3回答

Python中最快的集群包是什么？

scikit-learn、clustering、unsupervised-learning、efficiency、spectral-clustering

我想对1,300列和500,000行的数据集进行聚类分析。SciKit-学习慢吗?

浏览 0提问于2023-03-07得票数 1

回答已采纳

1回答

在python中对地理编码/(经度/经度)数据点进行聚类分析的最佳方法是什么？

python、machine-learning、data-analysis、geo

在python中对地理编码/(经度/经度)数据点进行聚类分析的最佳方法是什么？这方面的任何帮助都将不胜感激。谢谢

浏览 2提问于2016-01-27得票数 1

1回答

设置图形的布局以便在纸上打印

algorithm、printing、graph

我们的应用程序显示具有大量节点和边的潜在大图。当然，我们使用点这样的东西来布局图形，它们在屏幕上看起来很好。但是，用户希望将它们打印到纸上。

浏览 6提问于2011-07-08得票数 3

回答已采纳

1回答

聚类客户群购买行为

clustering

我有一组数据，我想知道它们是否有必要添加到聚类分析中。与ONEOFF_PURCHASES_FREQUENCY一样，我不确定它是否有助于进行聚类分析。我拥有的数据集: ONEOFF_PURCHASES_FREQUENCY，PURCHASES_INSTALLMENTS_FREQUENCY，CASH_ADVANCE_FREQUENCY，PURCHASES_AMOUNT

浏览 0提问于2022-10-04得票数 0

3回答

如何生成具有异常值的不同形状(例如，正方形、圆形、矩形)的双变量数据？

r、dataset、cluster-analysis、data-generation

我目前正在寻找一些工具，可以生成不同形状的数据集，如方形、圆形、矩形等，以及用于聚类分析的异常值。你们中有谁能推荐一个好的数据集生成器用于聚类分析吗？有没有办法在像R这样的语言中生成这样的数据集？

浏览 1提问于2011-01-18得票数 7

1回答

操作超大型文本文件和聚类分析

c#、python、text、cluster-analysis

我试图使用一个(非常)大的45 to .txt文件，该文件不能使用普通文本编辑器打开。我想要的基本上是清理它，过滤一些数据，总结一些单元格/参数，在每一行中附加一些额外的数据，并执行聚类分析(可能是使用python或C#，因为我已经开始收集它)。

浏览 0提问于2018-11-07得票数 0

回答已采纳

1回答

我一生中从来没有做过聚类分析，我整齐地遵循了一本关于如何在R中进行聚类分析的书中的步骤。R:无监督机器学习的聚类分析实用指南:第1卷(多元分析)，Alboukadel Kassambara先生然而，我遇到了一个问题，因为在这本书中，数据标准化取代了数值变量，然而，我有一个由13个变量组成的数据集我查过google和一些堆叠溢出问题，我找不到一个明确的答案，比如如何处理分类变量和连续变量组合的聚类分析。

浏览 2提问于2018-07-18得票数 0

回答已采纳

2回答

聚类分析

r、cluster-analysis

我想对我的数据集进行聚类分析。我在R中发现的所有软件包都是聚类观测，而不是变量。我想对变量进行聚类分析。如何使用变量执行群集。

浏览 1提问于2018-07-03得票数 0

回答已采纳

1回答

在Python编程中使用numpy和nltk或CLUTO对单词进行聚类

python、cluster-analysis、nltk、cluto

我的部分数据如下所示(这只是个例子)。基于这种格式的数据，我想做一个聚类(例如，(猫，狗)，(马)，(驼鸟)共3个聚类)。但是我不能..。(我还必须根据输入数据进行一些聚类)

浏览 3提问于2013-12-26得票数 1

1回答

如何在SPSS中获取标明变量的数据文件？

cluster-analysis、spss、hierarchical-clustering

我有数据集，并使用SPSS执行聚类分析。现在，为了知道哪个阶段和步骤代表哪个变量，我需要有一个数据文件，其中指明了哪些变量用于实现聚类分析。我已经保存了集群解决方案，但它没有帮助。应执行哪些操作或步骤来获取用于此目的的所需数据文件？

浏览 2提问于2016-12-02得票数 1

2回答

我应该使用多少变量来聚类一个巨大的数据集？

cluster-analysis、spss、hierarchical-clustering

我的第一个问题是:我应该使用所有的量化变量来进行聚类分析吗？我阅读的所有手册都为集群解决方案选择了一些选定的变量，而不是所有这些变量。第二个问题是，我试图对所有的定量数据使用分层聚类，但SPSS通知说：没有足够的有效案例来执行聚类分析。...which意味着我拥有的数据集不能用来进行聚类分析.在这种情况下，我应该做什么来执行聚类分析？

浏览 9提问于2016-11-15得票数 0

2回答

在日历中显示群集

r、cluster-analysis、hierarchical-clustering

我正在进行分层聚类分析。第一列(chr)是日期，不包括在聚类分析中。有办法在日历上显示星系团吗？我有日期列和集群列。

浏览 2提问于2022-04-08得票数 0

1回答

在进行聚类之前，通过对特性(因此是数据)进行探索性数据分析，我能获得什么价值？

machine-learning、data-mining、clustering、unsupervised-learning、k-means

我理解EDA帮助我们对数据产生良好和有用的洞察力，这在数据理解中至关重要。如果不考虑标准检查和操作，例如-删除异常值、缩放、删除常量值列、删除空/‘零’值列等，以及如果我们有20-30个特性。

浏览 0提问于2020-01-22得票数 3

0回答

K-means聚类不能找到数据中的所有聚类

r、cluster-analysis、k-means

我使用的数据集如下所示。正如你所看到的，你会认为k-means聚类分析会很容易地找到这些聚类的中心。然而，当我运行K均值聚类分析并绘制中心时，我得到了这样的结果。

浏览 10提问于2017-12-07得票数 1

回答已采纳

1回答

只包含范畴变量的大型数据集的聚类分析

python、cluster-analysis、large-data

我的数据包含与每个客户相关的500,000行和8,000个变量(产品ids)。每个变量都是一个热编码向量，它显示客户是否购买了该产品。我尝试用MCA (多重对应算法)减少数据的维数，然后使用k均值和dbscan进行聚类分析，但结果并不令人满意。有哪些合适的算法用于高维大型数据集的聚类分析及其python实现？

浏览 1提问于2019-05-30得票数 0

回答已采纳

1回答

R:使用绘图绘制具有超过15个特性的APcluster结果的数据可视化

r、data-visualization、cluster-analysis

我正在处理一个由43列(测量的特性)和许多行组成的数据。经过归一化的数据计算出相似矩阵之后，事情进行得很顺利。

浏览 3提问于2020-03-14得票数 1

1回答

MySQL创建跨用户购物车的相似商品的分布或频率列表

mysql、grouping、cluster-analysis、data-mining、behavior

集群/组不是预定义的，因为它依赖于数据。只要方法可行，任何非编码的有用建议都是受欢迎的。可以在excel中进行简单的聚类分析吗？

浏览 0提问于2014-07-23得票数 0

1回答

从Python中的1D和2D数据中识别出大量的异常值

python、scikit-learn、cluster-analysis、outliers、chunks

data : I在一列中有一个数据d，它作为另外两个变量a和b的函数变化，在其他两列中定义。我的目标是识别d中的块或异常值。这些异常值似乎并不是离群值，但就我的情况而言，我想找出那些不属于线性线的数据云中的数据。我搜索了一下#1，使用KernelDensity模块更合适，而对于#2来说，使用MeahShift模块是一个很好的选

浏览 4提问于2015-07-09得票数 1

回答已采纳

2回答