使用python对混合数据进行聚类

使用Python对混合数据进行聚类是一种常见的数据分析和机器学习任务。聚类是将数据集中的样本分成不同的组或簇，使得同一组内的样本相似度较高，而不同组之间的样本相似度较低。

在Python中，有多个库可以用于实现聚类算法，如scikit-learn、numpy和pandas等。以下是一个完善且全面的答案：

概念：聚类是一种无监督学习方法，用于将数据集中的样本划分为不同的组或簇，使得同一组内的样本相似度较高，而不同组之间的样本相似度较低。聚类算法通过计算样本之间的相似度或距离来确定样本的归属。

分类：聚类算法可以分为层次聚类和划分聚类两大类。层次聚类将样本逐步合并或分割，形成一个层次结构；划分聚类将样本划分为不同的簇，每个样本只属于一个簇。

优势：

发现隐藏的模式和结构：聚类可以帮助我们发现数据中的隐藏模式和结构，从而提供洞察力和理解。
数据预处理：聚类可以用于数据预处理，将数据分成不同的簇，有助于数据的可视化和理解。
无监督学习：聚类是一种无监督学习方法，不需要事先标记的训练数据，适用于大多数数据集。

应用场景：聚类在许多领域都有广泛的应用，包括市场分析、社交网络分析、图像分析、推荐系统、生物信息学等。

推荐的腾讯云相关产品和产品介绍链接地址：腾讯云提供了多个与数据分析和机器学习相关的产品和服务，以下是其中一些推荐的产品和介绍链接地址：

云服务器（Elastic Cloud Server）：https://cloud.tencent.com/product/cvm
云数据库 MySQL 版（TencentDB for MySQL）：https://cloud.tencent.com/product/cdb_mysql
人工智能机器学习平台（AI Machine Learning Platform）：https://cloud.tencent.com/product/tiia
腾讯云数据湖分析（Data Lake Analytics）：https://cloud.tencent.com/product/dla

以上是对使用Python对混合数据进行聚类的完善且全面的答案。

用于聚类的混合数据类型

我有以下类型的聚类数据-数字数据、分类数据和经度数据，用于python中一个数据的位置。当数据混合到这个程度时，我想知道如何进行聚类。是否可以使用DBSCAN或分层群集，以及需要做什么才能将分类数据转换为数字。地理位置数据也是如此。

浏览 0提问于2019-02-15得票数 0

1回答

我试图复制这论文的结果，但是使用python和HMMlearn库来代替matlab。本文介绍了一种利用隐马尔可夫模型( HMM )预测股票价格的方法。本文详细介绍了用四态5混合高斯分布作为模型.转移概率和初始状态概率是一致的，但发射概率是根据现有股票价格数据集的k均值算法的结果来确定的。后半部分是我陷入困境的地方，本文建议使用k-均值算法返回的每个聚类的均值、方差和权重作为混合算法每个组分的均值、方差和权重。据我所知，星系团的平均值只是每个质心的中心，但是我不知道你如何获得方差或权重。给出一个三维数据集X(以[[a, b, c], [d, e, f]...]的形式)，并使用k-均值算法，

浏览 0提问于2016-04-28得票数 2

回答已采纳

1回答

K-均值聚类对使用PCA和原始数据减少的数据有什么不同吗？

、、、、

我正在做聚类工作，我有90个特征，有13500个数据点，去除了相关变量，其中皮尔逊相关性超过90%，我的特征空间减少到70个。而且，几乎所有我最初的90个特性都有大量的零值(超过70%-80%的数据点)。我在算法实现方面所做的是： Ran K-通过根据轮廓指数选择聚类数来表示原始数据的70个特征(均为数字)。 Ran K-通过根据剪影索引选择簇数将维度降到2。我所观察到的和我相应的问题是： K-表示pca减少的数据提供了更好的聚类。有什么办法可以让我用这个集群来解释吗？就像从pca分配聚类标签一样，将数据减少到原始数据原始数据上的K-均值和pca上的K-均值是如何不同的？我知道pca会将数

浏览 0提问于2020-01-21得票数 3

1回答

基于自变量和因变量之间关系模式的数据聚类

、、

我感兴趣的是基于因变量和自变量之间的关系对具有一维输出的二维输入数据进行聚类。例如，如果2-独立维度是x，y，因变量是z，并且(x，y)和z之间的关系在xy空间中的不同区域是不同的；我想对数据进行聚类，使得xy空间中与z具有相同函数关系的区域落入一个聚类中。可以存在于xy空间和z之间的函数关系是先验未知的。如果有人能为我提供指导/参考，告诉我哪些机器学习技术可以按原样使用或修改以适应这个问题，那就太好了。

浏览 0提问于2013-11-16得票数 1

1回答

从人类指定的聚类中学习聚类标准

、、、、

在我的公司，我们每天都有一个数据流，操作员手动将数据聚类成4到10个条目的小组。我想利用机器学习向操作员建议集群，使他们的工作更容易。我有一个大约700个条目和120个维度的数据集，它已经被聚集到大约200个组中。数据集是分类特征和顺序特征的混合，大致分为两部分。作为一种有监督的聚类问题，有没有从已知聚类中学习距离度量或规则的方法？我目前没有他们所遵循的规则来对数据进行聚类。了解他们所遵循的一些规则会有多大帮助？有没有其他技术可以让这个问题变得更容易处理？我正在使用Python和Pandas库来处理数据。提前感谢！

浏览 1提问于2017-06-27得票数 0

3回答

如何对(k-均值)聚类模型中的某些特征给予更高的重视程度？

、、、

我用数字和分类变量对数据进行聚类。为了处理集群模型的分类变量，我创建了虚拟变量。然而，我觉得这会对这些虚拟变量产生更高的重要性，因为多个虚拟变量代表一个范畴变量。例如，我有一个分类变量Airport，它将导致多个虚拟变量: LAX、JFK、MIA和BOS。现在假设我也有一个数值温度变量。现在，我的机场变量似乎是温度变量的4倍，集群主要是基于机场变量。我的问题是，我希望所有变量都具有同样的重要性。有办法这样做吗？我想用一种不同的方式来缩放变量，但我不知道如何对它们进行缩放，以使它们具有同样的重要性。

浏览 0提问于2019-04-16得票数 6

回答已采纳

1回答

多数据类型聚类

、、、、

我有包含文本、分类和数字列的数据，并且希望找到一种能够处理所有这三种数据类型的聚类算法。 📷 我很难找到一种解决方案，使我能够在所有这些特性中使用一个距离度量，或者一个允许我使用自定义距离度量的算法(这样我就可以创建一个自己的距离度量了)。我正在尝试在python中实现这一点。

浏览 0提问于2020-05-11得票数 -1

1回答

如何利用现有的K-means模型对新数据进行分割？

、、

我已经使用k-means聚类建立了一个分割模型。有人能描述一下将新数据分配到这些数据段的过程吗？目前，我正在应用与构建模型时相同的转换/标准化/异常值，然后计算欧几里德距离。最小距离是记录落入的区段。但是，我看到大多数都落入了一个特定的部分，我想知道我是不是在这个过程中错过了什么？谢谢

浏览 0提问于2013-08-09得票数 2

3回答

ML /密度在房屋面积上的聚类。每个维度的两组分或更多的混合物

、、、

我试着自学ML，遇到了这个问题。如果能得到该领域更有经验的人的帮助，我们将不胜感激！假设我有三个向量，其中包含浴室、起居室和厨房等房屋隔间的面积。数据由大约70,000所房屋组成。每个单独向量的直方图明显地具有双峰分布的证据，例如双分量高斯混合。我现在想要某种ML算法，最好是无监督的，根据这些属性对房屋进行分类。说:大浴室，小厨房，大客厅。更具体地说，我希望有一个算法为每个双峰分布向量选择可能的最佳分离阈值，比如大/小厨房(这可以是二进制的，因为我们假设存在双峰分布的证据)，对其他分布向量执行相同的操作并对数据进行聚类。理想情况下，这应该带有一些置信度度量，这样我就可以检查中间政权中的房子

浏览 1提问于2013-04-02得票数 0

2回答

如何处理季节性变化或其他模式变化的时间序列？

、、、

背景我正在研究电能表读数的时间序列数据集。系列的长度依米而异--有些我有几年，另一些只有几个月，等等。许多在一天、一周或一年内表现出显着的季节性，而且往往是多层的。我一直在做的事情之一就是对这些时间序列进行聚类。目前，我的工作是学术性的，虽然我还在对数据进行其他分析，但我有一个特定的目标来执行一些聚类。我做了一些初步的工作，我计算了各种特性(周末和工作日的百分比，不同时间块中使用的百分比等等)。然后，我继续研究如何使用动态时间翘曲(，DTW)来获取不同系列之间的距离，并根据不同的值进行聚类，我发现了几篇与此相关的文章。问题特定系列中的季节性变化会不会导致我的聚类不正确？如果是的话，我

浏览 0提问于2014-12-22得票数 27

5回答

高维数据聚类

、、、

为了对超过100维(有时甚至1000维)的数据进行聚类，最好的聚类算法是什么？如果你知道任何C，C++，尤其是C#的实现，我将不胜感激。

浏览 1提问于2011-11-20得票数 0

回答已采纳

3回答

python中基于基因表达矩阵的层次聚类

、、、、

我如何在Python中进行分层聚类(在本例中是针对基因表达数据)，以显示基因表达值矩阵和树状图？我的意思是像下面这样的例子：在项目符号6(图1)之后显示，其中树状图绘制在基因表达矩阵的左侧，其中行已重新排序以反映聚类。如何在Python中使用numpy/scipy或其他工具执行此操作？另外，用欧几里德距离作为度量，用大约11,000个基因的矩阵来做这件事，在计算上可行吗？编辑:很多人建议使用聚类包，但我仍然不确定如何绘制上面在Python中链接的图像。例如，我如何使用Matplotlib将树状图覆盖在热图矩阵旁边？谢谢。

浏览 0提问于2010-06-05得票数 3

1回答

基于特定关键字创建集群

、、、、

我正在处理原始文本数据。我正在使用聚类将文档中的常见单词组合在一起。我的要求是根据特定的单词列表创建集群，也就是说，我想获得一组通常与用户给定的单词列表一起发现的单词。从视觉上看，集群应该如下所示。通常，集群技术的重点是创建隔离的集群，而我需要有一些重叠的隔离集群。图像显示了预期结果的视图。我尝试过使用k均值聚类、Apriori算法和Python中的PrefixSpan。但我想要的结果没有实现。如有任何建议，将不胜感激。 📷

浏览 0提问于2021-03-30得票数 0

1回答

在Apache Pig上使用Numpy和SciPy

、、、

我想在Apache Pig中编写UDF。我将使用Python UDF。我的问题是，我有大量的数据要分析，需要像NumPy和SciPy这样的软件包。买这个，他们没有Jython支持，我不能把他们和Pig一起使用。我们有替代品吗？

浏览 0提问于2012-08-30得票数 1

1回答

在这种情况下，有什么更好:分类还是聚类？

、

我从不同的来源( FB、Twitter、Linkedin )收集数据，然后用结构化格式制作这些数据。因此，现在我有一个包含10000行(10000个人)的csv文件，相关的数据是关于他们的名字、年龄、兴趣和购买习惯。我真的被困在这一步:分类或聚类。对于分类，我实际上没有预定义的类或模型供用户对它们进行分类。对于聚类:我开始计算相似性和KMeans，但仍然无法得到我想要的结果。在进入协作过滤的下一步之前，我如何决定选择什么呢？

浏览 2提问于2019-05-08得票数 0

回答已采纳

2回答

哪种机器学习算法可以用于轨迹分类？

、、、、

我正致力于根据空中物体的轨迹对其进行聚类。就像我想在不同飞行物体轨迹的数据集上训练一个模型，这样以后我就可以根据轨迹数据来预测物体的类型。现在的轨道数据包括4种东西(高度，经度，纬度，时间)。因此，基于这些数据集，我们可以对飞机、火箭、导弹等物体进行分类。但我不知道可以使用哪种算法？我首先想到的是支持向量机。后来我想“长时间记忆”可以用。但我不太确定。我对机器学习很陌生。所以任何帮助都是非常感谢的。

浏览 0提问于2020-03-11得票数 0

1回答

最好的聚类算法，客户细分

、、、

我有一个数据集的分类和数值变量，我想知道什么是最好的算法聚类客户？如何找到细分客户的基本模式？？

浏览 0提问于2023-02-26得票数 1

2回答

同时聚类癌症基因表达数据？

我正在研究基因表达数据聚类技术，我已经从网络上下载了35个数据集，我们有35个数据集，每个数据集代表一种癌症。每个数据集都有自己的功能。其中一些数据集在多个特征中共享，其中一些从特征的角度来看并不共享任何内容。我的问题是，我们如何最终集群这些数据，而它们中的许多并不具有相同的特征？我认为我们可以同时对所有35个数据集进行聚类操作。我的想法正确吗？任何帮助都是非常感谢的。

浏览 1提问于2018-07-27得票数 0

3回答

如何应用集成聚类方法？

、、、、

我需要使用集成聚类方法，在我的数据集中使用python。我已经通过使用scikit学习库应用了k-均值聚类。我还应用了不同的分类方法，也发现了集成分类方法在科学学习中的应用.现在我感到困惑的是，在scikit中是否存在用于集成聚类的库，或者我如何将集成聚类方法应用于我的数据集？

浏览 0提问于2018-02-03得票数 0

2回答

机器学习中的无监督分类

、、

聚类(例如:K-均值，EM算法等)是利用数据点之间的距离度量，在数据集中形成聚类，用于无监督分类。我的问题是:除了聚类之外，我还可以使用什么来执行无监督的分类，以及如何进行分类？或者，除了对无监督的分类进行聚类之外，没有其他选择？编辑:是的，我的意思是k-意思。

浏览 6提问于2020-11-21得票数 0

回答已采纳

1回答

大数据集的python中的共识聚类

、、

我在python 中找到了一个非常好的共识聚类实现。然而，对于具有大样本大小的大数据集，该算法将不起作用，因为它使用维度样本、样本来构建矩阵。对于大型数据集上的共识聚类，有没有高效的python实现？

浏览 12提问于2021-03-07得票数 0

1回答

如何对r中充满字符串变量的数据集进行K-means聚类

、、

现在，我有一个充满字符串变量的数据集，但我想在此基础上做一个集群项目。在我对所有变量应用as.factor()后，nbclust()仍然不能工作，我该怎么办？

浏览 63提问于2018-05-31得票数 -1

回答已采纳

3回答

数值数据聚类

、、

我试图在我的数据集中进行聚类，其中有4个数值字段。请查找所附文件：http://www.filedropper.com/example_3. 我试过用这个代码： from sklearn.cluster import KMeans kmeans = KMeans(n_clusters=2, random_state=0, max_iter = 300).fit(dffinal) 我知道在这个例子中有两个类，这就是我尝试使用两个集群的原因。在4200行中，前3196行属于类，其余行属于另一个类。但是当我进行聚类时，聚类标签是随机分配的，准确率低于10%。只是想知道我的特性是否不够适合聚类，还是

浏览 0提问于2016-12-23得票数 0

2回答

如何将机器学习分类方法应用于一维时间序列数据

、、

我有IMU数据(加速计、磁力计和陀螺仪)，在不同的练习中(下沉、俯卧撑、仰卧起坐、穿孔)。这些练习是在单个1D时间序列信号中完成的，我想使用机器学习分类方法来识别信号中的不同练习。我不想将信号压缩成0D峰值，并以这种方式构建我的特征，而是保持时域的完整性。下图显示了包含四个练习的加速度计的示例数据。因此，我的问题是，在这样做时，哪种方法最有效？K-means聚类在0D意义上是完美的，那么有1D等价吗？对python (sklearn)的任何资源都将非常感谢！提前感谢！

浏览 2提问于2018-05-25得票数 2

1回答

从没有标签或目标的文本数据中推断

、、

我有一个用例，在这个用例中，审批者在批准某些贷款时输入了文本数据。对于使用NLP批准的理由，我必须作出一些推论。我该怎么做呢？这是一种非英语语言。文本聚类有帮助吗？？是否可以使用python库对非英语语言的文本进行聚类？

浏览 0提问于2020-08-19得票数 0

4回答

求多个簇的算法

、

假设我有一组数据(具有二维特征空间)，并且我想从它们获得集群。但我不知道会形成多少簇。然而，我想要单独的集群(集群的数量超过2)。我想，在这种情况下，k的方法是不能用的。我也不能使用分层聚类。另外，由于没有训练集，因此不能将KNN分类器用于任何其他分类器(监督学习不能用作训练集)。我不能使用光学算法，因为我不想指定半径(我不知道半径) 有什么机器学习技术可以给我提供多个集群(基于距离的聚类)，它也能很好地处理离群点？这应该是输出： 📷

浏览 0提问于2015-05-29得票数 4

回答已采纳

2回答

是否有可能在KMeans中用Python(Scikit-Learn)对非浮动数据进行集群？

、、、

我正在尝试将KMeans(Scikit-learn)应用于下面提到的数据。。我已经看到了集群中显示Float64值的足够多的例子。我想知道的是，在df[Description ]列上是否可以进行聚类，其x和y轴为经度和纬度。我的代码看起来是这样的。 from sklearn.cluster import KMeans import matplotlib.pyplot as plt import numpy as np import matplotlib from sklearn.preprocessing import LabelEncoder import pandas as pd

浏览 0提问于2016-12-17得票数 2

1回答

K-表示输出不像预期的那样出现。

、、

我试图对我的数据进行聚类。我的目标是对这些数据进行聚类，以确定客户的类型是B2B还是B2C，有规则：如果是高B2Bif，高number_of_invoice和低avg_top，那么是B2Bif，低number_of_invoice，高avg_top，然后是B2Cif，低number_of_invoice和高avg_top，那么就是B2C。我已经删除了离群点，分布如下。我以为它会像这样分开这是集群输出。我已经测量了Silhoutte Score，分数是0.677，有没有办法像我预期的那样实现星系团的分离？

浏览 2提问于2021-02-01得票数 1

1回答

K-均值不会导致弯头形状

、、

我正在尝试在提供的数据集中使用k-means，只使用有关客户端的变量。问题是8个变量中有7个是分类的，所以我对它们使用了一个热编码器。为了使用肘部方法选择理想数量的集群，我对2到22个集群运行了KMeans，并绘制了inertia_值。但它的形状一点也不像肘部，它看起来更像一条直线。我做错了什么吗？ import pandas as pd import numpy as np import matplotlib.pyplot as plt from sklearn.cluster import KMeans from sklearn import preprocessing from s

浏览 13提问于2019-11-04得票数 1

回答已采纳

3回答

分段聚类回归

、、

我想知道是否有可能将数值数据(超过3维)聚成不同的聚类，并对每个聚类进行曲线拟合，以获得比单一模型更高的精度。既然线性回归是首选的，有什么方法可以根据数据点的线性拟合来聚类吗？这是因为我需要一个与输入数据匹配的结果，而不关心看不见的数据。我不能硬编码数据和使用查找机制。相反，一个近似的数学函数会更好。是否有现有的实现？(最好用Python)

浏览 0提问于2018-06-14得票数 3

4回答

聚类算法的性能分析

、、、

我得到了两个数据集，并希望使用KNIME对这些集合进行聚类分析。在完成聚类之后，我希望对两种不同的聚类算法进行性能比较。关于聚类算法的性能分析，这是一种时间度量(算法时间复杂度和执行数据聚类所需的时间等)，还是集群输出的有效性？(或两者兼备) 对于聚类算法，是否还有其他的角度来识别性能(或缺乏)？事先非常感谢， T

浏览 7提问于2012-03-13得票数 1

回答已采纳

2回答

哪种聚类方法是文本分析的标准方法？

、、

假设你有很多文本句子，它们可能有(或没有)相似之处。现在，您希望对相似的句子进行聚类，以找到每个聚类的质心。哪种方法是进行这种聚类的首选方法？带有TF-IDF的K-means听起来很有希望。然而，有没有更复杂的算法或更好的算法？数据结构是标记化的，并且采用一次热编码格式。

浏览 16提问于2020-01-03得票数 0

回答已采纳

7回答

K-均值聚类能进行分类吗？

、、、

我想知道k均值聚类算法是否能做分类？如果我做了一个简单的k-均值聚类。假设我有很多数据，我使用k-均值聚类，然后得到2簇A，B，质心的计算方法是欧氏距离。 A组在左侧。 B组在右侧。所以如果我有一个新的数据。我该怎么办？再次运行k-均值聚类算法，并能得到新的数据属于哪个聚类？记录最后一个质心，用欧氏距离来计算，确定新的数据是否属于？其他方法？

浏览 5提问于2014-03-10得票数 22

回答已采纳

1回答

集群验证:如何验证和度量预定义的集群

、、

我对python很陌生，我正在开发一个消费数据集，在这里我们使用LCA、K-Means、DBSCAN和谱聚类来计算集群。在所有这些方法中，簇的数目是不同的(在K-均值中为EG-5簇，而LCA中为7)，自变量可能是相同的，也可能不是相同的(例如- 12个自变量在K-均值中，10个在LCA中)。现在我要用聚类内聚、聚类分离、熵、纯度、Jaccard Coeff、RAND指数等对集群进行验证。这些措施是否适用于集群验证？在python中有函数/库可以一次计算这些函数/库吗？如果没有可用的函数/库，如何在python中计算这些值。希望我是清楚的，并感谢您的帮助，提前。

浏览 8提问于2021-02-23得票数 0

2回答

用python进行时间序列聚类

、

我有多个不同客户的时间序列数据(大约10k客户，100天)。我想把这些数据聚成5-10组。但是，我没有关于时间序列聚类的任何提示。K手段对他们有用吗？任何python包都可以处理这些数据吗？任何帮助都很感激。

浏览 0提问于2022-02-08得票数 4

1回答

如何保存集群种子以供进一步评分

、、

我正在用Python构建一个k-means聚类模型。然而，我不确定如何保存集群质心，以及如何将它们用于未来的评分目的。以后使用该模型时，我总是希望分配相同的集群I。如果有人有一个清晰的代码来展示如何做到这一点，我将不胜感激。更新：嗨@HannounYassir，当然，很抱歉我之前应该这样做：假设我的数据集名称是data_clean，并且所有变量都已预先标准化和清理。 # define the cluster variables cluster_vars=data_clean[['A' , 'B' , 'C']] # Interpret

浏览 2提问于2017-06-12得票数 0

2回答

客户细分与类别关联

、、、

📷 我必须在以下数据集中解决两个问题: 1.将客户安排到互斥的groups.explain集群中。2.为每个聚类确定1-1产品类别关联规则，即，如果客户从这一类别购买，他们也可能从该类别购买。

浏览 0提问于2020-03-02得票数 2

1回答

对聚类算法的输入

、、

我有250个时间序列，我要把它们聚在一起，看看哪个时间序列有多少相同的行为。但我的问题是，无论我在谷歌和StackOverFlow上搜索什么，我都找不到一个例子来告诉我是否要把我所有的时间序列合并在一起？或者可以将它们保存在分离的变量中？任何关于输入的解释都会有帮助。我正在使用python 3.6进行编程，对于集群，我使用sci-kit学习库。我的每个时间序列都是一个带有一列的熊猫数据。

浏览 2提问于2017-12-21得票数 0

1回答

对标记数据集进行聚类

、、、、

我有一个有29个类的大标记数据集。在这个数据集中是否可以使用聚类算法(如k均值)，或者因为聚类算法是无监督的，所以是不可能的？

浏览 0提问于2018-05-22得票数 3

回答已采纳

1回答

如何在python中对“预先计算”的数据运行predict()以进行聚类

、

我有自己的预先计算的数据，用于在python中运行AP或Kmeans。但是，当我想对数据运行train()和test()以查看聚类在类或集群上是否具有良好的准确性时，Python告诉我predict()对“预先计算”的数据不可用。有没有其他方法可以在python中对集群数据进行训练/测试？

浏览 3提问于2019-02-23得票数 2

1回答

按重复订单购买哪些产品的可能性

、、

我有一个问题，我需要解决，并正在寻求帮助在什么算法使用。我有一个网上商店，我有10个产品，我有所有的订单历史为每一个订单。我想找的是，如果客户订购产品A，他们订购产品A、B等的可能性有多大。他们的第二、第三等命令。哪种算法能最有效地找到在重复订单中购买什么产品的概率？我想要么使用R，要么使用python，但如果它可以用简单的数学和如果语句，那将是更好的。

浏览 0提问于2017-04-19得票数 -1

1回答

如何比较k均值和层次聚类结果

、、

我使用两种类型的聚类算法，我采用分层聚类，K-均值聚类使用python库。现在的结果有点不同，那么我如何比较结果和使用哪种算法呢？因为我想为一组未标记的数据写一个结论。使用多个算法并在它们之间进行比较有什么好处？

浏览 0提问于2020-12-12得票数 0

回答已采纳

1回答

K表示交叉验证

、

我得到了一份美国县的列表，其中包含贫困、人口等数据，并使用k均值算法进行了聚类。我对聚类进行了交叉验证，如下所示:我将县分为一个训练集和一个坚持集。我在聚类过程中去掉了贫困特征，然后对于坚持集中的每个县，我找到了最近的聚类，然后从最近聚类的平均贫困中减去了该县的贫困。最后，我将上面的差值平方，对坚持集合中的每个县进行求和，然后除以坚持集合中的县的数量。然后我做了同样的事情，但这一次贫困特征参与了聚类。我观察到错误比以前明显减少了，但我读到这是某种程度上的“作弊”。什么是直观的方式来理解为什么在聚类中包含贫困是错误的？

浏览 0提问于2012-12-09得票数 0

回答已采纳

2回答

用python绘制文本聚类中的单词

、、

我的聚类结果如下图所示。是否有类似于fvid_clusters的库可以生成如下所示的地块？(使用PYTHON)

浏览 2提问于2019-03-21得票数 1

回答已采纳

3回答

以距离矩阵为输入的聚类[评估]算法

、、

有没有人能推荐一些可以使用距离矩阵作为输入的聚类算法？或者也可以基于距离矩阵来评估聚类的“好坏”的算法？目前，我使用的是对Kruskal算法()的修改，将数据分成两个集群。不过，它有一个问题。当数据没有不同的聚类时，算法仍然会创建两个聚类，一个聚类包含一个元素，另一个包含所有其他元素。在这种情况下，我宁愿有一个包含所有元素的集群，而另一个集群是空的。有没有能够进行这种类型的聚类的算法？有没有什么算法可以估计聚类完成得有多好，或者更好地估计数据中有多少聚类？算法应该只使用距离(相似性)矩阵作为输入。

浏览 0提问于2010-05-31得票数 0

回答已采纳

1回答

如何解释k-均值聚类的结果？

、、、、

我目前正在使用NTSB航空事故数据库进行一些分析。此数据集中的大多数航空事故都有原因陈述，描述导致此类事件的因素。我在这里的目标之一是尝试将原因分组，而聚类似乎是解决这类问题的可行方法。在k-均值聚类开始之前，我执行了以下操作：停止词移除，即删除文本中常见的功能词。文本词干，即删除一个单词的后缀，如果有必要，将这个词转换成最简单的形式将文档矢量化为TF-IDF向量，以扩大不太常见但信息更丰富的单词，并缩小高度常见但信息量较少的单词。应用奇异值分解降低向量维数在这些步骤之后，将k-均值聚类应用于向量。通过使用1985年1月至1990年12月期间发生的事件，我得

浏览 1提问于2016-04-07得票数 7

回答已采纳

2回答

采样是降低复杂性的有效方法吗？

、

我面临的一个问题是，我需要大量的数据来进行聚类。正如我们所知道的，聚类算法可能具有很高的O复杂度，我正在寻找减少算法运行时间的方法。我想尝试几种不同的方法，如预聚类(冠层聚类)或子空间聚类、相关聚类等。但是，我还没有听说过一些事情，我想知道为什么--简单地从我的数据集中获取一个有代表性的样本，在它上运行聚类，并将这个模型推广到整个数据集是否可行呢？为什么/为什么这不是一个可行的方法？谢谢!

浏览 0提问于2020-11-08得票数 6

回答已采纳

2回答

不带输入参数的数据聚类

、、

这更多的是一个理论问题：您是否知道任何不需要任何输入参数的聚类算法(平面或分层)，如聚类的数量或邻域的大小等？换句话说，您只需将数据作为输入提供给算法，并将聚类作为输出。如果在相关文件/文档中得到建议，我将非常高兴。

浏览 2提问于2013-02-08得票数 4

2回答

带异常值的高斯混合模型性能

、

给出了高斯混合模型的数据聚类和离群点。它的性能会随着异常值的降低而下降，还是会像预期的那样工作呢？

浏览 0提问于2019-07-18得票数 -1

回答已采纳

1回答

模式识别

、

我的智商是70，我根本不聪明，不知道该怎么做。但!我想要的是。例如，让Python从MySQL读取一个表并找到列的模式！例如，当Y列在'1.56‘左右，colum Z在'756’左右时，列X通常是'foo‘值，例如，它发现所有的’明显‘数据.你们中有些人有没有一个简单的计划让我来做这件事？或者给我参考一些信息，书籍等等？不是一本天才的书！ Python是否适合这样做呢？它将包含大约60万行，大约20列.今天的标准游戏电脑.

浏览 0提问于2010-12-02得票数 0