当我们有数值和分类数据时，使用哪种算法来处理聚类问题？

、

我从不同的来源( FB、Twitter、Linkedin )收集数据，然后用结构化格式制作这些数据。因此，现在我有一个包含10000行(10000个人)的csv文件，相关的数据是关于他们的名字、年龄、兴趣和购买习惯。对于聚类:我开始计算相似性和KMea

浏览 2提问于2019-05-08得票数 0

回答已采纳

1回答

是否有处理数值属性的子空间聚类方法？

、、、、

我正在尝试对我的数据集(具有数字维度)应用一些聚类方法。但我确信，对于不同的聚类，这些特征具有不同的权重。我读到有一种称为软子空间聚类的方法，它试图同时识别集群和每个集群的特征权重。然而，我发现的算法只适用于分类数据。我正在尝试找出一些软子空间聚类算法用于数值计算。您是否知道是否有任何方法，

浏览 14提问于2018-02-03得票数 0

1回答

、、、、

我对集群几乎是个新手，对使用的方法有点困惑。我有一组建筑，我想根据它们的能耗、大小、类型和邻里关系对它们进行聚类。我使用k-means方法和"get_dummies“方法来处理我的分类数据。我想问，这是否处理分类数据的正确方法？(我还试图简单地将它们映射到1,2,3等数字，并在聚类之前对它们进行归一化，但没有收到合适的

浏览 28提问于2020-04-19得票数 1

回答已采纳

1回答

根据数据类型，最适合的机器学习算法是什么？

、、

我是数据科学的初学者。我发现一些机器学习算法在给定特定类型的数据(即数值、分类、文本、图形)时表现得更好。我在网上搜索了这个话题，但没有运气。希望对这个问题的回答将有助于数据科学的初学者。更新:如果您能够解释哪些类型的数据最适合下面的<

浏览 0提问于2017-06-23得票数 9

2回答

用包含字符串的多列进行聚类

、、

我有以下数据集：https://www.kaggle.com/carolzhangdc/imdb-5000-movie-datasetcountry objectavgRating float64因为列、国家和类型包含字符串，所以我不能使用

浏览 0提问于2019-04-02得票数 2

回答已采纳

1回答

聚类前的归一化

、、、、

如果我们有分类数据，而分类数据是使用虚拟对象和标签编码转换为数值的，那么在聚类之前是否必须对数据进行标准化？如果是，那么在这种情况下使用哪种标准化技术最合适？

浏览 0提问于2019-12-30得票数 0

13回答

混合数值和分类数据的K-均值聚类

、、、、

我的数据集包含许多数字属性和一个分类。我使用默认的八阶K均值聚类算法的实现。它只适用于数字数据。因此，我的问题是:将CategoricalAttr分类属性拆分为三个数值(二进制)变量(如IsCategoricalAttrValue1, IsCategoricalAttrValue2, IsCategoricalAttrValue3

浏览 0提问于2014-05-14得票数 200

回答已采纳

3回答

R中丢失类别和数值的聚类算法

、、、

我想在R中缺少分类和数值的数据集上执行营销细分聚类。由于缺少值，我无法执行k-means聚类。R版本3.1.0 (2014-04-10)Mac OSX 10.9.3 4 4GB硬件驱动器在R中是否有一个聚类算法包可以适应部分填充速率查看关于缺失值的学术文章，研究人员为特殊用例创建了一个新的算法，这些包在R中

浏览 1提问于2014-06-04得票数 9

1回答

在试图模拟类似于这论文中描述的ML模型时，经过一些调整后，我似乎最终在一些样本数据上获得了良好的聚类结果。很高比例的观测结果被放入正确的聚类中，表明模型确实起了作用。例如，如果我们有属于簇$a$的观测$A$，以及属于簇$b$的观测$B$，则该模型可以输出用于观察$a$的(0.99, 0.01) (其中0.99表示属于$a$的概率较高，0.01表示属于$b$的概率较低(这些特定的数字是随机选择的，但通常良好的结果提供了接近0和1的概率。

浏览 0提问于2018-09-07得票数 10

1回答

基于先前聚类的集合预测新数据

、、、

我有一个很大的二进制数据集需要聚类。例如 [[0 1 1 0 ... 0 1 0 1 ], ...[0 0 1 0 ... 1 0 1 1 ]] 据我所知，最好的二进制数据聚类算法是分层的，比如凝聚聚类。所以我使用scikit实现了这一点。然后，当一组新数据到达时，加载先前的集群并调用predict()以确定它将

浏览 15提问于2019-05-04得票数 0

2回答

在Weka中使用聚类进行预测

、、、、

我可以使用聚类(例如，使用k-均值)在Weka中进行预测吗？我在Weka中使用一些分类器(例如Bayes)进行预测。我的结果是基于这个答案(投票意向)，我有大约60%的召回率(正确的预测率)。我明白聚类是另一回事，但是我能用聚

浏览 3提问于2013-04-28得票数 2

回答已采纳

1回答

由分类数据和连续数据组成的数据集的聚类分析？

、

R:无监督机器学习的聚类分析实用指南:第1卷(多元分析)，Alboukadel Kassambara先生然而，我遇到了一个问题，因为在这本书中，数据标准化取代了数值变量，然而，我有一个由13个变量组成的数据集，其中最主要的是分类。我查过google和一些堆叠溢出问题，我找不到一个明确的答案，比如如何处理分类变量和连续变量组合的聚类分析。有些人提到层次聚类，而有些

浏览 2提问于2018-07-18得票数 0

回答已采纳

2回答

是否有一种聚类算法可以接受某些聚类作为输入，并输出更多的聚类？

、、、、

以下是我的任务:我有我不太了解的数据。最后的任务是建立一个分类器，将样本分类为几个类别。有些分类非常清楚，我们可以很容易地将它们用作分类器的标签。由于我不是在特定领域的专家，我想使用一些聚类算法来显示可能的标签想法。当使用传统的聚类算法时，它们会在我不感兴趣的数据</

浏览 0提问于2020-10-30得票数 3

3回答

无监督数据的分类技术？

、、

我有无监督的数据(即，这些数据没有任何目标变量，我可以通过它来了解它的先前行为)，它是连续数据和分类数据的混合体。现在，我想根据我的非监督数据将测试数据分为三类。我采取的方法是首先对无监督的数据进行聚类，使用这些分类数据作为基础数据，准备一个新的模型，在此基础上进行预测。我想知道这种方法是否正确，还是

浏览 0提问于2016-06-14得票数 5

1回答

推荐/聚类数据以支持假设。这是无监督ML的有效用例吗？

、、

我有一个数据集，其中一些项已经被标记(分类为4个类、B、C、D)。然而，绝大多数数据集都没有贴上标签。我的假设是，有一些特征会影响每个项目的应用类别。聚类或者甚至推荐系统都能建议每个项目应该放在哪里吗？在实际层面上，我会否在模型内提供“标签”？或者，我会把它分开直到结束，然后覆盖这些标签在任何模型设法组合在一起？上面的例子似乎是一个集群用例。但是，我能否把这个问题转化为推荐系统呢？你把X标记为A，它有特征1，2，3.项目Y有

浏览 0提问于2020-12-29得票数 2

回答已采纳

2回答

选择哪种机器学习算法？

、、

我想选择一个无监督的算法来学习从数据中预测$n$输出，例如。图像中的4个坐标(像素)。我应该选择哪种算法？我认为将图像中的点的集合划分为输出(1)或不属于(0)是一种2类分类，可能是logistic回归，给出一个点作为输出点的概率。但我很困惑，因为分类算法是有监督的算法的一部分，我们有标签的数据。我是否应该使用聚</em

浏览 0提问于2018-05-25得票数 2

2回答

如何处理NaN值，当计算没有意义时？(适用于常设仲裁院)

、、、

我很难弄清楚如何处理NaN变量，在这些变量中，数据归责是没有意义的。我正在尝试进行文本/文档聚类，有些缺失的值需要保持丢失，因为没有合理的方法来填充它们。我的数据集包含了一些数值、日期、文本等。实际上，的在副标题“当计算没有意义时考虑坐姿”是我问题的一个很好的例子。在矢量化之后，我需要执行PCA来降低维数，这样我就可以在没有内存错误的情况下处理大数据，并

浏览 0提问于2019-04-03得票数 4

回答已采纳

1回答

基于GPS数据的人群驾驶组合

、、

我需要根据GPS数据把开车的人聚在一起。数据由移动电话收集。我们每10秒就从每个用户那里分批接收它们。每批的GPS数据(位置、速度、方向)每2秒收集一次。理想的解决方案是实时处理这些数据，并识别/更新一起开车的人群。但是，我们可能会从用户那里收到无序的数据(例如，由于连接性的丧失)。最终，我们应该得到所有的条目，但这使得实时处理更加复杂。相反，我想先从后处理开始。我计划使用</em

浏览 0提问于2022-10-23得票数 1

2回答

我应该使用哪种集群技术？

、

我有一个数据矩阵，如下所示。 user access matrix..each行代表用户，每一列代表该用户访问的页面类别。这种双聚类技术将首先生成用户集群，然后生成页面clusters.after，它将用户集群和页面集群结合起来生成双集群。现在，我不知道应该使用哪种集群技术来实现此目的。最好的聚类将从该矩阵生成一致的双色图。

浏览 2提问于2014-05-07得票数 0

1回答

如何在混合数据集中使用聚类算法来减少维数？

、、、、

我正在使用与电视消费数据相对应的混合数据集，目的是将特征的数量减少到仅用于使用聚类检测电视消费模式(或消费组)的特征数。该数据集由约20个维度和2.000.000个样本组成，供1天使用。3维为连续/数值型(消费日期、持续时间.)其余维度为离散/分类类型，具有二进制选项(例如，方案是否是活的)或多个甚至数百个选项(例如节目名称、主题、设备类型等)。因此，我试图用Python实现一

浏览 0提问于2021-05-03得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在这种情况下，有什么更好:分类还是聚类？

是否有处理数值属性的子空间聚类方法？