同时使用分类数据和连续数据进行聚类_对同时具有连续和分类特征的数据进行特征选择？_绘制一维数据的KMeans聚类和分类 - 腾讯云开发者社区

r、cluster-analysis

我正在尝试创建一个将分类数据和连续数据结合在一起的无监督模型。我想我已经算出来了，但这是正确的方法吗？加载库 library(tidyr)library(fastDummies)library(dplyr) 创建样本数据集 set.seedincome = rnorm(10, 40, 10), volume = rnorm(50, 40, 100)) 创建稀疏矩阵和<

浏览 43提问于2019-03-01得票数 0

3回答

如何对(k-均值)聚类模型中的某些特征给予更高的重视程度？

machine-learning、clustering、feature-scaling、dummy-variables

我用数字和分类变量对数据进行聚类。为了处理集群模型的分类变量，我创建了虚拟变量。然而，我觉得这会对这些虚拟变量产生更高的重要性，因为多个虚拟变量代表一个范畴变量。例如，我有一个分类变量Airport，它将导致多个虚拟变量: LAX、JFK、MIA和BOS。现在假设我也有一个数值温度变量。现在，我的机场变量似乎是温度变量的4倍，集群主要是基于机场变量。我想用一种不同的方式来缩放变量，但我不知道如何对它们进行缩放，以使它

浏览 0提问于2019-04-16得票数 6

回答已采纳

2回答

在聚类中预测

r、cluster-analysis

在R语言中，有没有像我们在分类中那样的聚类预测功能？除了比较两个集群之外，我们可以从R得到的聚类图结果中得出什么结论？

浏览 2提问于2011-11-13得票数 2

2回答

聚类的分类特征预处理

clustering、preprocessing、categorical-data、feature-scaling、feature-construction

有人能告诉我们用混合特性(包括分类特性和连续特性)来聚类数据的最佳实践吗？我正在努力解决一个问题；我意识到，对于所有度量算法，在集群之前必须对连续数据进行缩放，所以我使用了sklearn.preprocessing.StandardScaler()。在我的分类特性中，我使用了一个编码器转换，但还不清楚是否有必要将这些一个编码向量的组件缩放到整个数据集，还是就这样保

浏览 0提问于2019-09-18得票数 2

1回答

K-均值聚类对使用PCA和原始数据减少的数据有什么不同吗？

machine-learning、python、data-mining、clustering、unsupervised-learning

我正在做聚类工作，我有90个特征，有13500个数据点，去除了相关变量，其中皮尔逊相关性超过90%，我的特征空间减少到70个。而且，几乎所有我最初的90个特性都有大量的零值(超过70%-80%的数据点)。我在算法实现方面所做的是：K-表示pca减少的数据提供了更好的聚类。有什么办法可以让我用这个集群来解释吗

浏览 0提问于2020-01-21得票数 3

1回答

最佳k值的剪影评分(python中的k原型)

python、clustering

我试图使用k原型算法进行聚类，因为我的数据有分类变量和连续变量。我找到了这个用k原型https://stackoverflow.com/a/56218269/9543171解释肘部方法的答案如何使用剪影评分而不是成本来寻找k原型中的最佳k值？

浏览 0提问于2021-10-10得票数 0

回答已采纳

3回答

无监督数据的分类技术？

machine-learning、r、unsupervised-learning

我有无监督的数据(即，这些数据没有任何目标变量，我可以通过它来了解它的先前行为)，它是连续数据和分类数据的混合体。现在，我想根据我的非监督数据将测试数据分为三类。我采取的方法是首先对无监督的数据进行聚类，使用这些分类数据作为基础数据，准备一个新的模型，在此基础上进行<

浏览 0提问于2016-06-14得票数 5

2回答

机器学习中的无监督分类

machine-learning、classification、unsupervised-learning

聚类(例如:K-均值，EM算法等)是利用数据点之间的距离度量，在数据集中形成聚类，用于无监督分类。编辑:是的，我的意思是k-意思。

浏览 6提问于2020-11-21得票数 0

回答已采纳

2回答

聚类前对混合数据进行预处理

clustering、unsupervised-learning、preprocessing

我对分层聚类很陌生，并希望对混合数据执行聚类。对于必要的预处理步骤，我有点困惑.我知道如何预处理纯连续的数据，我还不能确定的是，对于混合数据来说，预处理步骤是必需的？我是否只是缩放我的连续变量，计算丢失的数据，而不去处理分类变量？还是需要对所有变量类型执行转换？

浏览 0提问于2020-03-12得票数 2

回答已采纳

1回答

使用python对混合数据进行聚类

python、cluster-analysis

我正在尝试使用基于Huang，Z.的k_prototype聚类对包含混合数据(标称和有序)的数据集进行聚类:对具有混合数值和分类值的大型数据集进行聚类。我的问题是如何找到最佳的集群数量？

浏览 10提问于2019-05-16得票数 0

2回答

如果我将数值属性和范畴属性分开聚类，这是错误的吗？

clustering

我有一个信用客户数据集，包含混合数据类型(数字和分类有几个级别)。我试图执行分段，这样我就可以得到k组，然后构建定义(基于我拥有的属性)。虽然有关于混合数据类型(K-原型、Gower距离的层次聚类)的数据聚类的解决方案，但为什么将数值属性和分类属性分开并单独提出定义是错误的呢？

浏览 0提问于2019-03-18得票数 2

回答已采纳

13回答

混合数值和分类数据的K-均值聚类

data-mining、clustering、octave、k-means、categorical-data

我的数据集包含许多数字属性和一个分类。我使用默认的八阶K均值聚类算法的实现。它只适用于数字数据。因此，我的问题是:将CategoricalAttr分类属性拆分为三个数值(二进制)变量(如IsCategoricalAttrValue1, IsCategoricalAttrValue2, IsCategoricalAttrValue3

浏览 0提问于2014-05-14得票数 200

回答已采纳

2回答

群集模型，如DBSCAAN、OPTICS、KMEANS

machine-learning、statistics、data-science、analytics

我怀疑在使用任何算法进行聚类后，是否可以根据从先前数据中学习的结果来分割新数据

浏览 9提问于2020-03-05得票数 2

回答已采纳

1回答

最佳实践XAI:理解构建集群的特性并解释底层结构

python、descriptive-statistics、explainable-ai

我希望对数据进行聚类，并显示用于定义集群以显示数据中的结构的特性。为了解释用例:成像，我有来自许多产品的数据，我想显示数据中的变化和结构。作为输入特性，我有一个BERT嵌入(在产品描述的帮助下创建)和其他分类和数字数据，作为价格，生产国，.到目前为止，我很难找到一种合适的方法，因为大多数方法都无法对数据进行聚类(无监督)，也无

浏览 0提问于2023-05-05得票数 0

回答已采纳

1回答

当使用层次聚类时，橙色是否从范畴变量转化为虚拟变量？

clustering、orange

我正在使用Orange对包含三个属性的大量数据进行聚类。每个属性只包含分类无序变量。我的问题是，当在这样的数据集中使用距离和分层聚类小部件时，Orange是否将分类变量转换为虚拟变量？

浏览 0提问于2019-05-15得票数 1

1回答

我需要帮助使用哪些特性来进行集群。

clustering、k-means、pca、dbscan

我正在使用这个数据集：https://www.kaggle.com/datasets/sobhanmoosavi/us-accidents 到目前为止，我已经成功地清理了数据集，并减少了功能和记录的大小我有一些数字的特点，我已经标准化，还有一些分类的特点，我还没有触及。现在我需要使用Kmeans/Dbscan等来执行聚类，并比较它们的结果。我读到，由于有很多特性(38)，我可以对数值特征执行P

浏览 0提问于2022-06-18得票数 2

2回答

用于聚类的混合数据类型

clustering

我有以下类型的聚类数据-数字数据、分类数据和经度数据，用于python中一个数据的位置。当数据混合到这个程度时，我想知道如何进行聚类。是否可以使用DBSCAN或分层群集，以及需要做什么才能将分类数据转换为数字。地理位置数据也是如此。

浏览 0提问于2019-02-15得票数 0

2回答

如何将机器学习分类方法应用于一维时间序列数据

python、machine-learning、classification

我有IMU数据(加速计、磁力计和陀螺仪)，在不同的练习中(下沉、俯卧撑、仰卧起坐、穿孔)。这些练习是在单个1D时间序列信号中完成的，我想使用机器学习分类方法来识别信号中的不同练习。下图显示了包含四个练习的加速度计的示例数据。因此，我的问题是，在这样做时，哪种方法最有效？K-means聚类在0D意义上是完美的，那么有1D等价吗？

浏览 2提问于2018-05-25得票数 2

1回答

基于另一个变量或一组变量对变量进行聚类

machine-learning、python、clustering、algorithms

df11[['COMPONENT_ID','FIRMWARE','SERIAL','CRP0_VDDN']].head()考虑到我有这四栏要分析。我想用相似的字符组成3-5簇的COMPONENT_IDs .我希望基于剩余的特性或与COMPONENT_IDs相关的COMPONENT_IDs实现这一目标。我该怎么做？

浏览 0提问于2020-03-19得票数 0

1回答

是否有处理数值属性的子空间聚类方法？

machine-learning、statistics、artificial-intelligence、cluster-analysis、unsupervised-learning

我正在尝试对我的数据集(具有数字维度)应用一些聚类方法。但我确信，对于不同的聚类，这些特征具有不同的权重。我读到有一种称为软子空间聚类的方法，它试图同时识别集群和每个集群的特征权重。然而，我发现的算法只适用于分类数据。我正在尝试找出一些软子空间聚类算法用于数值计算。您是否知道是否有任何方法，或者我如何调整最初设计用于处理分类数据</em

浏览 14提问于2018-02-03得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云