df11[['COMPONENT_ID','FIRMWARE','SERIAL','CRP0_VDDN']].head()
考虑到我有这四栏要分析。我想用相似的字符组成3-5簇的COMPONENT_IDs .我希望基于剩余的特性或与COMPONENT_IDs相关的COMPONENT_IDs实现这一目标。我该怎么做?
发布于 2020-03-19 16:42:03
首先,聚类只用于数值,特别是连续值。这里您要做的是集群一个分类变量,这也是一个ID列。我不确定目标,但这不是一个很好的技术聚类值。
尽管如此,我不确定ID列中有多少唯一条目。在聚类之前,您必须将其转换为分类数。然后只接受ID列和CRPO_VDNN列,并使用KNN对其进行聚类。您也可以在KNN中设置集群的数量。
https://datascience.stackexchange.com/questions/69946
复制相似问题