我正在尝试在提供的数据集中使用k-means,只使用有关客户端的变量。问题是8个变量中有7个是分类的,所以我对它们使用了一个热编码器。为了使用肘部方法选择理想数量的集群,我对2到22个集群运行了KMeans,并绘制了inertia_值。但它的形状一点也不像肘部,它看起来更像一条直线。import numpy as npfrom s
创建决策树和数据集有21列,是数字变量和分类变量的混合。使用sklearn,我知道它不支持分类变量。我使用标签编码将分类转换为数字,同时也分离数值变量。然后,我会认为我必须把这两个组相加在一起,这样我就可以分成测试和训练数据。但是,当我试图将这两个变量相加(最初是数值变量,并将分类变量转换为数字变量)时,我收到了一个ValueError。import pandas as pd
im