我目前正在尝试使用聚类分析作为我的一个项目的时间序列聚合工具。数据集是高维的(386-d),因此无法直观地评估聚类有效性.
我使用三种不同的聚类算法(k-均值++,k-medoids PAM,模糊c-均值)来寻找具有代表性的周期。由于我不知道数据集中有多少个时间段(因此,有多少个中心/medoids),所以我想对它使用一个内部集群有效性索引(cvi)。(基本过程:运行多个k的聚类,并按k绘制cvi;根据cvi最优选择最高/最低的k)。
让我们以k-均值为例。它是不确定的,因此我以不同的起点多次启动它.然后,它试图减少簇内方差。然后,保留具有相同k的各种初始化的最小簇内方差的结果。
我的问题是:我使用的集群有效性指数是否应该将簇内方差作为一种内聚力度量?可以这样说: cvi是否应该使用聚类算法的目标函数来评估聚类的“优性”?
一方面,我认为这是一个好主意,因为它可以评估聚类算法在其目标函数中“最成功”的地方。另一方面,我认为一个好的聚类不应该依赖于相同的(内聚性)度量。因此,使用同样的措施将增加识别“坏”聚类的可能性,这种聚类可能代表从随机点提取的非自然聚类。
这里“真相”是什么?
发布于 2019-05-29 05:51:05
这是标准的使用,例如,轮廓,以评估质量的聚类,是通过其他方法获得。
我不太喜欢这个(人们总是认为他们会以这种方式得到“最佳”结果,但他们不会),但这是所有的文献。从逻辑上讲,您正在尝试最大化剪影,并使用其他算法作为可能的结果的抽样过程。
https://datascience.stackexchange.com/questions/52766
复制相似问题