在应用L方法来确定数据集中k均值聚类的数量之前,是否有人尝试将平滑器应用于评估指标?如果是这样,它是否改善了结果?或者允许较少的k-means试验次数,从而大大提高速度?您使用的是哪种平滑算法/方法?
“L-方法”在, Salvador & Chan中有详细介绍。
这将计算一系列不同试验集群计数的评估指标。然后,为了找到膝部(出现在最佳数量的集群),使用线性回归拟合两条直线。应用一个简单的迭代过程来改善膝部拟合-这使用现有的评估指标计算,不需要任何k-means的重新运行。
对于评估指标,我使用了Dunns Index的简化版本的倒数。简化了速度(基本上简化了我的直径和簇间计算)。倒数是这样的索引在正确的方向上工作(即。通常越低越好)。
K-means是一种随机算法,因此它通常会运行多次,并选择最适合的算法。这工作得很好,但是当你对1..N个集群这样做时,时间很快就会累积起来。因此,让运行次数保持在可控范围内符合我的利益。总的处理时间可能决定我的实现是否实用-如果我不能加速它,我可能会抛弃这个功能。
https://stackoverflow.com/questions/4033821
复制相似问题