我想对数据集进行聚类,而不需要事先知道集群的正确数量。对于不同的算法(即k-均值,gmm.)我可以迭代不同的值,并试图为任何给定的算法(如蜂窝曲线,剪影系数等)找到最佳解。
但是我得到了非常不同的结果--正如不同算法所期望的那样。K-均值对球形团簇是有利的,对于完全不同的团簇形状则是基于密度的方法.
现在实际的问题是:如何选择“最佳”的无监督机器学习算法来对特定的数据集进行聚类?有科学的方法吗?是否有可使用的比较指标(如兰德索引)?一些关于这个话题的论文?甚至是流程图?
发布于 2020-06-23 12:19:10
发布于 2020-07-14 20:59:48
谢谢你的回答。事实上,我是通过一些广泛的研究发现的。关键是定义“您认为是集群的内容”的(个人)含义,然后导出要用这些集群进行基准测试的指标(可以是剪影系数,也可以是群平方和等)。你提到的假设也是如此。这取决于您在集群中的个人目标以及您想要实现的结果。最后,您可以放弃一些算法,并有一组您想要处理的指标。
通过标准化许多具有不同超参数和簇数的模型的结果,您可以比较结果并决定哪一个最适合。
https://datascience.stackexchange.com/questions/76519
复制相似问题