首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何选择“最佳”的无监督机器学习算法来对特定数据集进行聚类?

如何选择“最佳”的无监督机器学习算法来对特定数据集进行聚类?
EN

Data Science用户
提问于 2020-06-23 11:47:12
回答 2查看 115关注 0票数 1

我想对数据集进行聚类,而不需要事先知道集群的正确数量。对于不同的算法(即k-均值,gmm.)我可以迭代不同的值,并试图为任何给定的算法(如蜂窝曲线,剪影系数等)找到最佳解。

但是我得到了非常不同的结果--正如不同算法所期望的那样。K-均值对球形团簇是有利的,对于完全不同的团簇形状则是基于密度的方法.

现在实际的问题是:如何选择“最佳”的无监督机器学习算法来对特定的数据集进行聚类?有科学的方法吗?是否有可使用的比较指标(如兰德索引)?一些关于这个话题的论文?甚至是流程图?

EN

回答 2

Data Science用户

发布于 2020-06-23 12:19:10

这是一个很重要的问题。没有找到“最佳”算法或“正确”数量的集群的一般规律(假设您不知道正确的集群数量)。

正如您已经提到的,某些算法对集群或一般数据的形状进行了假设。我建议的一件事是查看你的数据,检查假设,排除违反假设的算法。如果您处理高维数据,PCAt-SNEUMAP等降维方法在这里非常有用。

进一步了解聚类算法的复杂性。如果您熟悉偏差-方差权衡奥卡姆剃刀,那么您已经知道,更简单的算法不太容易过度拟合,并且更有可能给出正确的结果。在这方面,比克AIC是相当流行的措施。

通常,对于无监督的聚类,最好是查看许多不同的算法,将它们与不同的度量进行比较,并在其中找到高级的“一致性”。

票数 0
EN

Data Science用户

发布于 2020-07-14 20:59:48

谢谢你的回答。事实上,我是通过一些广泛的研究发现的。关键是定义“您认为是集群的内容”的(个人)含义,然后导出要用这些集群进行基准测试的指标(可以是剪影系数,也可以是群平方和等)。你提到的假设也是如此。这取决于您在集群中的个人目标以及您想要实现的结果。最后,您可以放弃一些算法,并有一组您想要处理的指标。

通过标准化许多具有不同超参数和簇数的模型的结果,您可以比较结果并决定哪一个最适合。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/76519

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档