我阅读过的大多数论文都使用外部验证来验证聚类的准确性,并使用此公式:
其中ai是在ith集群及其相应的真类中发生的数据对象的数量,n是数据集中的数据对象的数量。根据该度量,r值越高,聚类效果越好,最佳聚类值为r= 1.0。
这个公式和纯度公式一样吗?你可以在这里读到纯度https://stats.stackexchange.com/questions/95731/how-to-calculate-purity
不管怎样,谢谢
发布于 2018-07-13 06:35:49
我不同意这份文件关于这将是“普遍”使用的说法。常用的衡量标准是ARI (调整兰德指数)和NMI (标准化互信息)。
但是的,吨这看起来和纯度一样。也有同样的缺点。
据推测,他们使用的方法是偏向于将“真”簇分解成更小的块。如果是k=n,每个点都是它自己的聚类,那么所有这些都是1,这个度量将把结果评价为完美。
所以你不能用它来比较不同k的结果。
https://stackoverflow.com/questions/51308946
复制相似问题