前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >ARI聚类效果评价指标

ARI聚类效果评价指标

作者头像
钱塘小甲子
发布2019-01-28 15:51:03
3.2K0
发布2019-01-28 15:51:03
举报

聚类效果有一个评价指标,ARI(Adjusted Rand Index)。这个指标不考虑你使用的聚类方法,把你的方法当做一个黑箱,只注重结果。可以说,是一个十分“功利”的指标。

1.Rand index

在讲ARI之前呢,先讲述一下RI,也就是rand index,从两者的名字也可以看出来,这是ARI的祖宗版。

这里,我们解释一下a,b,c,d分别代表什么。a呢就是说应该在一类,你最后聚类到一类的数量,b呢就是不应该在一类 ,你最后聚类结果也没把他们聚类在一起的数量。c和d那么就是应该在一起而被分开的和不应该在一起而被迫住在一起的。毕竟强扭的瓜不甜,c和d固然是错误的。所以从R的表达式中可以看出,我们只认为a和b是对的,这样能够保证R在0到1之间,而且,聚类越准确,指标越接近于1.

这里有一个关键性的问题,就是什么叫数量?你怎么去计算?准确的说,是配对的数量。比如说a是应该在一起而真的幸福的在一起了的数量,这显然就应该像人类一样按照小夫妻数量计算,但是我们的样本可不管一夫一妻制,任意选两个就是一个配对,所以,就是n(n-1)/2这样来计算,也就是组合数,n个当中选两个的选法。同时我们看到,分母其实是所有配对的总和,所以,我们最后可以写成这样:

2.ARI

有了先前RI的感性理解之后,我们再来讲一下ARI。

RI有一个缺点,就是惩罚力度不够,换句话说,大家普遍得分比较高,没什么区分度,遍地80分。这样的话,往往是考试的制度不合适,于是就诞生出了ARI,这个指标相对于RI就很有区分度了。

具体的公式就是下面这样的。

我们来分析一下,

 nij代表的是聚类之后再i类,应该在j类的样本数量,很显然,这一求和,就是RI中的a,应该在一起而真的在一起的数量。

是如果你的聚类是完全对的,那么就应该是这个数目,所以在表达式里面叫做max index。

后面这一个部分

就比较难理解了,他是a的期望,也就是

这一个部分最难理解。

假设配对矩阵是这样的,显然,我们共有n(n-1)/2个配对方法。我们在行方向计算出可能取到的配对书,在列方向计算可能取到的配对数,相乘以后,除以总的配对数。这就是a的期望了。

这里呢,这个期望就像是一个benchmark,用来衡量距离用的。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2016年09月27日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档