聚类的对象是观测数据或者样本集合,用相似度或者距离来表示样本之间的相似度。常用的距离:
这里
其中
夹角余弦cosine
越接近1表示越相似,接近0表示越不相似
用距离度量:距离越小,越靠近越相似;用相关系数:相关系数越大越相似
通过聚类得到的类或者簇,本质是样本的子集。
类的特征可以通过不同的角度进行刻画,常用三种:
关于符号:
两个不同类G_p,G_q之间的距离D,称之为 连接linkage,假设两个样本、个数和均值:
G_p—>n_p—>\hat x_pG_q—>n_q—>\hat x_q
两个类中样本之间的最长距离
两个中心之间的距离
两个类中的任意两个样本之间距离的平均值
bottom-up
divisive