所以聚类过程是需要计算数据间的相似性的。这里就需要有一个计算数据间相似性的标准。
一般地,每个数据点都可以用一个向量表示,因此可以使用距离d或者相似性s来衡量两个用向量表示的数据间的相似程度。...由于表示数据点的向量元素具有不同的类型,可能是连续的,也可能是离散的,也可能有二者皆有的形式。因此距离函数d和相似系数s的定义也相应存在不同的形式。...假设有n个点的数据集合{x1,x2, x3,…xn},d_ij表示数据点x_i,x_j之间的距离,可以将n个数据点x_i,x_j间的距离写成矩阵形式。
?...三角不等式
下表涵盖了不同的计算数据点xi=(x_i1,x_i2,…,x_in)与数据点xj=(x_j1,x_j2,…,x_jn)之间的距离或相似度的方式。
?...,并计算拉普拉斯的特征值和特征向量。