Euclidean distance(欧氏距离)
d ( x , y ) = ∑ i ( x i − y i ) 2 d(x,y)=\sqrt{\sum_{i}(x_{i}-y_{i} )^{2}} d(x,y)=∑i(xi−yi)2公式一
Squared Euclidean distance(平方欧氏距离)
d ( x , y ) = ∑ i ( x i − y i ) 2 d(x,y)=\sum_{i}(x_{i}-y_{i} )^{2} d(x,y)=∑i(xi−yi)2公式二
Cosline(夹角余弦)
C x y ( 1 ) = cos θ x y = ∑ i x i y i ∑ i x i 2 ∑ i y i 2 C_{xy}(1)=\cos \theta _{xy} =\frac{\sum_{i}x_{i}y_{i}}{\sqrt{\sum_{i}x_{i}^{2}\sum_{i}y_{i}^{2}}} Cxy(1)=cosθxy=∑ixi2∑iyi2∑ixiyi公式三
Pearson conelation(皮尔逊相关系数)
C x y ( 2 ) = γ x y = ∑ i ( x i − x ˉ ) ( y i − y ˉ ) ∑ i ( x i − x ˉ ) 2 ∑ i ( y i − y ˉ ) 2 C_{xy}(2)=\gamma _{xy} =\frac{\sum_{i}(x_{i}-\bar{x})(y_{i}-\bar{y} )}{\sqrt{\sum_{i}(x_{i}-\bar{x})^{2}\sum_{i}(y_{i}-\bar{y} )^{2}}} Cxy(2)=γxy=∑i(xi−xˉ)2∑i(yi−yˉ)2∑i(xi−xˉ)(yi−yˉ)公式四
Chebychev(切比雪夫距离)
d ( x , y ) = M a x i ∣ x i − y i ∣ d(x,y)=\underset{i}{Max}\left | x_{i}-y_{i} \right | d(x,y)=iMax∣xi−yi∣公式五
Block(曼哈顿距离)
d ( x , y ) = ∑ i ∣ x i − y i ∣ d(x,y)=\sum_{i}\left | x_{i}-y_{i} \right | d(x,y)=∑i∣xi−yi∣公式六
Minkowski(闵科夫斯基距离)
d ( x , y ) = [ ∑ i ∣ x i − y i ∣ q ] 1 q d(x,y)=\left [ \sum_{i}\left | x_{i}-y_{i} \right | ^{q} \right ] ^{\frac{1}{q} } d(x,y)=[∑i∣xi−yi∣q]q1公式七
概念:不同类中两个最近的点之间的距离。
特点:对噪声和离群点很敏感。
公式: D p q = min d ( x i , x j ) D_{pq}=\min d\left ( x_{i},x_{j} \right ) Dpq=mind(xi,xj)公式八
Furthest neighbor (最远邻元素法)
图6 最远邻元素法
概念:不同类中两个最远的点之间的距离。
特点:对噪声和离群点不是很敏感,倾向于分裂较大的类。
公式: D p q = max d ( x i , x j ) D_{pq}=\max d\left ( x_{i},x_{j} \right ) Dpq=maxd(xi,xj)公式九
Centroid clustering (质心聚类法)
公式: D p q = min d ( x p ˉ , x q ˉ ) D_{pq}=\min d\left ( \bar{x_{p}} ,\bar{x_{q}} \right ) Dpq=mind(xpˉ,xqˉ)公式十
Ward’s method (离差平方和法)
公式:
D 1 = ∑ x i ∈ G p ( x i − x p ˉ ) ′ ( x i − x p ˉ ) D_{1} =\sum_{x_{i}\in G_{p}}(x_{i}-\bar{x_{p}} )'(x_{i}-\bar{x_{p}} ) D1=∑xi∈Gp(xi−xpˉ)′(xi−xpˉ)公式十一 D 2 = ∑ x j ∈ G q ( x j − x q ˉ ) ′ ( x j − x q ˉ ) D_{2} =\sum_{x_{j}\in G_{q}}(x_{j}-\bar{x_{q}} )'(x_{j}-\bar{x_{q}} ) D2=∑xj∈Gq(xj−xqˉ)′(xj−xqˉ)公式十二 D 1 + 2 = ∑ x k ∈ G p ∪ G q ( x k − x ˉ ) ′ ( x i − x ˉ ) ⇒ D p q = D 1 + 2 − D 1 − D 2 D_{1+2} =\sum_{x_{k}\in G_{p}\cup G_{q}}(x_{k}-\bar{x} )'(x_{i}-\bar{x})\Rightarrow D_{pq}=D_{1+2}-D_{1}-D_{2} D1+2=∑xk∈Gp∪Gq(xk−xˉ)′(xi−xˉ)⇒Dpq=D1+2−D1−D2公式十二
Single solution(单一方案):选择此项并在对应的(Number of clusters(聚类数)参数框中指定分类数。例如指输入数字“4”,则会在输出窗中显示聚为 4类的分析结果。
Range of solutions(方案范围):选择此选项并在下边的Mi nimum number of clusters(最小聚类数)和Maxmum number of clusters(最大聚类数)参数框中输入最小聚类数目和最大聚类数目。表示分别输出样品或变量的分类数从最小值到最大值的各种分 类聚类表。输入的两个数值必须是不等于1 的正整数,最大类数值不 能大于参与聚类的样品数或变量总数。
图9
Dendrogram(树状图):显示树形图。
Icicle(冰柱):显示冰柱图形,其中:
All clusters:显示全部聚类结果的冰柱图。
Specified range clusters:限定显示的聚类范围。例如,输入的结果是:3,9,2,生成的冰柱图从第三步开 始,显示第三、五、七、九步聚类的情况。