首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

BIRCH详解_Bilabial

聚类特征(Clustering Feature,简称CF)是一种用来表征聚类特征的数据格式,他由以下三部分组成:簇中所含样本点的个数(用 N N N来表示)、簇中所有点的各项属性的线性和(用 L S LS LS来表示)以及簇中所有点的各项属性的平方和(用 S S SS SS来表示),假设存在簇 C = { ( 1 , 2 ) , ( 2 , 1 ) , ( 1 , 1 ) , ( 2 , 2 ) } C=\{\left(1,2\right),\left(2,1\right),\left(1,1\right),\left(2,2\right)\} C={ (1,2),(2,1),(1,1),(2,2)},那么 N = 4 N=4 N=4, L S = ( { 1 + 2 + 1 + 2 } , { 2 + 1 + 1 + 2 } ) = ( 6 , 6 ) LS=\left(\{1+2+1+2\},\{2+1+1+2\}\right)=\left(6,6\right) LS=({ 1+2+1+2},{ 2+1+1+2})=(6,6), S S = 1 2 + 2 2 + 1 2 + 2 2 + 2 2 + 1 2 + 1 2 + 2 2 = 20 SS=1^2+2^2+1^2+2^2+2^2+1^2+1^2+2^2=20 SS=12+22+12+22+22+12+12+22=20。因此这种结构具有很好的线性性质,即当需要合并两个簇时,总的聚类特性可以简单的通过两者聚类特性之和来表示。有了上述信息之后,就可以计算簇的质心以及方差(或标准差),其中方差可以用来表征簇的半径,还可以间接的计算两个簇质心之间的距离。   聚类特征树(Clustering Feature Tree,简称CF-Tree)是一棵高度平衡的树,这棵树由根节点、内部节点(或者称为非叶节点)以及叶节点,其中每个非叶节点和根节点都由形如 [ C F i , c h i l d i ] [CF_{i},child_{i}] [CFi​,childi​]的项组成, c h i l d i child_i childi​代表第 i i i个节点的子节点,而叶节点(或者称为簇)通过 C F i CF_i CFi​组成的序列来表示每个簇的特征,下图(图1)所示是一个CF-Tree实例。

01
领券