学习
实践
活动
专区
工具
TVP
写文章

BIRCH聚类算法原理

这里我们再来看看另外一种常见的聚类算法BIRCHBIRCH算法比较适合于数据量大,类别数K也比较多的情况。 BIRCH算法     上面讲了半天的CF Tree,终于我们可以步入正题BIRCH算法,其实将所有的训练集样本建立了CF Tree,一个基本的BIRCH算法就完成了,对应的输出就是若干个CF节点,每个节点里的样本点就是一个聚类的簇 当然,真实的BIRCH算法除了建立CF Tree来聚类,其实还有一些可选的算法步骤的,现在我们就来看看 BIRCH算法的流程。      BIRCH算法小结     BIRCH算法可以不用输入类别数K值,这点和K-Means,Mini Batch K-Means不同。 最后总结下BIRCH算法的优缺点:      BIRCH算法的主要优点有:     1) 节约内存,所有的样本都在磁盘上,CF Tree仅仅存了CF节点和对应的指针。

81510
  • 广告
    关闭

    上云精选

    2核2G云服务器 每月9.33元起,个人开发者专属3年机 低至2.3折

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    BIRCH聚类算法原理

    章节目录 BIRCH概述 聚类特征CF与聚类特征树CF Tree 聚类特征树CF Tree的生成 BIRCH算法 BIRCH算法小结 01 BIRCH概述 BIRCH的全称是利用层次方法的平衡迭代规约和聚类 04 BIRCH算法 上面讲了半天的CF Tree,终于我们可以步入正题BIRCH算法,其实将所有的训练集样本建立了CF Tree,一个基本的BIRCH算法就完成了,对应的输出就是若干个CF节点,每个节点里的样本点就是一个聚类的簇 也就是说BIRCH算法的主要过程,就是建立CF Tree的过程。 当然,真实的BIRCH算法除了建立CF Tree来聚类,其实还有一些可选的算法步骤的,现在我们就来看看 BIRCH算法的流程。 05 BIRCH算法小结 BIRCH算法可以不用输入类别数K值,这点和K-Means,Mini Batch K-Means不同。 最后总结下BIRCH算法的优缺点: BIRCH算法的主要优点有: 1) 节约内存,所有的样本都在磁盘上,CF Tree仅仅存了CF节点和对应的指针。

    1.3K40

    BIRCH聚类算法详解

    BIRCH算法全称如下 Balanced Iterative Reducing and Clustering Using Hierarchies 属于树状结构的层次聚类算法的一种,其树状结构的构建是自上而下的 对于BIRCH算法而言,主要的步骤就是构建CF tree, 树状结构构建好之后,后续还可以有些可选步骤,常见的可选步骤如下 1. 去除异常的CF点,通常是包含样本较少的CF 2. 利用CF节点的质心,对样本点进行聚类 在scikit-learn中,使用BIRCH聚类的代码如下 >>> from sklearn.cluster import Birch >>> X = [[0, 1 ], [0.3, 1], [-0.3, 1], [0, -1], [0.3, -1], [-0.3, -1]] >>> brc = Birch(n_clusters=None) >>> brc.fit( X) Birch(n_clusters=None) >>> brc.predict(X) array([0, 0, 0, 1, 1, 1]) BIRCH算法的优点是节约内存,聚类速度快,可以不用指定聚类的类别数目

    89820

    机器学习(34)之BIRCH层次聚类详解

    这里再来看看另外一种常见的聚类算法BIRCHBIRCH算法比较适合于数据量大,类别数K也比较多的情况。它运行速度很快,只需要单遍扫描数据集就能进行聚类。 BIRCH只需要单遍扫描数据集就能进行聚类,那它是怎么做到的呢? BIRCH算法 将所有的训练集样本建立了CF Tree,一个基本的BIRCH算法就完成了,对应的输出就是若干个CF节点,每个节点里的样本点就是一个聚类的簇。 也就是说BIRCH算法的主要过程,就是建立CF Tree的过程。 当然,真实的BIRCH算法除了建立CF Tree来聚类,其实还有一些可选的算法步骤的,现在我们就来看看 BIRCH算法的流程。 BIRCH算法总结 BIRCH算法可以不用输入类别数K值,这与K-Means,Mini Batch K-Means不同。

    1.1K50

    机器学习(8)——其他聚类层次聚类画出原始数据的图小结

    image.png 模型构建 #创建不同的参数(簇直径)Birch层次聚类 birch_models = [ Birch(threshold=1.7, n_clusters=100), , info) in enumerate(zip(birch_models, final_step)): t = time() birch_model.fit(X) time_ = time() - t # 获取模型结果(label和中心点) labels = birch_model.labels_ centroids = birch_model.subcluster_centers 并不需要存储原始数据信息,内存开销上更优; (3)BIRCH算法只需要遍历一遍原始数据,而Agglomerative算法在每次迭代都需要遍历一遍数据,所以BIRCH在性能也优于Agglomerative ; (4)支持对流数据的聚类,BIRCH一开始并不需要所有的数据; 小结 本章主要介绍了聚类中的其他聚类算法的思想—层次聚类,着重介绍了算法—Agglomerative算法,BIRCH算法。

    1.1K60

    机器学习:基于层次的聚类算法

    基于自底向上算法有凝聚算法、BIRCH算法、CURE算法、变色龙算法等。 另外,Agglomerative性能较低,并且因为聚类层次信息需要存储在内存中,内存消耗大,不适用于大量级的数据聚类,下面介绍一种针对大数据量级的聚类算法BIRCHBIRCH算法 BIRCH算法的全称是Balanced Iterative Reducing and Clustering using Hierarchies,它使用聚类特征来表示一个簇,使用聚类特征树 ; BIRCH算法只需要遍历一遍原始数据,而Agglomerative算法在每次迭代都需要遍历一遍数据,所以BIRCH在性能也优于Agglomerative; 支持对流数据的聚类,BIRCH一开始并不需要所有的数据 质心,代表这个簇的中心: 簇半径,簇中所有点到质心的平均距离: 簇直径,簇中所有数据点之间的平均距离; BIRCH算法的核心是构建CF-树(Clustering Feature Tree),而CF

    9K11

    精准用户画像!商城用户分群2.0!⛵

    图片 ② 层次聚类(BIRCH) 算法 BIRCH(Balanced Iterative Reducing and Clustering Using Hierarchies)翻译为中文就是『利用层次方法的平衡迭代规约和聚类 简单来说,BIRCH 算法利用了一个树结构来帮助我们快速的聚类,这个特殊的树结构,就是我们后面要详细介绍的聚类特征树(CF-tree)。 图片 ③ 应用 BIRCH 聚类 我们再使用 BIRCH 进行聚类,代码如下: n = range(2,10) for x in n: model = Birch(n_clusters=x, threshold =0.17) X = df_scaledI[ "annual income", "spending_score"]] model.fit(X) 与 K-Means 聚类不同,BIRCH 聚类没有失真分数 图片 图片 BIRCH 的计算也给出了簇数等于5这样的一个结论。我们同样对数据进行分布分析绘图,不同的用户簇的数据分布如下(依旧可以比较清晰看到不同用户群的分布差异)。

    27152

    扫码关注腾讯云开发者

    领取腾讯云代金券