学习
实践
活动
专区
工具
TVP
写文章

详解Kmeans的两大经典优化,mini-batch和kmeans++

这个方法直接在Kmeans算法本身上做优化因此被称为Kmeans++。 前文当中我们已经说过了,想要优化Kmeans算法的效率问题,大概有两个入手点。一个是样本数量太大,另一个是迭代次数过多。 刚才我们介绍的mini batch针对的是样本数量过多的情况,Kmeans++的方法则是针对迭代次数。我们通过某种方法降低收敛需要的迭代次数,从而达到快速收敛的目的。 Kmeans++的思路正是基于上面的这两点,我们将目前已经想到的洞见整理一下,就可以得到算法原理了。 算法原理 首先,其实的簇中心是我们通过在样本当中随机得到的。 在上面这张图当中,我们随机出来的值是0.68,然后我们一次减去区间,最后落到的区间 总结 明白了轮盘算法之后,整个Kmeans++的思路已经是一览无余了。 当然Kmeans++本身也具有随机性,并不一定每一次随机得到的起始点都能有这么好的效果,但是通过策略,我们可以保证即使出现最坏的情况也不会太坏。

1.1K20
  • 广告
    关闭

    新年·上云精选

    热卖云产品新年特惠,2核2G轻量应用服务器9元/月起,更多上云必备产品助力您轻松上云

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    吴恩达机器学习笔记 —— 14 无监督学习

    本章讲述的是第一个无监督的机器学习算法,在无监督的算法中,样本数据只有特征向量,并没有标注的y值。比如聚类算法,它可以用在市场分类、社交网络分析、天体数据分析等等。 在做聚类时,最简单的算法就是k-means,一般的流程是: 首先随机选择k个聚类中心点 遍历所有的样本,选择一个距离最近的中心点,并标记为对应的聚类 重新针对类簇计算中心点 重复2-3的过程 还有一个算法在这次的课程中没有提到 ,就是kmeans++,它与上面的kmeans不同的是,选择中心点是首先随机选择一个,然后选择一个离当前最远的作为下一个中心点.... 聚类算法有时候并不是那么完美分割的,大部分的时候数据都是连接在一起的: ? k-means的优化目标:其实就是每个样本点与其中心点计算一次距离,全部样本的平均距离就是算法的优化目标,min(path)越小,代表聚类算法越好。不过细想一下,如果K越大,这个值就会越小。

    20000

    K-means聚类:原理简单的聚类算法

    K-means属于聚类算法的一种,通过迭代将样本分为K个互不重叠的子集。 对于K-means聚类而言,首先要确定的第一个参数就是聚类个数K。 K-means是一种启发式的聚类算法,通过迭代的方式来求解,在初次迭代时,随机选择两个样本点作为聚类的中心点,这样的中心点也叫做质心centroids,然后不断循环重复如下两个过程 1. cluster 在kmeans算法中,初始聚类中心点的选取对算法收敛的速度和结果都有很大影响。 在传统kemans的基础上,又提出了kmeans++算法,该算法的不同之处在于初始聚类中心点的选取策略,其他步骤和传统的kmeans相同。 kmeans++的初始聚类中心选择策略如下 1. kmeans算法原理简单,运算速度快,适用于大样本的数据,但是注意由于采用了欧氏距离,需要在数据预处理阶段进行归一化处理。

    71530

    【机器学习】--Kmeans从初识到应用

    一.前述 Kmeans算法一般在数据分析前期使用,选取适当的k,将数据分类后,然后分类研究不同聚类下数据的特点。 Kmeans算法是一种无监督的算法。  常用于分组,比如用户偏好。 可以用来在相同原始数据的基础上用来评价不同算法、或者算法不同运行方式对聚类结果所产生的影响。 方法:                   1,计算样本i到同簇其他样本的平均距离ai。 Kmeans++原理: k-means++算法选择初始seeds的基本思想就是:初始的聚类中心之间的相互距离要尽可能的远。 x1_max)) plt.ylim((x2_min, x2_max)) plt.grid(True) plt.subplot(424) plt.title(u'旋转后KMeans _max)) plt.ylim((x2_min, x2_max)) plt.grid(True) plt.subplot(426) plt.title(u'方差不相等KMeans

    60920

    智能驾驶系统是怎样看懂交通标志的?3张流程图给你讲明白

    大多数传统的交通标志牌检测算法常常是基于任务驱动的,如依赖颜色、形状以及机器学习。目前,这些算法针对的应用场景往往局限于结构化或半结构的环境,如高速公路等。 受此启发,本文提出一种基于视觉协同显著性的交通标志牌检测算法,这是目前较有前景的解决办法。 协同显著性的目标是从多幅输入图像中提取共同的显著性前景目标[6-7]。 研究一种复杂场景中基于视觉协同显著性的交通标志牌检测算法,总体框架如图2-1所示。 采用的聚类算法Kmeans++,这是一种无监督聚类算法,可以直观地划分出图像内与图像间的关联性区域。需要注意,聚类个数的选取是人为设定的。 图2-3分别提供了单幅图像内的聚类和多幅图像间的聚类效果,可以看出Kmeans++实现了图像内的局部不变性约束和图像间的全局一致性约束。 ?

    48530

    MADlib——基于SQL的数据挖掘解决方案(26)——聚类之k-means方法

    agg_centroid, max_num_iterations, min_frac_reassigned ) 使用kmeans kmeans++将扫描数据‘k’次,对大数据集会很慢。此参数指定用于确定初始中心点所使用的原始数据集样本比例。当此参数大于0时(最大值为1.0),初始中心点在数据均匀分布的随机样本上。 注意,k-means算法最终会在全部数据集上执行。此参数只是为确定初始中心点建立一个子样本,并且只对kmeans++有效。 kmeans++将扫描数据‘k’次,对大数据集会很慢。此参数指定用于确定初始中心点所使用的原始数据集样本比例。当此参数大于0时(最大值为1.0),初始中心点在数据均匀分布的随机样本上。 注意,k-means算法最终会在全部数据集上执行。此参数只是为确定初始中心点建立一个子样本,并且只对kmeans++有效。

    37810

    HAWQ + MADlib 玩转数据挖掘之(八)——聚类方法之k-means

    二、k-means方法         在数据挖掘中,k-means算法是一种广泛使用的聚类分析算法,也是Madlib 1.10.0官方文档中唯一提及的聚类算法。 1. agg_centroid,                  max_num_iterations,                  min_frac_reassigned                )   使用kmeans kmeans++将扫描数据‘k’次,对大数据集会很慢。此参数指定用于确定初始中心点所使用的原始数据集样本比例。当此参数大于0时(最大值为1.0),初始中心点在数据均匀分布的随机样本上。 注意,k-means算法最终会在全部数据集上执行。此参数只是为确定初始中心点建立一个子样本,并且只对kmeans++有效。 深入浅出K-Means算法:简单易懂的K-Means算法描述 基本Kmeans算法介绍及其实现:详细阐述k-means算法需要注意的问题。

    56550

    机器学习算法之聚类算法

    1.2 概念 聚类算法: 一种典型的无监督学习算法,主要用于将相似的样本自动归到一个类别中。 1.3 与分类算法最大的区别 聚类算法是无监督的学习算法,而分类算法属于监督的学习算法kmeans++ 目的,让选择的质心尽可能的分散 如下图中,如果第一个质心选择在圆心,那么最优可能选择到的下一个点在 P(A) 这个区域(根据颜色进行划分) ? 二分 K 均值算法可以加速 K-means 算法的执行速度,因为它的相似度计算少了并且不受初始化问题的影响,因为这里不存在随机点的选取,且每一步都保证了误差最小。 更多精彩文章请关注公众号『Pythonnote』或者『全栈技术精选』 5.9 总结 优化方法 思路 Canopy+kmeans Canopy粗聚类配合kmeans kmeans++ 距离越远越容易成为新的质心

    77430

    算法】GBDT算法

    小编邀请您,先思考: 1 GBDT算法的原理是什么? 2 GBDT算法如何做正则化处理? GBDT在BAT大厂中也有广泛的应用,假如要选择3个最重要的机器学习算法的话,个人认为GBDT应该占一席之地。 分类算法 GBDT的分类算法从思想上和GBDT的回归算法没有区别,但是由于样本输出不是连续的值,而是离散的类别,导致我们无法直接从输出类别去拟合类别输出的误差。 除了负梯度计算和叶子节点的最佳残差拟合的线性搜索,二元GBDT分类和GBDT回归算法过程相同。 多元分类算法 多元GBDT要比二元GBDT复杂一些,对应的是多元逻辑回归和二元逻辑回归的复杂度差别。 由于GBDT的卓越性能,只要是研究机器学习都应该掌握这个算法,包括背后的原理和应用调参方法。目前GBDT的算法比较好的库是xgboost。当然scikit-learn也可以。

    72580

    关注

    腾讯云开发者公众号
    10元无门槛代金券
    洞察腾讯核心技术
    剖析业界实践案例
    腾讯云开发者公众号二维码

    相关产品

    • 人脸融合

      人脸融合

      腾讯云神图·人脸融合通过快速精准地定位人脸关键点,将用户上传的照片与特定形象进行面部层面融合,使生成的图片同时具备用户与特定形象的外貌特征,支持单脸、多脸、选脸融合,满足不同的营销活动需求……

    相关资讯

    热门标签

    活动推荐

    扫码关注腾讯云开发者

    领取腾讯云代金券