参考资料 斯坦福大学 2014 机器学习教程中文笔记 by 黄海广
来计算距离,其中
表示无标签的样本点,u_{k}表示 簇中心
K-均值算法也可以很便利地用于将数据分为许多不同组,即使在没有非常明显区分的组群的情况下也可以。下图所示的数据集包含身高和体重两项特征构成的,利用 K-均值算法将数据分为三类,用于帮助确定将要生产的 T-恤衫的三种尺寸。
表示样本
当前所属的簇的索引编号 ,
表示 第 k 个聚类中心 的位置,其中
表示样本
所属簇的中心的 位置坐标
和每个簇中心的坐标
这两个都是在聚类过程中不断变化的变量。此代价函数也被称为 畸变函数(Distortion function)
固定的条件下调整
的值以使损失函数的值最小。
固定的条件下调整
的值以使损失函数的值最小。
[1]
吴恩达老师课程原地址: https://study.163.com/course/courseMain.htm?courseId=1004570029