版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/github_39655029/article/details/82925787
样本点中的关键度量指标:距离
TF-IDF矩阵
聚类算法
1、开始时每个样本各自作为一类; 2、规定某种度量作为样本间距及类与类之间的距离,并计算; 3、将距离最短的两个类聚为一个新类; 4、重复2-3,不断聚集最近的两个类,每次减少一个类,直到所有样本被聚为一类;
1、选择K个点作为初始质心; 2、将每个点指派到最近的质心,形成K个簇(聚类) 3、重新计算每个簇的质心; 4、重复2-3直至质心基本不变,此时算法达到稳定状态; 需要多次运行,然后比较各次运行结果,然后选取最优解,K值使用肘部法则进行确定;
类相互之间的距离的计算方法