聚类方法

皮大大

发布于 2021-03-02 14:37:52

5960

发布于 2021-03-02 14:37:52

文章被收录于专栏：机器学习/数据可视化

什么是聚类

聚类是针对给定的样本，依据它们特征的相似度或者距离，将其归到若干个类或者簇的数据分析问题。
聚类的目的是通过得到的类或者簇来发现数据的特点或者数据进行处理
聚类是无监督学习，常用的聚类算法
- 层次聚类
  - 分为聚合和分裂两种方法
  - 聚合：将相近的两类合并，重复；分裂：将相距最远的样本分到两个不同的类中
- k-均值聚类
  - 基于中心的聚类
  - 找到每个样本与其所属的中心或者均值最近

基本概念

相似度或距离

聚类的对象是观测数据或者样本集合，用相似度或者距离来表示样本之间的相似度。常用的距离：

闵可夫斯基距离闵可夫斯基距离越小相似度越大

d_{ij}=(\sum_{k=1}{m}|x_{ki}-x_{kj}|p)^{\frac{1}{p}}

这里

，两个样本之间的马氏距离为

d_j=[(x_i-x_j)TS{-1}(x_i-s_j)]^{\frac{1}{2}}

其中

相关系数相关系数的绝对值越接近1，样本越相似；越接近0，越不相似
夹角余弦

夹角余弦cosine越接近1表示越相似，接近0表示越不相似

用距离度量：距离越小，越靠近越相似；用相关系数：相关系数越大越相似

类或簇

通过聚类得到的类或者簇，本质是样本的子集。

硬聚类：一个样本只能属于一个类或者簇
软聚类：一个样本属于多个类或者簇

类的特征

类的特征可以通过不同的角度进行刻画，常用三种：

，或者类的中心

\hat x_G=\frac{1}{n_G}\sum_{i=1}^{n_G}x_i

类的直径任意两个样本之间的最大距离

D_G=\mathop {\max}\limits_{x_i,x_j \in G}d_{ij}

A_G=\sum_{i=1}^{n_G}(x_i-\hat x_G)(x_j-\hat x_G)^T

S_G=\frac{1}{m-1}A_{G}

关于符号：

类和类之间的距离

两个不同类G_p,G_q之间的距离D，称之为连接linkage，假设两个样本、个数和均值：

G_p—>n_p—>\hat x_pG_q—>n_q—>\hat x_q

最短距离（单连接）两个类中样本之间的最短距离
最长距离（完全连接）

两个类中样本之间的最长距离

中心距离

两个中心之间的距离

D_{pq}=d_{\overline x_p \overline x_q}

平均距离

两个类中的任意两个样本之间距离的平均值

D_{pq}=\frac{1}{n_qn_p}\sum_{x_i\in G_p}\sum_{x_i\in G_q}d_{ij}

层次聚类

聚合：自下而上的聚类，bottom-up
分裂：自上而下的聚类，divisive

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2019-9-24，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度

聚类方法

聚类方法

什么是聚类

基本概念

相似度或距离

类或簇

类的特征

类和类之间的距离

层次聚类

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐