MMD_5a_Clustering

聚类概述

定义

距离的定义

计算聚类过程中点和cluster的距离,有以下几种方式:

算法的分类

启发式算法

概述

启发式算法有两种方法,从下而上或者从上而下。 以从下而上为例,一开始每一个obes就是一个cluster,然后根据距离,不断地结合两个更近的cluster到一个cluster,达到一定的收敛条件后停止。

KEY POINTS

如何代表cluster

如何决定距离远近

没有欧氏距离怎么办

终止条件

总结

K-MEANS算法

特点

  1. 假设欧氏距离,也就是欧式空间是存在的
  2. 一开始必须确定k
  3. 初始集群先随机选择centroid点,个数等于k(朴素的方法是随机选择,但是容易产生距离太近属于一个cluster的点,影响分类结果)。

过程

首先先选择k个初始点当做群的中心,然后数据集中的所有点根据与群中心的远近划分属于哪个群。然后在根据群的性质取群的中心点,然后再次划分所有点属于的群,不断往复,直到群的中心不发生变化,达到稳定的状态停止。

KEY-POINTS

选择k

策略是:多选择几个k,看看average distance to centroid如何变化。 理论上,随着k的增加,这个值应该越变越小,但是减少的幅度也越来越小,我们需要的就是那个拐点。

选择初始点

初始点的选择很有学问,不能够太近都属于一个cluster,这样的话其他的cluster就发现不了。 所以,应该让点越分散越好。

复杂度

BFR算法

大数据集的难题

前面讨论的启发式算法的复杂度是O(n3)O(n^3),使用priority queue的话能减低到O(n2logn)O(n^2logn)。 KMEANS的复杂度是KNKN,但是收敛很慢,也不适用于大数据集。

因此,我们需要一种算法,能够处理数据量很大的分类问题。

概述

BFR(Bradley-Fayyad-Reina)算法,是KMEANS的变种,适用于大数据的分类(数据量只能在disk中存储,不可能全部放在memory里)。

这个算法的基础是一个很重要的假设:

assumes each cluster is normally distributed around a centroid in Euclidean space.

假设

假设的存在,使得每个cluster长得都像下图这样:

  1. axis-aligned
  2. normal distribution among each cluster in each dimension

算法

概述

三类点

DS点的更新与数据特征

整个流程

细节

怎么判断点离群中心是不是够近以加入DS

怎么判断2个CS是不是应该合成一个

CURE算法

其他算法的限制

步骤1

核心思想就是先用一些样本训练出大概的样子,并且用4个数据很好地用样本代替了总体。

步骤2

总结

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

入门 | 关于神经网络:你需要知道这些

1612
来自专栏AI科技评论

机器学习算法在自动驾驶领域的应用大盘点!

AI科技评论按:本文原载于 kdnuggets,由林立宏、吴楚编译。 将汽车内外传感器的数据进行融合,借此评估驾驶员情况、进行驾驶场景分类,都要用到机器学习。本...

3055
来自专栏AI研习社

神经网络当真学会推理了?来看谷歌DeepMind的官方解释 | 2分钟读论文

来源 / Two Minute Papers 翻译 / 程炜 校对 / 李宇琛 整理 / 雷锋字幕组 第4期带来谷歌DeepMind团队的论文,如何让神经网络学...

3115
来自专栏机器之心

资源 | 神经网络目标计数概述:通过Faster R-CNN实现当前最佳的目标计数

选自SoftwareMill 机器之心编译 作者:Krzysztof Grajek 参与:黄小天 在机器学习中,精确地计数给定图像或视频帧中的目标实例是很困难...

35713
来自专栏Petrichor的专栏

深度学习: 验证集 & 测试集 区别

673
来自专栏机器之心

业界 | 从集成方法到神经网络:自动驾驶技术中的机器学习算法有哪些?

选自kdnuggets 作者:Savaram Ravindra等 参与:Lj Linjing、蒋思源 机器学习算法可以融合来自车体内外不同传感器的数据,从而评估...

2646
来自专栏机器学习算法与Python学习

利用Python实现卷积神经网络的可视化

源 | 全球人工智能 文 | 小象 摘要: 本文简单说明了CNN模型可视化的重要性,以及介绍了一些可视化CNN网络模型的方法,希望对读者有所帮助,使其能够...

50813
来自专栏IT派

机器学习在自动驾驶方面的应用

概要:不同的自动驾驶算法。 来源:雷锋网 将汽车内外传感器的数据进行融合,借此评估驾驶员情况、进行驾驶场景分类,都要用到机器学习。本文中,我们讲解了不同的自动驾...

3334
来自专栏机器人网

自动驾驶技术中的机器学习算法有哪些?

如今,机器学习算法正大规模地用于解决自动驾驶汽车产业日益增多的问题。结合 ECU (电子控制单元)传感器数据,我们须加强对机器学习方法的利用以迎接新的挑战。潜在...

712
来自专栏企鹅号快讯

机器/深度学习的基础知识笔记

百度PaddlePaddle之新手入门培训视频(http://bit.baidu.com/course/detail/id/137.html)是一篇很好的机器学...

3619

扫码关注云+社区