论文中的机器学习算法——基于密度峰值的聚类算法

一、前言

    最近有一篇Science上的文章引起了大家的关注,是由Alex Rodriguez和Alessandro Laio发表的《Clustering by fast search and find of density peaks》。网上有人做了一些说明,其实很多时候我在读论文的过程中,也是学到了很多的知识,只是很少将这些内容整理在网上,前段时间我主要写了一些有关机器学习的博文,搭建这样的博客只是记录我的学习过程,伴随着我的成长与进步。

    在这个系列中,我会将自己阅读过的论文的主要思想通过我自己的理解拿出来与大家分享,以前读了一些论文没有做好笔记,更多的是现实中一些条件的限制,没有机会和组内的人分享一些学习的心得,遂想在这样的一个平台上与大家一起讨论,也希望这样的过程能够伴随我的进步,促进我的进步。下面还是主要来谈谈论文的主要思想。

二、算法的主要思想思想

    在聚类算法中主要有这样几种:

  • 划分的方法,如K-Means
  • 层次的方法,如CURE
  • 基于密度的方法,如DBSCAN
  • 基于网格的方法,如CLIQUE
  • 基于模型的方法,主要是一些概率分布

在以往的学习过程中,我只关注过划分的方法,如K-Means(见博文“简单易学的机器学习算法——kMeans”)。

    Science上的这篇文章《Clustering by fast search and find of density peaks》主要讲的是一种基于密度的聚类方法,基于密度的聚类方法的主要思想是寻找被低密度区域分离的高密度区域。而在文章中提出的聚类方法(以下称为“Desity Peaks Clusering Algorithm, DPCA”)也同样基于这样的一种假设:对于一个数据集,聚类中心被一些低局部密度的数据点包围,而且这些低局部密度的点距离其他有高局部密度的点的距离都比较大。在这样的模型中,DPCA主要有两个需要计算的量:第一,局部密度

第二,与高密度点之间的距离

3、如何聚类

   对于聚类问题,我们需要回答的是聚类中心是什么,对于每个数据点,如何定义所属的类别。DPCA中将那些具有较大距离

且同时具有较大局部密度

的点定义为聚类中心。

(图片来源于文章)

如上图B,数据点1和数据点10同时具有相对较高的距离和局部密度,所以是聚类中心。而在图中具有相对较高的距离,但是局部密度却较小的数据点26,27和28称为异常点。对于那些非异常点,如何对他们聚类呢?DPCA采用的是将他们归类到比他们的密度更大的最相近的类中心所属的类别中。到此,整个算法的基本思想解释结束。

    对于这样的算法,如何去定义相对较高,作者并没有给出解释,在作者提供的程序和数据中,我做了实验,实验结果如下:

(实验结果)

参考文献:

1、Clustering by fast search and find of density peaks

2、Science上发表的超赞聚类算法 http://www.52ml.net/16296.html

3、Clustering By Fast Search And Find Of Density Peaks http://www.52ml.net/16351.html

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏ATYUN订阅号

用TensorFlow.js进行人体姿态估计:在浏览器中即可实时查看人体姿态

在与谷歌创意实验室的合作,我很高兴地宣布的发行TensorFlow.js版本PoseNet 机器学习模型,它允许在浏览器中实时估计人类姿态。在这里试试现场演示(...

28340
来自专栏AI科技评论

想了解递归神经网络?这里有一份入门教程

本文来自deeplearning4j,AI科技评论编辑。 递归神经网络是一类人工神经网络,用于识别诸如文本、基因组、手写字迹、语音等序列数据的模式,或用于识别传...

33230
来自专栏华章科技

终于,Geoffrey Hinton那篇备受关注的Capsule论文公开了

Geoffrey Hinton 等人备受关注的 NIPS 2017 论文《Dynamic Routing Between Capsules》已于数小时前公开。

9820
来自专栏机器学习AI算法工程

数据挖掘案例:基于 ReliefF和K-means算法的应用

.NET数据挖掘与机器学习 原文:http://www.cnblogs.com/asxinyu/archive/2013/08/29/3289682.html ...

32680
来自专栏人工智能头条

李理:自动梯度求解 反向传播算法的另外一种视角

20340
来自专栏PPV课数据科学社区

机器学习系列:(五)决策树——非线性回归与分类

决策树——非线性回归与分类 前面几章,我们介绍的模型都是广义线性模型,基本方法都是通过联接方程构建解释变量与若干响应变量的关联关系。我们用多元线性回归解决回归问...

41360
来自专栏机器学习AI算法工程

特征选择算法实战

数据挖掘方法的提出,让人们有能力最终认识数据的真正价值,即蕴藏在数据中的信息和知识。数据挖掘 (DataMiriing),指的是从大型数据库或数据仓库中提取人...

41330
来自专栏ATYUN订阅号

RNN示例项目:详解使用RNN撰写专利摘要

我第一次尝试研究RNN时,我试图先学习LSTM和GRU之类的理论。在看了几天线性代数方程之后(头疼的要死),我在Python深度学习中发生了以下这段话:

20310
来自专栏机器学习AI算法工程

如何做特征选择

1.数据挖掘与聚类分析概述 数据挖掘一般由以下几个步骤: (l)分析问题:源数据数据库必须经过评估确认其是否符合数据挖掘标准。以决定预期结果,也就选择了这项工作...

46250
来自专栏杂七杂八

Doc2vec预测IMDB评论情感

本文内容源自于国外2015年的一篇博客,中文翻译可以在伯乐在线看到。可以整体了解一些word2vec和doc2vec的使用方法,但是由于时间过去很久了,gens...

1.1K90

扫码关注云+社区

领取腾讯云代金券