入门 | 解读分类算法与聚类算法

学习数据挖掘的朋友,对分类算法和聚类算法都很熟悉。无论是分类算法还是聚类算法,都有许多具体的算法来实现具体的数据分析需求。很多时候,我们难以判断选择分类或者聚类的场合是什么。我们最直观的概念是,分类和聚类都是把某个被分析的对象划分到某个类里面,所以觉得这两种方法实际上是差不多一回事。然而当我们学习了许多具体算法之后再回来看,分类和聚类所实现的数据分析功能实际上是大相径庭的,他们之间不仅仅有算法上的具体差异,更重要的是,甚至他们的应用领域和所解决的具体问题都不一样。

1. 类别是否预先定义是最直观区别

算法书上往往这样解释二者的区别:分类是把某个对象划分到某个具体的已经定义的类别当中,而聚类是把一些对象按照具体特征组织到若干个类别里。虽然都是把某个对象划分到某个类别中,但是分类的类别是已经预定义的,而聚类操作时,某个对象所属的类别却不是预定义的。所以,对象所属类别是否为事先,是二者的最基本区别。而这个区别,仅仅是从算法实现流程来看的。

2. 二者解决的具体问题不一样

分类算法的基本功能是做预测。我们已知某个实体的具体特征,然后想判断这个实体具体属于哪一类,或者根据一些已知条件来估计感兴趣的参数。比如:我们已知某个人存款金额是10000元,这个人没有结婚,并且有一辆车,没有固定住房,然后我们估计判断这个人是否会涉嫌信用欺诈问题。这就是最典型的分类问题,预测的结果为离散值,当预测结果为连续值时,分类算法可以退化为计量经济学中常见的回归模型。分类算法的根本目标是发现新的模式、新的知识,与数据挖掘数据分析的根本目标是一致的。

聚类算法的功能是降维。假如待分析的对象很多,我们需要归归类,划划简,从而提高数据分析的效率,这就用到了聚类的算法。很多智能的搜索引擎,会将返回的结果,根据文本的相似程度进行聚类,相似的结果聚在一起,用户就很容易找到他们需要的内容。聚类方法只能起到降低被分析问题的复杂程度的作用,即降维,一百个对象的分析问题可以转化为十个对象类的分析问题。聚类的目标不是发现知识,而是化简问题,聚类算法并不直接解决数据分析的问题,而最多算是数据预处理的过程。

3. 有监督和无监督

分类是有监督的算法,而聚类是无监督的算法。有监督的算法并不是实时的,需要给定一些数据对模型进行训练,有了模型就能预测。新的待估计的对象来了的时候,套进模型,就得到了分类结果。而聚类算法是实时的,换句话说是一次性的,给定统计指标,根据对象与对象之间的相关性,把对象分为若干类。分类算法中,对象所属的类别取决于训练出来的模型,间接地取决于训练集中的数据。而聚类算法中,对象所属的类别,则取决于待分析的其他数据对象。

4. 数据处理的顺序不同

分类算法中,待分析的数据是一个一个处理的,分类的过程,就像给数据贴标签的过程,来一个数据,我放到模型里,然后贴个标签。聚类算法中,待分析的数据同时处理,来一堆数据过来,同时给分成几小堆。因此,数据分类算法和数据聚类算法的最大区别是时效性问题。在已有数据模型的条件下,数据分类的效率往往比数据聚类的效率要高很多,因为一次只是一个对象被处理,而对于聚类结果来说,每当加入一个新的分析对象,类别结果都有可能发生改变,因此很有必要重新对所有的待分析对象进行计算处理。

5. 典型的分类算法与聚类算法

典型的分类算法有:决策树,神经网络,支持向量机模型,Logistic回归分析,以及核估计等等。聚类的方法有,基于链接关系的聚类算法,基于中心度的聚类算法,基于统计分布的聚类算法以及基于密度的聚类算法等等。

来自知乎 https://zhuanlan.zhihu.com/p/23101916

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2017-08-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏JasonhavenDai

统计学习方法之朴素贝叶斯1.概述2.基础知识3.基本方法4.参数估计5.简单实现

1.概述 朴素贝叶斯分类是贝叶斯分类器的一种,贝叶斯分类算法是统计学的一种分类方法,利用概率统计知识进行分类,其分类原理就是利用贝叶斯公式根据某对象的先验概率计...

41180
来自专栏生信小驿站

R 集成算法④ 梯度提升树

8120
来自专栏TensorFlow从0到N

TensorFlow从0到1 - 14 - 交叉熵损失函数——防止学习缓慢

通过上一篇 13 驯兽师:神经网络调教综述,对神经网络的调教有了一个整体印象,本篇从学习缓慢这一常见问题入手,引入交叉熵损失函数,并分析它是如何克服学习缓慢问...

44660
来自专栏Petrichor的专栏

论文阅读: R-FCN-3000

将“定位”和“分类”解耦,避免了R-FCN中对每个类都进行一次bbox回归:

16540
来自专栏数值分析与有限元编程

共旋坐标法( 二 )

以平面杆单元为例,共旋坐标法的基本思想可由图1来描述。其中有两个坐标系和三个构型。共旋坐标法分别是整体坐标系Xg-Yg和局部坐标系xe-ye,整...

14220
来自专栏奇点大数据

机器学习必备的数学基础有哪些?

对于机器学习给出了这样一个定义,机器学习是由三个部分组成,分别是表示、评价,还有优化。这样的三个步骤,实际上也就对应着在机器学习当中所需要的数学。

8920
来自专栏机器之心

用机器学习构建O(N)复杂度的排序算法,可在GPU和TPU上加速计算

22860
来自专栏自学笔记

机器学习可行性与VC dimension

在银行评估贷款申请人的授信请求前,会进行风险评估。符合申请则通过,反之驳回。长时间的数据和申请使得银行从中找到了一些规律并开始learning,所以风险评估就是...

35340
来自专栏AI科技评论

干货 | CVPR 2018论文:「随心所欲」换装换姿态

本文作者 Liqian Ma,他为 AI 科技评论撰写了他作为第一作者被 CVPR 2018 录用的 Spotlight 论文解读稿件。

14230
来自专栏机器学习算法工程师

《机器学习》笔记-聚类(9)

17650

扫码关注云+社区

领取腾讯云代金券