首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >数据挖掘中分类和聚类的区别?

数据挖掘中分类和聚类的区别?
EN

Stack Overflow用户
提问于 2011-02-21 18:39:54
回答 11查看 231.6K关注 0票数 199

有人能解释一下数据挖掘中分类和聚类的区别吗?

如果可以,请给出两者的例子,以了解主要思想。

EN

回答 11

Stack Overflow用户

发布于 2011-11-19 15:40:32

+分类:给你一些新的数据,你必须为它们设置新的标签。

例如,一家公司希望对其潜在客户进行分类。当新客户到来时,他们必须确定这是不是要购买他们的产品的客户。

+聚类:您将获得一组历史交易,其中记录了谁购买了什么。

通过使用聚类技术,您可以区分客户的细分。

票数 18
EN

Stack Overflow用户

发布于 2016-03-04 08:16:25

我相信你们中的许多人都听说过机器学习。十几个人甚至可能知道它是什么。你们中的一些人可能也曾使用过机器学习算法。你们知道这是怎么回事了吗?没有多少人熟悉这项技术,这项技术在5年后将是绝对必要的。Siri是机器学习。亚马逊的Alexa是机器学习。广告和购物项目推荐系统都是机器学习。让我们用一个2岁男孩的简单类比来理解机器学习。为了好玩,我们就叫他Kylo Ren吧

假设Kylo Ren看到了一头大象。他的大脑会告诉他什么?(请记住,即使他是维德的继任者,他的思考能力也是最低的)。他的大脑会告诉他,他看到了一个灰色的大动物在移动。接着,他看到了一只猫,他的大脑告诉他,这是一只金色的小动物。最后,他看到了一把光剑,他的大脑告诉他,这是一个没有生命的物体,他可以玩!

在这一点上,他的大脑知道军刀不同于大象和猫,因为军刀是可以玩耍的东西,不会自己移动。即使Kylo不知道移动是什么意思,他的大脑也能搞清楚这一点。这种简单的现象被称为聚类。

机器学习只不过是这个过程的数学版本。许多研究统计学的人意识到,他们可以让一些方程像大脑一样工作。大脑可以对相似的对象进行聚类,大脑可以从错误中学习,大脑可以学习识别事物。

所有这些都可以用统计来表示,这个过程的基于计算机的模拟被称为机器学习。为什么我们需要基于计算机的模拟?因为计算机可以比人脑更快地完成繁重的数学计算。我很乐意进入机器学习的数学/统计部分,但你不想在没有明确一些概念的情况下跳到这一部分。

让我们回到Kylo Ren。比方说Kylo拿起军刀,开始玩它。他不小心撞上了冲锋队,冲锋队受伤了。他不知道发生了什么,继续玩。接下来,他撞上了一只猫,猫受伤了。这一次,Kylo确信他做了什么坏事,并试着有点小心。但考虑到他糟糕的剑术,他击中了大象,并确信自己有麻烦了。但之后他变得非常小心,只会故意打他的父亲,就像我们在《原力觉醒》中看到的那样!

从错误中学习的整个过程可以用等式来模拟,其中做错事的感觉是由错误或成本表示的。这个确定不能用军刀做什么的过程被称为分类。聚类和分类是机器学习的绝对基础。让我们来看看它们之间的区别。

Kylo区分了动物和光剑,因为他的大脑认为光剑不能自己移动,因此是不同的。这一决定完全基于物体(数据),没有提供任何外部帮助或建议。与此形成对比的是,Kylo通过首先观察打击物体可以做什么来区分小心使用光剑的重要性。这个决定并不完全基于军刀,而是基于它可以对不同的物体做什么。简而言之,这里有一些帮助。

由于学习中的这种差异,聚类被称为无监督学习方法,分类被称为监督学习方法。在机器学习世界中,这两种方法非常不同,并且通常由存在的数据类型决定。获取带标签的数据(或帮助我们学习的东西,如Kylo中的冲锋队、大象和猫)通常并不容易,当要区分的数据很大时,会变得非常复杂。另一方面,没有标签的学习也有它自己的缺点,比如不知道标签的标题是什么。如果Kylo在没有任何例子或帮助的情况下学会小心使用军刀,他不会知道它会做什么。他只会知道这是不应该做的。这是一个有点站不住脚的类比,但你明白了!

我们才刚刚开始学习机器学习。分类本身可以是连续数字的分类,也可以是标签的分类。例如,如果凯洛必须对每个冲锋队士兵的高度进行分类,答案将会很多,因为高度可以是5.0、5.01、5.011等。但是像光剑类型(红色、blue.green)这样的简单分类的答案将非常有限。事实上,它们可以用简单的数字来表示。红色可以是0,蓝色可以是1,绿色可以是2。

如果你知道基本的数学知识,你就会知道0,1,2和5.1,5.01,5.011是不同的,分别被称为离散和连续数字。离散数的分类称为Logistic回归,连续数的分类称为回归。Logistic回归也称为分类分类,所以当你在别处读到这个术语时,不要混淆。

这是对机器学习的一个非常基本的介绍。我将在下一篇文章中详述统计方面的内容。如果我需要任何更正,请告诉我:)

第二部分发布了here

票数 16
EN

Stack Overflow用户

发布于 2011-03-10 01:40:59

我是数据挖掘的新手,但正如我的课本上所说,CLASSICIATION应该是监督学习和聚类无监督学习。监督学习和无监督学习之间的区别可以在here上找到。

票数 7
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/5064928

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档