分类与聚类在数据挖掘中的区别?

内容来源于 Stack Overflow,并遵循CC BY-SA 3.0许可协议进行翻译与使用

  • 回答 (2)
  • 关注 (0)
  • 查看 (53)

数据挖掘中的分类和聚类有什么区别吗?

如果可以的话,请举两个例子来帮助理解。

提问于
用户回答回答于

监督学习: 假设你有一个篮子,里面装满了一些新鲜水果,你的任务是在同一个地方安排同样类型的水果。假设水果是苹果,香蕉,樱桃和葡萄。所以你从以前的工作中已经知道,每一个水果的形状,因此很容易在同一个地方安排同一类型的水果。这里的以前的工作被称为数据挖掘中的训练数据。所以你已经从你的训练数据中学习了东西,这是因为你有一个响应变量,它告诉你如果某些水果具有某些特征,那么它就是葡萄,就像每一个水果一样。

这种类型的数据将从训练数据中获得。这种学习被称为监督式学习。这种类型的解决问题属于分类。所以你已经学会了东西,所以你可以自信地做你的工作。

无人监督: 假设你有一个篮子,里面装满了一些新鲜水果,你的任务是在同一个地方安排同样类型的水果。

这次你不知道有关这些水果的任何事情,你第一次看到这些水果,那么你将如何安排相同类型的水果。

假设你采取了颜色。

然后你会根据颜色来安排他们,然后这些组会有这样的事情。

红颜色组:苹果和樱桃水果。

绿色组:香蕉和葡萄。所以现在你会选择另一个物理属性作为筛选,所以现在这些组合会是这样的。

红色和大尺寸:苹果。

红色和小尺寸:樱桃水果。

绿颜色和大尺寸:香蕉。

绿色和小尺寸:葡萄。

用户回答回答于

通常,在分类中,有一组预定义的类,并且你想知道新对象属于哪个类。

聚类尝试对一组对象进行分组,并查找对象之间是否存在某种关系。

在机器学习的情况下,分类是监督学习,并且聚类是无监督学习

参考Wikipedia 上的分类聚类

扫码关注云+社区