首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

聚类分析(一)

【关键词】聚类分析,划分方法,层次方法

聚类分析简称聚类,是把一个数据对象划分为子集的过程。每一个子集是一个簇,使得簇中的对象彼此相似,但与其他簇中的对象不相似。由聚类分析产生的簇的集合称为聚类。聚类分析已经有很广泛的应用,包括商务智能领域、图像识别领域、Web搜索,生物学和安全。例如,在商务智能上,聚类可以用来把大量客户进行分组,其中组内客户的特征相似度高。这有利于开发和管理客户。

聚类分析作为数据挖掘的一项功能,也可以作为一个独立的工具,用来知晓数据的分布,观测每个簇的特征,将进一步分析集中在特定的簇集合上。另外,聚类分析也可以作为其他算法的预处理步骤。作为统计学的一个分支,聚类分析已经被研究许多年,主要集中在基于距离聚类分析。而基于k-均值,k-中心点和其他一些方法的聚类分析已经被加入到许多统计软件中,例如,以及中,使得聚类在无监督中可以高效率。

通常聚类分析算法基本步骤:

特征获取与选择。

为了能够获得能够表示对象的数据,并且减少数据冗余度;

计算相似度。

距离函数是用来计算相似度的函数,此处的距离并非单纯的在R空间中的距离,还包括形态、时间、语态、密度、状态等产生的距离。

分组。将对象按照相似度进行分组,将相似的分到同组,不相似的分到不同组;

步骤展开待续……

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180315G0RLAL00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券