【关键词】聚类分析,划分方法,层次方法
聚类分析简称聚类,是把一个数据对象划分为子集的过程。每一个子集是一个簇,使得簇中的对象彼此相似,但与其他簇中的对象不相似。由聚类分析产生的簇的集合称为聚类。聚类分析已经有很广泛的应用,包括商务智能领域、图像识别领域、Web搜索,生物学和安全。例如,在商务智能上,聚类可以用来把大量客户进行分组,其中组内客户的特征相似度高。这有利于开发和管理客户。
聚类分析作为数据挖掘的一项功能,也可以作为一个独立的工具,用来知晓数据的分布,观测每个簇的特征,将进一步分析集中在特定的簇集合上。另外,聚类分析也可以作为其他算法的预处理步骤。作为统计学的一个分支,聚类分析已经被研究许多年,主要集中在基于距离聚类分析。而基于k-均值,k-中心点和其他一些方法的聚类分析已经被加入到许多统计软件中,例如,以及中,使得聚类在无监督中可以高效率。
通常聚类分析算法基本步骤:
特征获取与选择。
为了能够获得能够表示对象的数据,并且减少数据冗余度;
计算相似度。
距离函数是用来计算相似度的函数,此处的距离并非单纯的在R空间中的距离,还包括形态、时间、语态、密度、状态等产生的距离。
分组。将对象按照相似度进行分组,将相似的分到同组,不相似的分到不同组;
步骤展开待续……
领取专属 10元无门槛券
私享最新 技术干货