首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

讨论k值以及初始聚类中心对聚类结果的影响_K均值聚类需要标准化数据吗

摘要:进入二十一世纪以来,科学技术的不断发展,使得数据挖掘技术得到了学者越来越多的关注。数据挖掘是指从数据库中发现隐含在大量数据中的新颖的、潜在的有用信息和规则的过程,是一种处理数据库数据的知识发现。数据挖掘一种新兴的交叉的学科技术,涉及了模式识别、数据库、统计学、机器学习和人工智能等多个领撤分类、聚类、关联规则是数据挖掘技术几个主要的研究领域。在数据挖掘的几个主要研究领域中,聚类是其中一个重要研究领域,对它进行深入研究不仅有着重要的理论意义,而且有着重要的应用价值。聚类分析是基于物以类聚的思想,将数据划分成不同的类,同一个类中的数据对象彼此相似,而不同类中的数据对象的相似度较低,彼此相异。目前,聚类分析已经广泛地应用于数据分析、图像处理以及市场研究等。传统的K均值聚类算法(K-Means)是一种典型的基于划分的聚类算法,该聚类算法的最大的优点就是操作简单,并且K均值聚类算法的可伸缩性较好,可以适用于大规模的数据集。但是K均值聚类算法最主要的缺陷就是:它存在着初始聚类个数必须事先设定以及初始质心的选择也具有随机性等缺陷,造成聚类结果往往会陷入局部最优解。论文在对现有聚类算法进行详细的分析和总结基础上,针对K均值聚类算法随机选取初始聚类中也的不足之处,探讨了一种改进的选取初始聚类中心算法。对初始聚类中心进行选取,然后根据初始聚类中也不断迭代聚类。改进的聚类算法根据一定的原则选择初始聚类中心,避免了K均值聚类算法随机选取聚类中心的缺点,从而避免了聚类陷入局部最小解,实验表明,改进的聚类算法能够提高聚类的稳定性与准确率。

03
您找到你想要的搜索结果了吗?
是的
没有找到

菜鸟的数学建模之路(一):最短路径算法「建议收藏」

最短路径算法主要有两种,Dijkstra算法和floyd算法,当时在学习这两种算法时经常弄混了,关于这两种算法,记得当时是在交警平台设置的那一道题目上了解到的,就去查很多资料,花了不少时间才基本了解了这两种算法的基本用法,在总结的时候,我更多的是用代码的方式去做的总结,当时想的是等到要用的时候,直接改一下数据,运行代码,得到想要的最短路径就可以了。记得我们老师说过数学建模的知识没必要过于深入的去学习,只要在要用的时候,能想起有这个知识存在,知道大概是用来干嘛,并且能拿过来用就行了(大概就是这个意思)。

02

(数据科学学习手札08)系统聚类法的Python源码实现(与Python,R自带方法进行比较)

聚类分析是数据挖掘方法中应用非常广泛的一项,而聚类分析根据其大体方法的不同又分为系统聚类和快速聚类,其中系统聚类的优点是可以很直观的得到聚类数不同时具体类中包括了哪些样本,而Python和R中都有直接用来聚类分析的函数,但是要想掌握一种方法就得深刻地理解它的思想,因此自己从最底层开始编写代码来实现这个过程是最好的学习方法,所以本篇前半段是笔者自己写的代码,如有不细致的地方,望指出。 一、仅使用numpy包进行系统聚类的实现: '''以重心法为距离选择方法搭建的系统聚类算法原型''' # @Feffery

05
领券