聚类分析以相似性为基础,在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。(以上来自百度百科)....,比如”微信”会转成”V信”等这些在分词的时候会有一些问题.并且又因为聚类是一种非监督学习,往往给我们的数据太多(给我的评论数据有80w,有多少类,什么类)我们都不知道,我们也只能轮廓系数不断地测试,找到一个合适的结果出来...主要的过程如图所示,其实主要的部分有三个:
第一部分,分词处理,我们要把中文文章要进行分词,这一点中文文章和英文文章有一些区别,因为英文单词是单个构成的,也就不需要分词了,而我们中文是需要分词的,并且中文之间有一些词尽管大量出现...第二部分:分词后将分词转换为词向量
关于词向量我们有一些比较常用的模型,比如one-hotm,BOW词袋模型,连续词袋模型(CBOW)和Skip-Gram模型和Word2vec模型,在这次任务中我是用的是...,这个词语更加重要;但如果它在所有文章中出现的次数都很多,那么它就显得不那么重要
第三部分:选择聚类算法
这里的算法大家常用的是K-means和DBSCAN,这两种算法用的最多,但是在高维空间里边K-means