我尝试对文本数据进行聚类,数据清晰,标记化等。我如何在Kmeans或其他聚类模型中输入相似度矩阵?
from gensim import corpora
from gensim import models
from gensim.models import Word2Vec, WordEmbeddingSimilarityIndex
from gensim.similarities import SoftCosineSimilarity, SparseTermSimilarityMatrix
documents = list(data['clear_response'])
te
我有相当大的数据(1140万条记录和9个变量)。变量由顺序、标称和连续数据类型混合组成。因此,我选择Gower方法来计算相异矩阵来处理混合数据类型。然而,数据的大小太大而无法计算。然后,我发现了另一个有趣的方法,称为CLARA,它使用样本来计算聚类,然后将聚类分配给其他数据点。问题是我找不到合适的度量来计算混合数据类型的距离。换句话说,在clara in cluster package和clara_medoids in ClusterR package中都没有Gower选项(这是我在R中所能找到的所有clara )。
为什么CLARA中没有gower选项?我该怎么办?