我有一个包含150 k行和10列的数据集。在集群之后,我想获得集群度量。下面是我想要use>的指标列表
"C_index", "Calinski_Harabasz", "Davies_Bouldin", "S_Dbw", "Silhouette"我有个问题。我尝试过使用clusterCrit (来自R)和sklearn (从python)获取值,但是当我尝试使用clusterCrit获取每个值时,花费了大量的时间,所以我无法得到它。
我认为这是因为大数据(我的RAM是8GB)。我有办法得到这些价值吗?
发布于 2019-05-18 20:04:29
只需使用数据的子样本即可。
在评估(或聚类,通常)整个数据集方面几乎没有用处。这是高度多余的。试图将其扩展到整个数据集是浪费时间。
https://datascience.stackexchange.com/questions/52045
复制相似问题