Python Sklearn轮廓系数

轮廓系数（Silhouette Coefficient）是一种用于评估聚类效果的指标，它结合了聚类的凝聚度和分离度，能够有效地衡量聚类结果的优劣。在Python的Scikit-learn库中，可以通过silhouette_score函数来计算轮廓系数。

基础概念

轮廓系数的值范围在-1到1之间。一个高的轮廓系数表示样本点与其自身簇内的其他样本点非常接近（凝聚度高），而与其他簇的样本点相距较远（分离度高）。轮廓系数越接近1，聚类效果越好；越接近-1，聚类效果越差。

类型与应用场景

轮廓系数适用于各种类型的聚类算法，如K-means、层次聚类等。它特别适用于数据集内部结构复杂，簇形状不规则的情况。

示例代码

以下是一个使用Scikit-learn计算轮廓系数的示例：

from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs
from sklearn.metrics import silhouette_score

# 生成随机数据
X, y = make_blobs(n_samples=300, centers=4, cluster_std=0.60, random_state=0)

# 应用K-means聚类
kmeans = KMeans(n_clusters=4, random_state=0)
labels = kmeans.fit_predict(X)

# 计算轮廓系数
score = silhouette_score(X, labels)
print(f"轮廓系数: {score}")