如何正确地重塑sklearn分类器的predict_proba的多类输出？

在Scikit-learn中，predict_proba方法用于预测样本在每个类别上的概率。然而，在某些情况下，我们可能需要对predict_proba的输出进行重塑，以适应特定的应用场景或需求。

下面是正确地重塑predict_proba的多类输出的步骤：

步骤1：导入所需的库和模块

from sklearn.datasets import make_classification
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import LabelEncoder
import numpy as np

步骤2：生成一个样本数据集（示例中使用make_classification生成二分类数据集）

X, y = make_classification(n_samples=100, n_features=2, n_informative=2, n_redundant=0, n_classes=3, random_state=42)

步骤3：使用LabelEncoder对类别标签进行编码

le = LabelEncoder()
y_encoded = le.fit_transform(y)

步骤4：训练分类器模型（这里使用Logistic回归作为示例）

clf = LogisticRegression()
clf.fit(X, y_encoded)

步骤5：获取分类器模型在测试数据上的预测概率

probs = clf.predict_proba(X)

步骤6：重塑预测概率的输出

由于predict_proba返回的是一个形状为(n_samples, n_classes)的二维数组，可以利用NumPy库来重塑输出。

reshaped_probs = np.zeros((probs.shape[0], 2))
for i, prob in enumerate(probs):
    reshaped_probs[i][0] = prob[1]  # 将第2个类别的概率作为第1个类别的概率
    reshaped_probs[i][1] = 1 - prob[1]  # 计算第1个类别的概率（1减去第2个类别的概率）

步骤7：查看重塑后的预测概率输出