一个企业级数据挖掘实战项目｜教育数据挖掘

数据STUDIO

发布于 2021-09-26 11:31:33

2K0

发布于 2021-09-26 11:31:33

文章被收录于专栏：数据STUDIO

导读：大家好，我是云朵君！自从分享了一篇能够写在简历里的企业级数据挖掘实战项目，深受读者朋友们青睐，许多读者私信云朵君，希望多一些类似的数据挖掘实际案例。这就来了。本项目旨在探讨影响学生学业表现的人口统计学和家庭特征。本项目中，使用多种不平衡数据处理方法以及各种分类器，如决策树，逻辑回归，k近邻，随机森林和多层感知器的分类机器。

👆点击关注｜选择星标｜干货速递👆

数据集描述

本案例数据集来自Balochistan的6000名学生。其基本情况：一共13个字段，其中RESULT为结果标签；

语言字段是经过独热编码后的四个字段，分别为Lang1, Lang2, Lang3, Lang4；

另外性别、学校、是否残疾、宗教信仰四个字段为二分类离散字段；

其余如兄弟姐妹、在校兄弟姐妹数量为连续性变量。

本次数据为清洗过后"干净"数据，可以直接输入到机器学习模型中直接建模使用。

字段说明如下表所示

字段	解释
GenderCode	性别编码
IntBrothers	兄弟数量
IntSisters	姐妹数量
IntSchoolBrothers	在校兄弟数量
IntSchoolSisters	在校姐妹数量
ClassSchoolStatus	学校
Disability01	是否残疾
Lang1	语言1
Lang2	语言2
Lang3	语言3
Lang4	语言4
Religion	宗教信仰
RESULT	结果标签

数据样例

探索性数据分析

探索性数据分析有多种方法，这里直接通过绘制柱状图查看每个字段的分布状况。

了解更多：Python数据分析之数据探索分析(EDA)

从数据集特点来看，13个字段可以分为四大类。

结果标签
离散型变量
连续型变量
哑变量

结果标签

考试结果为PASS的共有4562名学生，而结果为FAIL 的共有1047名学生，从下图中也可以明显看出，该样本为不平衡数据集，因此本次案例重点在于不平衡数据分类方法。

离散型变量

性别有男女，学校有学校1和学校2，身体健康状况有是否残疾，宗教信仰分是否是穆斯林。

连续型变量

本次数据集中兄弟姐妹数量及在校兄弟姐妹数量分布情况可以由下面四张分布图很好地展示出来。

大部分学生家中的兄弟姐妹有2-4个
大部分学生家中的姐妹都不是在校生
大部分学生家中的兄弟中也只有1-2个是在校生

哑变量

本次数据集共有四种语言，其数量分布由下图所示。接近一半的学生都是说的一种语言(Lang1)。

不平衡数据集处理方法

从上一步的探索性数据分析结果，本次学生成绩数据集为不平衡数据集，那么处理不平衡数据集处理方法都有哪些呢。这里可以参考云朵君之前的一篇机器学习中样本不平衡，怎么办？

在本文云朵君从三个方面总结了多种处理方法，见下面思维导图。

数据重采样

这里主要介绍下数据预处理层面的数据重采样方法。数据重采样主要分为上采样和下采样。

下采样，也称为欠采样（Under-Sampling），是一个为平衡数据类分布的移除大类数据的非启发式的方法。此方法的底层逻辑是平衡数据集进而克服算法的特异性。

常用的方法有随机欠采样（Random Under-Sampling, RUS），即随机排除大类的观察值，和聚焦欠采样（Focused Under-Sampling, FUS）, 即移除两类边界处的大类数据。

上采样，也称为过采样（Over-Samplig），是通过复制小类观察值，从而增加小类比例的一个方法。类似的，过采样也有随机过采样和聚焦过采样两种方法。

来源：kaggle

上采样

过采样代表SMOTE方法，其主要概念也就是在少数样本位置近的地方，人工合成一些样本，整个算法的流程如下:

设定一个采样倍率N，也就是对每个样本需要生成几个合成样本
设定一个近邻值K ，针对该样本找出K 个最近邻样本并从中随机选一个
根据以下公式来创造 N 个样本

x_{new} = x_{chosen}+(x_{nearest}-x_{chosen})*\delta;\delta \in[0,1]

下采样

相对于过采样，欠采样是将多数样本按比例减少，使得模型的加权权重改变，少考虑一些多数样本，上图很好地展示了两种方法的差异。

Tomek Link 算法

会针对所有样本去遍历一次，如有两个样本点x, y分属不同的class，即一个为多数样本而另一个为少数样本，则可以去计算它们之间的距离d(x , y) 。

此时如果找不到第三个样本点z，使得任一样本点到z 的距离比样本点之间的距离还小，则称为Tomek Link，一张图帮助理解 :

来源：Kaggle

Tomek Link 的关键思路在于，找出边界那些鉴别度不高的样本，认为这些样本点属于杂讯，应该剔除，因此可以见上图最右边，剔除以后两种类别的样本点可以更好地区分开来。

ENN算法（Edited Nearest Neighbor）

与上面Tomek Links的观念相同，ENN算法也是透过某种方式来剔除鉴别度低的样本，只是这边的方式改成了对多数类的样本寻找K个近邻点，如果有一半以上(当然，门槛可以自己设定)都不属于多数样本，就将该样本剔除，通常这些样本也会出现在少数样本之中。

混合采样

SMOTE + ENN、SMOTE + Tomek Links算法都是结合过采样与欠采样算法

SMOTEENN 使用 SMOTE 进行过采样，然后使用 Edited Nearest Neighbours 进行欠采样。

SMOTETomek 使用 SMOTE 进行过采样，然后使用 Tomek Links 进行欠采样。

不平衡数据集处理方法选择

控制变量法选择合适的处理方法。选用决策树为基分类器，并分别选择不使用数据重采样，使用SMOTE、SMOTEENN和SMOTETomek共三种数据重采样方法，比较这四种情况下的模型评价指标AUC得分情况。

最后分别选用五种不同分类器，且分别采用不同的数据重采样方法，绘制ROC曲线及得到的AUC得分情况。

ROC和AUC

ROC曲线绘制采用不同分类阈值的TPR和FPR，降低分类阈值会将更多的样本判为正类别，从而增加FP和TP的个数。为了绘制ROC曲线，需要使用不同的分类阈值多次评估回归模型，很麻烦。有一种基于排序的高效算法可以为我们提供此类信息，这种算法称为曲线下的面积(AUV,area under roc curve)。

ROC曲线的横轴为FPR，越低越好，纵轴为TPR，越高越好，故如果有两个不同的模型，曲线位于左上方的模型优于曲线位于右下方的模型，这一点可以拿曲线的面积(AUV)来量化。

完美的分类为TPR=1，FPR=0；ROC曲线过(0,0)和(1,1)点

AUC = 1，是完美分类器，采用这个预测模型时，不管设定什么阈值都能得出完美预测。绝大多数预测的场合，不存在完美分类器。
0.5 < AUC < 1，优于随机猜测。这个分类器（模型）妥善设定阈值的话，能有预测价值。
AUC = 0.5，跟随机猜测一样（例：丢铜板），模型没有预测价值。
AUC < 0.5，比随机猜测还差；但只要总是反预测而行，就优于随机猜测。

AUC计算的物理意义为：任取一对(正、负)样本，正样本的score大于负样本的score的概率，也即是随机正类别样本位于随机负类别样本右侧的概率。

核心代码

将所有主要方法定义为函数，包括数据重采样、划分测试集和训练集、模型训练、模型评价和结果可视化。

此外，由于是比较不平衡数据集处理方法选择的优劣，这里所有的机器学习模型都采用默认参数。

def reSampler(X, y, samp):
   """不同的数据重采样策略"""
    if(samp == 'None'):
        return splitter(X, y, 0.1)    
    if(samp == 'SMOTE'):
        sm = SMOTE('auto', 42)
        X_resampled , y_resampled = sm.fit_resample(X, Y)
        return splitter(X_resampled , y_resampled, 0.1)   
    if(samp == 'SMOTEENN'):
        sm = SMOTEENN()
        X_resampled , y_resampled = sm.fit_resample(X, Y)
        return splitter(X_resampled , y_resampled, 0.1)   
    if(samp == 'SMOTETomek'):
        sm = SMOTEENN()
        X_resampled , y_resampled = sm.fit_resample(X, Y)
        return splitter(X_resampled , y_resampled, 0.1)

def splitter(X, y, test_Size):
   """划分测试集和训练集"""
    xtrain, xtest, ytrain, ytest = train_test_split(
    X, y, test_size = test_Size, random_state=12)
    return xtrain, xtest, ytrain, ytest

def rocPlotter(actu, pred, clf, samp):
   """AUC曲线绘图函数"""
    false_positive_rate, true_positive_rate, thresholds = roc_curve(actu, pred)
    roc_auc = auc(false_positive_rate, true_positive_rate)
    Title = str('ROC: ' + str(clf) + ' using ' + str(samp))
    plt.title(Title)
    plt.plot(false_positive_rate, true_positive_rate, 'b', 
    label='AUC = %0.2f'% roc_auc)
    plt.legend(loc='lower right')
    plt.plot([0,1],[0,1],'r--')
    plt.xlim([-0.1,1.2])
    plt.ylim([-0.1,1.2])
    plt.ylabel('True Positive Rate')
    plt.xlabel('False Positive Rate')
    plt.show()
    return roc_auc

def applyModel(clfr, X_, y_, xt, yt):
   """使用模型"""
    a = globals()[clfr]()
    a.fit(X_, y_)
    scor = a.score(xt, yt)*100
    pred = a.predict(xt)
    actu = yt
    return pred, actu, scor
    
def tryAll(clfList, sampList, Inputs, Outputs):
  """主函数"""
    rep = np.zeros( (len(clfList), len(sampList)), dtype=float)
    for clf, clfIndex in zip(clfList, range(len(clfList))):
      # 不同的分类器
        for samp, sampIndex in zip(sampList, range(len(sampList))):
          # 不同的重采样策略
            X_train, X_test, Y_train, Y_test = reSampler(Inputs, Outputs, samp)
            prediction , actual, score =applyModel(
            clf, X_train, Y_train, X_test, Y_test)
            currentAUC = rocPlotter(
            prediction, actual, clf, samp)
            print(clf, ' with ', samp, ' scored =  ', score, 
            ' on test set with AUC = ', currentAUC)
            rep[clfIndex, sampIndex] = currentAUC
    return rep

函数执行

Classifiers = ['DecisionTreeClassifier', 'KNeighborsClassifier', 
               'LogisticRegression', 'MLPClassifier', 
               'RandomForestClassifier']
Samplers = ['None', 'SMOTE', 'SMOTETomek', 'SMOTEENN']

report = tryAll(Classifiers, Samplers, X, Y)

结果可视化

下面以单个模型四种不同重采样策略，和五种模型单个重采样策略为例展示可视化结果。大家可以运行上述代码以得到完整的结果展示。

决策树模型在四种不同重采样策略下，得到的四种不同的结果。很明显地看到没有使用数据重采样的模型得分最差只有0.54，而使用混合采样算法的两个结果的得分都比较理想，分别是0.973275和0.979196分。

接下来以上述结果中得分最高的混合采样算法SMOTETomek为例，将不平衡数据集经过SMOTETomek算法处理后，分别用 DecisionTreeClassifier决策树分类器， KNeighborsClassifierK近邻分类器， LogisticRegression逻辑回归， MLPClassifier多层感知机， RandomForestClassifier随机森林分类器五种机器学习模型训练和测试数据，并得到如下结果。

从结果可知道，并不是所有模型在使用混合采样算法SMOTETomek后都能达到令人满意的效果。

结果汇总

为方便查看所有结果，将所模型、所有重采样方法汇总到如下图所示的DataFrame中。从AUC结果看，使用混合采样算法SMOTEENN对数据集处理，并使用决策树模型对结果进行预测，将会得到最佳预测效果。其AUC=0.979。

pd.DataFrame(report, columns = Samplers, index = Classifiers)

交叉验证

上节中选用五种不同分类器，三种不同的数据重采样方法，结合ROC曲线及AUC得分情况来确定重采样方法对选择。

本节可以理解为是上节的拓展。

核心代码

# 实例化五种分类器模型
dTree  = DecisionTreeClassifier()  
logReg = LogisticRegression()
knn    = KNeighborsClassifier(n_neighbors=5)
rF     = RandomForestClassifier()
MLP    = MLPClassifier()

# 实例化十种数据重采样模型
rmun = RandomUnderSampler()
cnn = CondensedNearestNeighbour()
nm = NearMiss()
enn = EditedNearestNeighbours()
renn = RepeatedEditedNearestNeighbours()
tkLink = TomekLinks()
rmov = RandomOverSampler()
sm = SMOTE()
sm_en = SMOTEENN()
sm_tk = SMOTETomek()
# 以SMOTEENN采样方法为例
sm_en = SMOTEENN()
X_resampled, Y_resampled = sm_en.fit_resample(X, Y)
# 分别使用10折交叉验证的方法得到平均得分
scores_dTree = cross_val_score(dTree, X_resampled, Y_resampled, cv = 10, scoring='roc_auc')
scores_dTree = scores_dTree.mean()
# 打印出每次的结果
print('After appling SMOTENN: ')
print('   dTree,       logReg   ,         KNN    ,       rF   ,           MLP')
print(scores_dTree, scores_logReg, scores_knn, scores_rF, scores_MLP)

将所有结果存储在一个DataFrame里

Classifiers = ['DecisionTreeClassifier', 'LogisticRegression', 
               'KNeighborsClassifier', 'RandomForestClassifier',  
               'MLPClassifier']
Samplers = ['None','Random Undersampling', 'CNN', 'NearMiss', 
            'ENN', 'RENN','Tomek Links','SMOTE', 
            'Random Oversampling', 'SMOTEENN','SMOTETomek']

pd.DataFrame(report, columns = Samplers, index = Classifiers)

并用热图可视化更加直观地展示出结果来

import seaborn as sns
plt.figure()
ax = sns.heatmap(report,xticklabels=Samplers, 
                 yticklabels=Classifiers, 
                 annot = True, vmin=0, 
                 vmax=1, linewidth=0.1, 
                 cmap="YlGnBu",)