前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数据分析入门系列教程-决策树实战

数据分析入门系列教程-决策树实战

作者头像
周萝卜
发布2020-10-30 12:39:55
8280
发布2020-10-30 12:39:55
举报
文章被收录于专栏:萝卜大杂烩萝卜大杂烩

在学习了上一节决策树的原理之后,你有没有想动手实践下的冲动呢,今天我们就来用决策树进行项目实战。

决策树的应用场景是非常广泛的,在各行各业都有应用,并且有非常良好的表现。金融行业的风险贷款评估,医疗行业的疾病诊断,电商行业的销售预测等等。

sklearn 中的决策树

首先我们先来了解下如何在 sklearn 中使用决策树模型。

在 sklearn 中,可以使用如下方式来构建决策树分类器

代码语言:javascript
复制
from sklearn.tree import DecisionTreeClassifier
clf = DecisionTreeClassifier(criterion='entropy')

其中的 criterion 参数,就是决策树算法,可以选择 entropy,就是基于信息熵;而 gini,就是基于基尼系数。

构建决策树的一些重要参数,整理如下:

参数名

作用

criterion

特征选择标准,可选参数,默认是 gini,可以设置为 entropy。ID3 算法使用的是 entropy,CART 算法使用的则是 gini。

splitter

特征划分点选择标准,可选参数,默认是 best,可以设置为 random。best 参数是根据算法选择最佳的切分特征,例如 gini、entropy。random 随机的在部分划分点中找局部最优的划分点。默认的"best"适合样本量不大的时候,而如果样本数据量非常大,此时决策树构建推荐"random"。

max_features

在划分数据集时考虑的最多的特征值数量,为 int 或 float 类型。一般情况如果特征不是很多,少于50时,使用默认值 None 即可。

max_depth

决策树最大深,可选参数,默认是 None。

min_samples_split

内部节点再划分所需最小样本数,可选参数,默认是2。当节点的样本数少于 min_samples_split 时,不再继续分裂。

min_samples_leaf

叶子节点最少样本数,可选参数,默认是1。如果某叶子节点数目小于这个阈值,就会和兄弟节点一起被裁剪掉。叶结点需要最少的样本数,也就是最后到叶子节点,需要多少个样本才能算一个叶子节点。

min_weight_fraction_leaf

叶子节点最小的样本权重和,可选参数,默认是0。这个值限制了叶子节点所有样本权重和的最小值,如果小于这个值,则会和兄弟节点一起被剪枝。

max_leaf_nodes

最大叶子节点数,默认是 None。可以通过设置最大叶子节点数,防止过拟合。特征不多时,不用考虑该参数。

class_weight

类别权重,可选参数,默认是 None,也可以字典、字典列表、balanced。指定样本各类别的的权重,主要是为了防止训练集某些类别的样本过多,导致训练的决策树过于偏向这些类别。如果使用 balanced,则算法会自己计算权重,样本量少的类别所对应的样本权重会高。

random_state

随机数种子,可选参数,默认是None。如果设置了随机数种子,那么相同随机数种子,不同时刻产生的随机数也是相同的。

min_impurity_split

信息增益的阈值,如果信息增益小于这个值,则决策树不再增长,该节点不再生成节点,即为叶子节点。

presort

数据是否预排序,可选参数,默认为 False。如果样本量少或者限制了一个深度很小的决策树,设置为 True 可以让划分点选择更加快,决策树建立的更加快。

泰坦尼克预测

在了解了 sklearn 中构建决策树的方式和相关参数后,我们就可以进行真正的决策树构建了,并解决实际问题。

首先我们先使用最为经典的泰坦尼克数据集来预测下乘客的生存情况,你应该还记得,我们在数据清洗章节已经讲解过该数据集是如何清洗的,现在我们继续使用清洗之后的数据,用决策树的方式预测结果。

数据清洗

具体的清洗思路,可以回顾下第4节

代码语言:javascript
复制
import numpy as np
import pandas as pddf = pd.read_csv('titanic_data.csv')
data = df.copy()
data['age'].fillna(df['age'].median(skipna=True), inplace=True)
data.drop(columns=['cabin'], inplace=True)
data['embarked'].fillna(df['embarked'].value_counts().idxmax(), inplace=True)
data.dropna(axis=0, how='any', inplace=True)
data.isnull().sum()  # 查看是否还有空值
data['alone']=np.where((data["sibsp"]+data["parch"])>0, 0, 1)
data.drop('sibsp', axis=1, inplace=True)
data.drop('parch', axis=1, inplace=True)
data =pd.get_dummies(data, columns=["embarked","sex"])
data.drop('name', axis=1, inplace=True)
data.drop('ticket', axis=1, inplace=True)

使用决策树做预测

导入需要的库

代码语言:javascript
复制
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

特征选择

代码语言:javascript
复制
feature = ["age","fare","alone","pclass","embarked_C","embarked_S", "embarked_Q","sex_male", "sex_female"] 

创建特征(X)和类别标签(y)

代码语言:javascript
复制
X = data[feature]
y = data['survived']

划分训练集和测试集

代码语言:javascript
复制
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=2)

构建决策树模型并训练

代码语言:javascript
复制
clf = DecisionTreeClassifier(criterion='entropy')
clf.fit(X_train, y_train)
>>>
DecisionTreeClassifier(class_weight=None, criterion='entropy', max_depth=None,
            max_features=None, max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, presort=False, random_state=None,
            splitter='best')

此时打印出来的就是我们构建好的决策树及相关参数

决策树预测

代码语言:javascript
复制
pred_labels = clf.predict(X_test)

查看分类器准确率

代码语言:javascript
复制
print("Accuracy:",accuracy_score(y_test, pred_labels))
>>>
Accuracy: 0.7595419847328244

决策树可视化

为了做决策树的可视化,我们需要另外两个库,pydotplus 和 Grsphviz。

可以直接使用 pip 安装 pydotplus

代码语言:javascript
复制
pip install pydotplus

对于 Graphviz,需要下载对应的软件

https://www.graphviz.org/download/

你可以选择对应的操作系统版本,安装好之后,需要添加环境变量,之后就可以使用了。

此处以 windows 为例

下载并安装好软件

设置环境变量

按快捷键 win+r,在出现的运行对话框中输入sysdm.cpl,点击确定,出现如下对话框:

依次选择“高级”,“环境变量”,在系统变量中选择 Path 编辑

选择新建,并把 Graphviz 的安装路径填入

至此,已经可以正常只用 Graphviz 了。

代码实现

代码语言:javascript
复制
from sklearn.tree import export_graphviz
from sklearn.externals.six import StringIO
import pydotplusdot_data = StringIO()
export_graphviz(clf, out_file=dot_data,
filled=True, rounded=True,
special_characters=True,feature_names = feature,class_names=['0','1'])
graph = pydotplus.graph_from_dot_data(dot_data.getvalue())
graph.write_png('diabetes.png')

现在在当前目录下就成功生成了一个叫做 diabetes.png 的图片了,内容如下:

由于树比较大,更加高清的图片可以在这里下载

https://github.com/zhouwei713/DataAnalyse/tree/master/Decision_tree

我们简单看下根节点吧,这棵决策树在根节点选择的是 sex_male 这个特征来做分类的,小于0.5的数据有636个,分到了左边,即 class 为1,大于0.5的数据有410个,分到了右边,即 class 为0。后面的分类都是以此类推的

员工离职率预测

我们再来做一个员工离职率的预测分析实战,相关数据集可以在这里下载

https://github.com/zhouwei713/DataAnalyse/tree/master/Decision_tree

数据预处理

导入数据并查看是否存在缺失值

代码语言:javascript
复制
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib as matplot
import seaborn as sns
df = pd.read_csv('HR.csv', index_col=None)
# 检测是否有缺失数据
df.isnull().any()
>>>
satisfaction_level       False
last_evaluation          False
number_project           False
average_montly_hours     False
time_spend_company       False
Work_accident            False
left                     False
promotion_last_5years    False
sales                    False
salary                   False
dtype: bool

数据很完整,没有缺失值

查看数据

代码语言:javascript
复制
df.head()

satisfaction_level:员工对公司满意度

last_evaluation:上一次公司对员工的评价

number_project:该员工同时负责多少项目

average_montly_hours:每个月工作的时长

time_spend_company:在公司工作多久

Work_accident:是否有个工作事故

left:是否离开公司(1表示离职)

promotion_last_5years:过去5年是否又被升职

sales:部门

salary:工资水平

数据分析

查看数据形状

代码语言:javascript
复制
print(df.shape)
>>>
(14999, 10)

共有14999条数据,每条数据10个特征。不过需要把 left 作为标签,实际为9个特征。

查看离职率

代码语言:javascript
复制
turnover_rate = df.left.value_counts() / len(df)
print(turnover_rate)
>>>
0    0.761917
1    0.238083
Name: left, dtype: float64

离职率为0.24

分组统计

代码语言:javascript
复制
turnover_Summary = df.groupby('left')
print(turnover_Summary.mean())

相关性分析

我们可以通过热力图,来了解下哪些特征的影响最大,哪些特征之间的相关性又是最强的。

代码语言:javascript
复制
corr = df.corr()
sns.heatmap(corr, 
            xticklabels=corr.columns.values,
            yticklabels=corr.columns.values)

两个特征的交叉处,颜色越浅,说明相关性越大。

数据集字符串转换成数字

将数据集中的字符串数据转换成数字类型数据

代码语言:javascript
复制
print(df.dtypes)
>>>
satisfaction_level       float64
last_evaluation          float64
number_project             int64
average_montly_hours       int64
time_spend_company         int64
Work_accident              int64
left                       int64
promotion_last_5years      int64
sales                     object
salary                    object
dtype: object

sales 和 salary 两个特征需要转换

这里要介绍一个 Pandas 超级强大的功能,accessor。该方法可以返回属性,让我们知道某个数据有哪些属性可以使用

代码语言:javascript
复制
import pandas as pd
pd.Series._accessors
>>>
{'cat', 'dt', 'sparse', 'str'}

可以看到,对于 series 类型数据,有如下四个属性可用。 cat:用于分类数据(Categorical data) str:用于字符数据(String Object data) dt:用于时间数据(datetime-like data) sparse:用于系数矩阵

代码语言:javascript
复制
test = pd.Series(['str1', 'str2', 'str3'])
print(test.str.upper())
print(dir(test.str))
>>>
0    STR1
1    STR2
2    STR3
dtype: object
[...'_get_series_list', '_inferred_dtype', '_is_categorical', '_make_accessor', '_orig', '_parent', '_validate', '_wrap_result', 'capitalize', 'casefold', 'cat', 'center', 'contains', 'count', 'decode', 'encode', 'endswith', 'extract', 'extractall', 'find', 'findall', 'get', 'get_dummies', 'index'...]

现在我们要做的是把字符串转换成数字,所以可用使用 cat 这个属性,因为对于 sales 和 salary 两个特征,它们都是类别类型的数据,比如 sales 的 support,product_mng 和 salary 的 low,medium 等。

而 cat 属性的使用,是需要和数据类型 Category 相配合的,故我们需要先将上面两列的数据类型做下转换

代码语言:javascript
复制
df["sales"] = df["sales"].astype('category')
df["salary"] = df["salary"].astype('category')

然后再使用 cat.codes 来实现对整数的映射

代码语言:javascript
复制
df["sales"] = df["sales"].cat.codes
df["salary"] = df["salary"].cat.codes

模型训练

划分标签和特征

代码语言:javascript
复制
target_name = 'left'
X = df.drop('left', axis=1)
y = df[target_name]

划分训练集和测试集

代码语言:javascript
复制
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.15, random_state=123, stratify=y)

stratify 参数的作用是在训练集和测试集中,不同标签(离职与非离职)所占比例相同,即原数据集中比例是多少,训练集和测试集中比例也为多少。

模型训练和预测

代码语言:javascript
复制
from sklearn.metrics import roc_auc_score
clf = DecisionTreeClassifier(
    criterion='entropy',
    min_weight_fraction_leaf=0.01
    )
clf = clf.fit(X_train,y_train)
clf_roc_auc = roc_auc_score(y_test, clf.predict(X_test))
print ("决策树 AUC = %2.2f" % clf_roc_auc)
>>>
 ---决策树---
决策树 AUC = 0.93

这里使用了 ROC 和 AUC 来检查分类器的准确率,我们来看看它们的含义。

ROC

ROC(Receiver Operating Characteristic)曲线,用来评价二值分类器的优劣。ROC 曲线下的面积,表示模型准确率,用 AUC 来表示。

ROC 曲线有个很好的特性:当测试集中的正负样本的分布变化的时候,ROC 曲线能够保持不变。在实际的数据集中经常会出现类不平衡(class imbalance)现象,即负样本比正样本多很多(或者相反),而且测试数据中的正负样本的分布也可能随着时间变化。

ROC 曲线

代码语言:javascript
复制
from sklearn.metrics import roc_curve
clf_fpr, clf_tpr, clf_thresholds = roc_curve(y_test, clf.predict_proba(X_test)[:,1])plt.figure()# 决策树 ROC
plt.plot(clf_fpr, clf_tpr, label='Decision Tree (area = %0.2f)' % clf_roc_auc)plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('ROC Graph')
plt.legend(loc="lower right")
plt.show()

图中的曲线,越接近左上,说明模型准确率越高,也即是曲线下面的面积越大。

决策树应用

在构建好决策树之后,我们可以通过决策树来分析出不同特征的重要性,进而帮助做出决定。

在当前员工离职率分析的例子中,我们可以分析出哪几个特征是对员工离职起到觉得性作用的,那么公司就可以对想要留下的员工重点提高对应的特征。

代码语言:javascript
复制
importances = clf.feature_importances_
feat_names = df.drop(['left'],axis=1).columnsindices = np.argsort(importances)[::-1]
plt.figure(figsize=(12,6))
plt.title("Feature importances by Decision Tree")
plt.bar(range(len(indices)), importances[indices], color='lightblue',  align="center")
plt.step(range(len(indices)), np.cumsum(importances[indices]), where='mid', label='Cumulative')
plt.xticks(range(len(indices)), feat_names[indices], rotation='vertical',fontsize=14)
plt.xlim([-1, len(indices)])
plt.show()

这图中可以非常直观的看出,satisfaction_level 起到了最大的作用,大概占到了0.5左右,其次就是 time_spend_company 和 last_evaluation。

那么这些影响是正相关还是负相关呢,就可以结合上面的热力图来分析

比如对于 satisfaction_level,从热力图中可以看到他与 left 是负相关的,所以我们就可以得出结论:满意度越高,越不容易离职。实际上,在真实生活中也是这样的,对吧。

最后再来看下那条折线,它的意思是说,每一个拐折的地方,都是前面特征影响度之和,比如图中红框的地方,就是前两个特征加一起对于离职的影响度,大概占到了0.7左右。

而前五个特征,基本已经占到了1,所以其他特征的影响几乎可以忽略不计了。

文中的完整代码,可以在这里下载:

https://github.com/zhouwei713/DataAnalyse/tree/master/Decision_tree

总结

本节讲解了如何构建决策树,决策树的可视化,同时还分享了当特征值是非数值类型时,转换成数值类型的方法。

对于原始的数据集,我们要有足够的分析,找到不同特征之间的相关性。这些信息,无论是前期的特征选择还是后面训练好模型后的分析,都是很关键的。

同时我们还介绍了 ROC 曲线和 AUC 的概念,是二分类中应用广泛的准确率判定方法。

最后,我们还介绍了如何通过决策树来分析特征的重要性,从而解决工作生活中真实的问题。

练习题

对于 Titanic 的例子,你可以通过在创建决策树实例时,增加参数进行剪枝,使得决策树的准确率提高嘛?

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-10-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 萝卜大杂烩 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • sklearn 中的决策树
  • 泰坦尼克预测
  • 数据清洗
  • 使用决策树做预测
  • 决策树可视化
    • 员工离职率预测
    • 数据预处理
    • 数据分析
    • 相关性分析
    • 数据集字符串转换成数字
    • 模型训练
    • ROC
    • 决策树应用
      • 总结
        • 练习题
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档