前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >基于决策树的红酒分类可视化

基于决策树的红酒分类可视化

作者头像
皮大大
发布于 2021-03-02 03:24:01
发布于 2021-03-02 03:24:01
1.5K00
代码可运行
举报
运行总次数:0
代码可运行

本文中讲解是的利用决策树的方法将sklearn中自带的红酒数据进行划分和可视化显示,学习决策树的几个重要参数。

决策树在sklearn的应用

决策树Decision Tree是一种非参数的有监督学习方法,它能够从一系列有特征和标签的数据中总结出决策规 则,并用树状图的结构来呈现这些规则,以解决分类和回归问题 。

解决两个重点问题
  • 如何从数据中找出最佳节点和最佳分枝
  • 如何让决策树停止生长,防止过拟合
sklearn中的决策树

决策树相关的类都在tree模块下面,总共5个

建模的基本流程

  • 实例化
  • 拟合fit
  • 计算准确度score
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
from sklearn import tree              # 导入需要的模块
 
clf = tree.DecisionTreeClassifier()   # 实例化  
clf = clf.fit(X_trian, y_train)       # 用训练数据训练模型
result = clf.score(X_test, t_test)    # 导入测试数据集,从接口中调用需要的信息

重要参数

决策树算法中所有的参数为

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
class sklearn.tree.DecisionTreeClassifier (criterion=’gini’, splitter=’best’, max_depth=None,
                                           min_samples_split=2, min_samples_leaf=1,
                                           min_weight_fraction_leaf=0.0, max_features=None,
                                           random_state=None, max_leaf_nodes=None,
                                           min_impurity_decrease=0.0, min_impurity_split=None,
                                           class_weight=None, presort=False)

1.criterion 用来确定不纯度的计算方法有两种,不纯度越低越好

  • 信息熵entropy,实际上是信息增益
  • 基尼系数gini (默认)

二者比较

  • 信息熵对不纯度更加敏感
  • 信息熵更慢些,存在对数运算
  • 数据维度大,噪音很大使用基尼系数
  • 当拟合程度不够的时候,使用基尼系数

导入模块和库

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import pandas as pd
import matplotlib.pyplot as plt

from sklearn import tree    # tree模块
from sklearn.datasets import load_wine  # 导入红酒数据
from sklearn.model_selection import train_test_split  # TTS模块

数据生成和信息查看

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
wine = load_wine()   # 实例化红酒数据
wine.data
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
array([[1.423e+01, 1.710e+00, 2.430e+00, ..., 1.040e+00, 3.920e+00,
        1.065e+03],
       [1.320e+01, 1.780e+00, 2.140e+00, ..., 1.050e+00, 3.400e+00,
        1.050e+03],
       [1.316e+01, 2.360e+00, 2.670e+00, ..., 1.030e+00, 3.170e+00,
        1.185e+03],
       ...,
       [1.413e+01, 4.100e+00, 2.740e+00, ..., 6.100e-01, 1.600e+00,
        5.600e+02]])
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
wine.data.shape
# 结果:178个样本,13个属性
(178, 13)
# 3种分类
wine.target
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2])

重点:如何将样本数据集和输出标签生成表格形式

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
pd.concat([pd.DataFrame(wine.data), pd.DataFrame(wine.target)], axis=1)


代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
wine.feature_names   # 13个属性名称
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 结果
['alcohol',
 'malic_acid',
 'ash',
 'alcalinity_of_ash',
 'magnesium',
 'total_phenols',
 'flavanoids',
 'nonflavanoid_phenols',
 'proanthocyanins',
 'color_intensity',
 'hue',
 'od280/od315_of_diluted_wines',
 'proline']
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
wine.target_names  # 标签的3个分类
array(['class_0', 'class_1', 'class_2'], dtype='<U7')
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
Xtrain, Xtest, ytrain, ytest = train_test_split(wine.data, wine.target, test_size=0.3)   # 随机划分数据
Xtrain.shape
(124, 13)
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
ytrain
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
array([1, 1, 0, 1, 1, 2, 1, 1, 1, 2, 0, 0, 2, 0, 1, 0, 0, 0, 1, 1, 1, 0,
       0, 1, 1, 0, 1, 2, 2, 2, 0, 2, 0, 0, 2, 0, 1, 0, 0, 0, 2, 1, 0, 1,
       2, 1, 0, 0, 1, 2, 0, 1, 1, 0, 0, 0, 1, 2, 2, 2, 1, 1, 1, 1, 1, 2,
       0, 0, 0, 2, 0, 1, 0, 0, 0, 1, 0, 2, 2, 1, 1, 2, 0, 2, 2, 2, 1, 0,
       2, 0, 2, 0, 2, 1, 1, 0, 1, 0, 1, 2, 1, 0, 1, 1, 1, 0, 2, 2, 1, 0,
       0, 1, 2, 0, 2, 0, 2, 0, 0, 1, 1, 2, 0, 0])

建模过程

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
clf = tree.DecisionTreeClassifier(criterion="entropy")  
clf = clf.fit(Xtrain, ytrain)
score = clf.score(Xtest, ytest)    # 返回预测的准确度 
score
0.9259259259259259
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import os   # 画图的时候一定要加上路径
os.environ["PATH"] += os.pathsep + 'D:/Tools/graphviz-2.38/release/bin'

画图

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
feature_name = ['酒精','苹果酸','灰','灰的碱性','镁','总酚','类黄酮','非黄烷类酚类',
                '花青素','颜色强度','色调','od280/od315稀释葡萄酒','脯氨酸']

import graphviz
dot_data = tree.export_graphviz(clf
                               ,feature_names = feature_name
                               ,class_names = ["琴酒","雪莉","贝尔摩德"]
                               ,filled = True    # 是否填充颜色
                               ,rounded = True)  # 框的形状

graph = graphviz.Source(dot_data)
graph

结果信息

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
clf.feature_importances_   # 使用特征的数量的重要性
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
array([0.02366882, 0.04362795, 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.16528255,
       0.        , 0.43075257, 0.33666811])
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
[*zip(feature_name,clf.feature_importances_)]  # 将使用的特征和名称进行一一对应
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
[('酒精', 0.023668823820059623),
 ('苹果酸', 0.04362794529024377),
 ('灰', 0.0),
 ('灰的碱性', 0.0),
 ('镁', 0.0),
 ('总酚', 0.0),
 ('类黄酮', 0.0),
 ('非黄烷类酚类', 0.0),
 ('花青素', 0.0),
 ('颜色强度', 0.16528255077367338),
 ('色调', 0.0),
 ('od280/od315稀释葡萄酒', 0.4307525705140722),
 ('脯氨酸', 0.3366681096019511)]
  • random_state:设置随机模式的参数,默认是None,高维数据表现更明显
  • splitter:有两个参数供选择
    • best:默认,每次选择更重要的属性进行分类
    • random:保证选择特征的随机性,树会更深更大,降低对训练数据的拟合
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
clf = tree.DecisionTreeClassifier(criterion="entropy"
                                  ,random_state=50   # 设置随机模式,保证结果不变
                                  ,splitter="random"  
                                  )   
clf = clf.fit(Xtrain, ytrain)
score = clf.score(Xtest, ytest)    # 返回预测的准确度
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
feature_name = ['酒精','苹果酸','灰','灰的碱性','镁','总酚','类黄酮','非黄烷类酚类',
                '花青素','颜色强度','色调','od280/od315稀释葡萄酒','脯氨酸']

import graphviz
dot_data = tree.export_graphviz(clf
                               ,feature_names = feature_name
                               ,class_names = ["琴酒","雪莉","贝尔摩德"]
                               ,filled = True    # 是否填充颜色
                               ,rounded = True)  # 框的形状

graph = graphviz.Source(dot_data)
graph

剪枝参数

过拟合:在训练数据集上表现的很好,在测试数据集上却很差

  • max_depth 限制树的最大深度,超过设定深度的树枝全部剪掉
  • min_samples_leaf & min_samples_split min_samples_leaf限定,一个节点在分枝后的每个子节点都必须包含至少min_samples_leaf个训练样本 min_samples_split限定,一个节点必须要包含至少min_samples_split个训练样本,这个节点才允许被分枝,否则分枝就不会发生。
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
clf = tree.DecisionTreeClassifier(criterion="entropy"
                                  ,random_state=50   # 设置随机模式,保证结果不变
                                  ,splitter="random"  
                                  # 可以调节3个参数,比较每次的得分大小
                                  ,max_depth=3   
                                  ,min_samples_leaf=10
                                  ,min_samples_split=10
                                  )   
clf = clf.fit(Xtrain, ytrain)

dot_data = tree.export_graphviz(clf
                               ,feature_names = feature_name
                               ,class_names = ["琴酒","雪莉","贝尔摩德"]
                               ,filled = True    # 是否填充颜色
                               ,rounded = True)  # 框的形状

graph = graphviz.Source(dot_data)
graph

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
score = clf.score(Xtest, ytest)    # 返回预测的准确度 
score
0.7777777777777778
  • max_features
    • 限制分枝是考虑的特征个数,超过限制的个数直接舍弃掉
    • 限制高维数据的过拟合剪枝参数,方法暴力
  • min_impurity_decrease
    • 限制信息增益的大小
    • 小于设置值不会发生分枝
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 学习曲线

test = []
for i in range(10):
    clf = tree.DecisionTreeClassifier(criterion="entropy"
                                  ,random_state=50   # 设置随机模式,保证结果不变
                                  ,splitter="random"  
                                  ,max_depth=i+1
#                                   ,min_samples_leaf=10
#                                   ,min_samples_split=10
                                  )   
    clf = clf.fit(Xtrain, ytrain)
    score = clf.score(Xtest, ytest)    # 返回预测的准确度 
    test.append(score)
plt.plot(range(1,11), test, color="red", label="max_depth")
plt.legend()
plt.show()

重要属性和接口

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 测试样本所在的叶子节点的索引
clf.apply(Xtest)
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
array([ 6,  7,  6, 18, 18,  6, 12, 16, 16,  9,  7, 16, 18,  7,  5, 12, 14,
       18,  7,  6,  7,  6, 12,  7, 18,  9,  5,  7,  5, 16, 12,  6,  7,  5,
       14, 18,  9, 12,  6,  9,  7,  9, 16, 12, 14, 12,  7,  6, 18,  5, 14,
       18,  7, 12], dtype=int64)
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
#返回分类测试样本的分类或者回归结果
clf.predict(Xtest)
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
array([1, 2, 1, 0, 0, 1, 1, 0, 0, 1, 2, 0, 0, 2, 2, 1, 1, 0, 2, 1, 2, 1,
       1, 2, 0, 1, 2, 2, 2, 0, 1, 1, 2, 2, 1, 0, 1, 1, 1, 1, 2, 1, 0, 1,
       1, 1, 2, 1, 0, 2, 1, 0, 2, 1])

一个属性:feature_importances

四个接口:fit,score,apply,predict

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2019-9-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
想用Python爬小姐姐图片?那你得先搞定分布式进程
导读:分布式进程指的是将Process进程分布到多台机器上,充分利用多台机器的性能完成复杂的任务。我们可以将这一点应用到分布式爬虫的开发中。
IT阅读排行榜
2019/06/18
4640
想用Python爬小姐姐图片?那你得先搞定分布式进程
python爬虫 | 一文搞懂分布式进程爬虫
今天咱们来扯一扯分布式进程爬虫,对爬虫有所了解的都知道分布式爬虫这个东东,今天我们来搞懂一下分布式这个概念,从字面上看就是分开来布置,确实如此它是可以分开来运作的。
Python数据科学
2019/06/10
7490
一篇文章带你了解Python的分布式进程接口
在Thread和Process中,应当优选Process,因为Process更稳定,而且,Process可以分布到多台机器上,而Thread最多只能分布到同一台机器的多个CPU上。
Go进阶者
2021/05/24
3520
一篇文章带你了解Python的分布式进程接口
python网络爬虫(2)回顾Python编程
把内存中的数据变为可保存和共享,实现状态保存。cPickle使用C语言编写,效率高,优先使用。如果不存在则使用pickle。pickle使用dump和dumps实现序列化。
嘘、小点声
2019/07/31
6520
python 性能的优化
NumPy的创始人Travis,创建了CONTINUUM,致力于将Python大数据处理方面的应用。 推出的Numba项目能够将处理NumPy数组的Python函数JIT编译为==机器码执行==,从而上百倍的提高程序的运算速度。
Tim在路上
2020/08/04
1.1K0
Python Windows下分布式进程的坑(分布式进程的一个简单例子)
下面这个例子基于”廖雪峰的Python教程:分布式进程”原例在Linux上运行,直接在Windows上运行会出现错误,下面是针对原例进行的改进,使之能成功运行。 https://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000/001431929340191970154d52b9d484b88a7b343708fcc60000#0 博主也对代码注释作了更精确的改进。 原例在Wi
Steve Wang
2018/02/05
2.2K0
Python学习笔记(十)·进程和线程
很多同学都听说过,现代操作系统比如Mac OS X,UNIX,Linux,Windows等,都是支持“多任务”的操作系统。
公爵
2022/09/28
5340
Python学习笔记(十)·进程和线程
Python3.6学习笔记(四)
程序运行中,可能会遇到BUG、用户输入异常数据以及其它环境的异常,这些都需要程序猿进行处理。Python提供了一套内置的异常处理机制,供程序猿使用,同时PDB提供了调试代码的功能,除此之外,程序猿还应该掌握测试的编写,确保程序的运行符合预期。
大江小浪
2018/07/24
7760
python网络爬虫(3)python爬虫遇到的各种问题(python版本、进程等)
Python3中,import cookielib改成 import http.cookiejar
嘘、小点声
2019/07/31
1.3K0
Python学习—pyhton中的进程
进程: 进程就是一个程序在一个数据集上的一次动态执行过程。进程一般由程序、数据、进程控制块(pcb)三部分组成。 (1)我们编写的程序用来描述进程要完成哪些功能以及如何完成; (2)数据则是程序在执行过程中所需要使用的资源; (3)进程控制块用来记录进程的所有信息。系统可以利用它来控制和管理进程,它是系统感知进程存在的唯一标志。
py3study
2020/01/06
5630
7-并发编程
对于CPU计算密集型的任务,python的多线程跟单线程没什么区别,甚至有可能会更慢,但是对于IO密集型的任务,比如http请求这类任务,python的多线程还是有用处。在日常的使用中,经常会结合多线程和队列一起使用,比如,以爬取simpledestops 网站壁纸为例:
py3study
2020/01/02
3450
Python 分布式进程Master
from multiprocessing.managers import BaseManager
py3study
2020/01/15
4640
Python使用Manager对象实现不同机器上的进程跨网络传输数据
本文主要演示不同机器上的进程之间如何通过网络进行数据交换。 (1)首先编写程序文件multiprocessing_server.py,启动服务器进程,创建可共享的队列对象。 from multiprocessing.managers import BaseManager from queue import Queue q = Queue() class QueueManager(BaseManager): pass QueueManager.register('get_queue', callable=l
Python小屋屋主
2018/04/16
1.9K0
python网络爬虫(10)分布式爬虫爬取静态数据
爬虫应该能够快速高效的完成数据爬取和分析任务。使用多个进程协同完成一个任务,提高了数据爬取的效率。
嘘、小点声
2019/07/31
6200
Python多进程并行编程实践:以multiprocessing模块为例
專 欄 ❈Pytlab,Python 中文社区专栏作者。主要从事科学计算与高性能计算领域的应用,主要语言为Python,C,C++。熟悉数值算法(最优化方法,蒙特卡洛算法等)与并行化 算法(MPI,OpenMP等多线程以及多进程并行化)以及python优化方法,经常使用C++给python写扩展。 blog:http://ipytlab.com github:https://github.com/PytLab ❈— 前言 并行计算是使用并行计算机来减少单个计算问题所需要的时间,我们可以通过利用编程语言显
Python中文社区
2018/01/31
2.7K0
Python多进程并行编程实践:以multiprocessing模块为例
Python3 与 C# 并发编程之~ 进程实战篇
之前说过 Queue:在 Process之间使用没问题,用到 Pool,就使用 Manager().xxx, Value和 Array,就不太一样了:
逸鹏
2018/09/07
9480
Python3 与 C# 并发编程之~ 进程实战篇
《Python分布式计算》 第3章 Python的并行计算 (Distributed Computing with Python)多线程多进程多进程队列一些思考总结
我们在前两章提到了线程、进程,还有并发编程。我们在很高的层次,用抽象的名词,讲了如何组织代码,已让其部分并发运行,在多个CPU上或在多台机器上。 本章中,我们会更细致的学习Python是如何使用多个CPU进行并发编程的。具体目标是加速CPU密集型任务,提高I/O密集型任务的反馈性。 好消息是,使用Python的标准库就可以进行并发编程。这不是说不用第三方的库或工具。只是本章中的代码仅仅利用到了Python的标准库。 本章介绍如下内容: 多线程 多进程 多进程队列 多线程 Python从1.4版本开始就支持多
SeanCheney
2018/04/24
1.6K0
《Python分布式计算》 第3章 Python的并行计算 (Distributed Computing with Python)多线程多进程多进程队列一些思考总结
一篇文章搞定Python多进程(全)
前面写了三篇关于python多线程的文章,大概概况了多线程使用中的方法,文章链接如下:
南山烟雨
2019/05/05
6450
一篇文章搞定Python多进程(全)
Python 多进程
上面的代码开启了5个子进程去执行函数,我们可以观察结果,是同时打印的,这里实现了真正的并行操作,就是多个CPU同时执行任务。我们知道进程是python中最小的资源分配单元,也就是进程中间的数据,内存是不共享的,每启动一个进程,都要独立分配资源和拷贝访问的数据,所以进程的启动和销毁的代价是比较大了,所以在实际中使用多进程,要根据服务器的配置来设定。
为为为什么
2022/08/05
3920
一篇文章搞定Python多进程
Python中的多进程是通过multiprocessing包来实现的,和多线程的threading.Thread差不多,它可以利用multiprocessing.Process对象来创建一个进程对象。这个进程对象的方法和线程对象的方法差不多也有start(), run(), join()等方法,其中有一个方法不同Thread线程对象中的守护线程方法是setDeamon,而Process进程对象的守护进程是通过设置daemon属性来完成的。
程序员鑫港
2022/01/05
5750
推荐阅读
相关推荐
想用Python爬小姐姐图片?那你得先搞定分布式进程
更多 >
LV.0
这个人很懒,什么都没有留下~
目录
  • 决策树在sklearn的应用
    • 解决两个重点问题
    • sklearn中的决策树
  • 建模的基本流程
  • 重要参数
  • 导入模块和库
  • 数据生成和信息查看
  • 重点:如何将样本数据集和输出标签生成表格形式
  • 建模过程
  • 画图
  • 结果信息
  • 剪枝参数
  • 重要属性和接口
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档