Python快速实战机器学习(3) 线性分类器

引言

机器学习是如今人工智能时代背景下一个重要的领域。这个“Python快速实战机器学习”系列,用Python代码实践机器学习里面的算法,旨在理论和实践同时进行,快速掌握知识。

前面课程:

Python快速实战机器学习(1) 教材准备

Python快速实战机器学习(2) 数据预处理

概要

1、复习sklearn数据进行预处理;

2、掌握sklearn线性分类器使用;

3、学会使用画图来展示和理解分类结果;

数据预处理

这次我们依然用Iris数据集作为实验对象:

import numpy as np
from sklearn import datasets
iris = datasets.load_iris()
X = iris.data[:,[2,3]]
y = iris.target

print (y.size)

我们打印y的大小,发现数据量有150个。为了形象展示今天的分类任务,我们把这150个数据的三种类别用图画出来:

import matplotlib.pyplot as plt

plt.scatter(X[:50,0], X[:50,1], color='red', marker = 's', label = '1')
plt.scatter(X[50:100,0], X[50:100,1], color='blue', marker = 'x', label = '2')
plt.scatter(X[100:150,0], X[100:150,1], color='green', marker = 'o', label = '2')
plt.xlabel('$x_1$')
plt.ylabel('$x_2$')
plt.legend(loc='upper left')
plt.show()

运行结果:

上面的图很好地展示了Iris的三种类别,我们这次的目标就是训练一个分类器模型区分不同的Iris。这在之前我们还需要对数据进行预处理。

为了评估训练好的模型对新数据的预测能力,我们先把Iris训练集分割为两部分:训练集和测试集。

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split( X , y , test_size = 0.3, random_state = 0)

print (X_train.shape)
print (X_test.shape)

通过调用train_tset_split方法我们将数据集随机分为两部分,测试集占30%(45个样本),训练集占70%(105个样本)。

现在我们可以直接调用sklearn中的StandardScaler来对特征进行标准化:

from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
sc.fit(X_train)
X_train_std = sc.transform(X_train)
X_test_std = sc.transform(X_test)

print (np.mean(X_train_std))
print (np.var(X_train_std))

上面的代码中我们先从preprocessing模块中读取StandardScaler类,然后得到一个初始化的StandardScaler新对象sc,使用fit方法,StandardScaler对训练集中每一维度特征计算出(样本平均值)和(标准差),然后调用transform方法对数据集进行标准化。注意我们用相同的标准化参数对待训练集和测试集。

通过打印X_train_std的均值和方差,我们可以发现标准化的确把训练的均值变成0,方差变成1。这就是数据标准化的意义所在。

一切准备就绪后,我们可以进行线性分类器模型的训练了。

线性分类器

顾名思义,线性分类器是用线性模型对于Iris数据集进行分类。在sklearn工具库中,我们从linear_model模型读取Perceptron类,然后初始化得到ppn,接着使用fit方法训练一个模型。这里的eta0就是学习率,max_iter表示对训练集迭代的次数。我们设置random_state参数使得shuffle结果可再现。

from sklearn.linear_model import Perceptron

ppn = Perceptron(max_iter=40, eta0=0.1, random_state=0)
ppn.fit(X_train_std, y_train)

训练好感知机模型后,我们可以使用predict方法进行预测了:

y_pred = ppn.predict(X_test_std)
print ('Misclassified samples:%d' % (Y_test != y_pred).sum())

对于测试集中45个样本,有5个样本被错分类了。除了使用错分类率,我们也可以使用分类准确率(accuracy)评价模型,accuracy=1-miscassification error 。Sklearn中包含了许多评价指标,这些指标都位于metrics模块,比如,我们可以计算分类准确率:

from sklearn.metrics import accuracy_score
print ('Accuracy: %.2f' % accuracy_score(y_test, y_pred))

最后,我们使用plot_decision_regions画出分界区域:

from matplotlib.colors import ListedColormap
import matplotlib.pyplot as plt
import warnings

def versiontuple(v):
    return tuple(map(int, (v.split("."))))

def plot_decision_regions(X, y, classifier, test_idx=None, resolution=0.02):

    # setup marker generator and color map
    markers = ('s', 'x', 'o', '^', 'v')
    colors = ('red', 'blue', 'lightgreen', 'gray', 'cyan')
    cmap = ListedColormap(colors[:len(np.unique(y))])

    # plot the decision surface
    x1_min, x1_max = X[:, 0].min() - 1, X[:, 0].max() + 1
    x2_min, x2_max = X[:, 1].min() - 1, X[:, 1].max() + 1
    xx1, xx2 = np.meshgrid(np.arange(x1_min, x1_max, resolution),
                           np.arange(x2_min, x2_max, resolution))
    Z = classifier.predict(np.array([xx1.ravel(), xx2.ravel()]).T)
    Z = Z.reshape(xx1.shape)
    plt.contourf(xx1, xx2, Z, alpha=0.4, cmap=cmap)
    plt.xlim(xx1.min(), xx1.max())
    plt.ylim(xx2.min(), xx2.max())

    for idx, cl in enumerate(np.unique(y)):
        plt.scatter(x=X[y == cl, 0], 
                    y=X[y == cl, 1],
                    alpha=0.6, 
                    c=cmap(idx),
                    edgecolor='black',
                    marker=markers[idx], 
                    label=cl)

    # highlight test samples
    if test_idx:
        # plot all samples
        if not versiontuple(np.__version__) >= versiontuple('1.9.0'):
            X_test, y_test = X[list(test_idx), :], y[list(test_idx)]
            warnings.warn('Please update to NumPy 1.9.0 or newer')
        else:
            X_test, y_test = X[test_idx, :], y[test_idx]

        plt.scatter(X_test[:, 0],
                    X_test[:, 1],
                    c='',
                    alpha=1.0,
                    edgecolor='black',
                    linewidths=1,
                    marker='o',
                    s=55, label='test set')

定义好了画图函数后,我们带入数据调用:

X_combined_std = np.vstack((X_train_std, X_test_std))
y_combined = np.hstack((y_train, y_test))

plot_decision_regions(X=X_combined_std, y=y_combined,
                      classifier=ppn, test_idx=range(105, 150))
plt.xlabel('petal length [standardized]')
plt.ylabel('petal width [standardized]')
plt.legend(loc='upper left')

plt.tight_layout()
# plt.savefig('./figures/iris_perceptron_scikit.png', dpi=300)
plt.show()

运行结果:

从图中我们看出来线性模型虽然一定程度上可以完成分类,但是效果并没有那么理想。所以它只适合于非常简单的分类任务。下一节课我们介绍一个比较厉害的分类器。

本文分享自微信公众号 - Python与机器学习之路(gh_39aead19f756)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-10-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PowerBI战友联盟

【必杀】免费体验 PowerBI Premium 旗舰版

PowerBI 战友联盟,是中国范围内由 PowerBI 从业者发起的专业学习现代商业智能的组织,我们以 PowerBI 为主题研究如何帮助企业和个人提升数字化...

12330
来自专栏汇智网教程

小白如何入门机器学习?

机器学习作为人工智能领域的一个重要主题,已经被大家关注相当一段时间了。机器学习提供了有吸引力的机会,进入这一领域工作并不像想像中那么困难。即使你在数学或编程方面...

11140
来自专栏汇智网教程

用sklearn流水线优化机器学习流程

在大多数机器学习项目中,你要处理的数据不大可能恰好是生成最优模型的理想格式。有很多数据变换的步骤例如分类变量编码、特征缩放和归一化需要执行。Scikit-lea...

9230
来自专栏PowerBI战友联盟

PowerBI 已集成 AI 功能 零代码人人可用

微软的使命是:赋能这个星球的每个人和组织,使他们获得更多。 你有感觉被微软赋能吗?如果你没有感觉到,那有两种可能:要么是你根本不知道不行动,要么是微软还需要努力...

10220
来自专栏大数据和机器学习

lda模型小记

lda模型是一个词袋模型,它认为一个文档由一组关键的词构成,这些词之间没有先后顺序,一篇文档可以有很多个主题,文档中的每个词都来自于这些主题中的其中一个。它是一...

14000
来自专栏Python数据科学

手把手教你入门和实践特征工程 的全方位万字笔记,附代码下载

(注:本节用到了两个数据集,分别是Salary_Ranges_by_Job_Classification 和 GlobalLandTemperaturesByC...

7410
来自专栏机器之心

美人秀色空绝世,我用PS-GAN试伊妆

近日,北京航空航天大学和中国科学院大学等机构的研究者新提出的姿态稳健型空间可感知式 GAN(PSGAN),可以很方便地实现可定制化的妆容迁移,真可谓:美人秀色空...

23230
来自专栏Python数据科学

80页笔记看遍机器学习基本概念、算法、模型,帮新手少走弯路

本文要介绍的是一份长约 80 页的学习笔记,旨在总结机器学习的一系列基本概念(如梯度下降、反向传播等),不同的机器学习算法和流行模型,以及一些作者在实践中学到的...

9010
来自专栏PowerBI战友联盟

饕餮盛宴:微软定义BI未来 新PowerBI全解读

2018 PASS峰会于 11.5~11.9 举行完毕,本文描述PASS峰会中有关PowerBI企业现代商务智能的进展以及未来展望,绝对震撼,超乎想象。

11310
来自专栏机器之心

AI提前18个月预测厄尔尼诺自然灾害,已登Nature和Science

可怕的厄尔尼诺每 2 到 7 年就会爆发一次,导致非洲南部出现干旱、南美野火肆虐以及北美太平洋海岸洪水泛滥,有效的厄尔尼诺预警能够减低经济损失。近日,韩国全南大...

11340

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励