首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Python快速实战机器学习(3) 线性分类器

Python快速实战机器学习(3) 线性分类器

作者头像
HuangWeiAI
发布2019-10-14 17:39:40
2.7K0
发布2019-10-14 17:39:40
举报
文章被收录于专栏:浊酒清味浊酒清味

引言

机器学习是如今人工智能时代背景下一个重要的领域。这个“Python快速实战机器学习”系列,用Python代码实践机器学习里面的算法,旨在理论和实践同时进行,快速掌握知识。

前面课程:

Python快速实战机器学习(1) 教材准备

Python快速实战机器学习(2) 数据预处理

概要

1、复习sklearn数据进行预处理;

2、掌握sklearn线性分类器使用;

3、学会使用画图来展示和理解分类结果;

数据预处理

这次我们依然用Iris数据集作为实验对象:

import numpy as np
from sklearn import datasets
iris = datasets.load_iris()
X = iris.data[:,[2,3]]
y = iris.target

print (y.size)

我们打印y的大小,发现数据量有150个。为了形象展示今天的分类任务,我们把这150个数据的三种类别用图画出来:

import matplotlib.pyplot as plt

plt.scatter(X[:50,0], X[:50,1], color='red', marker = 's', label = '1')
plt.scatter(X[50:100,0], X[50:100,1], color='blue', marker = 'x', label = '2')
plt.scatter(X[100:150,0], X[100:150,1], color='green', marker = 'o', label = '2')
plt.xlabel('$x_1$')
plt.ylabel('$x_2$')
plt.legend(loc='upper left')
plt.show()

运行结果:

上面的图很好地展示了Iris的三种类别,我们这次的目标就是训练一个分类器模型区分不同的Iris。这在之前我们还需要对数据进行预处理。

为了评估训练好的模型对新数据的预测能力,我们先把Iris训练集分割为两部分:训练集和测试集。

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split( X , y , test_size = 0.3, random_state = 0)

print (X_train.shape)
print (X_test.shape)

通过调用train_tset_split方法我们将数据集随机分为两部分,测试集占30%(45个样本),训练集占70%(105个样本)。

现在我们可以直接调用sklearn中的StandardScaler来对特征进行标准化:

from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
sc.fit(X_train)
X_train_std = sc.transform(X_train)
X_test_std = sc.transform(X_test)

print (np.mean(X_train_std))
print (np.var(X_train_std))

上面的代码中我们先从preprocessing模块中读取StandardScaler类,然后得到一个初始化的StandardScaler新对象sc,使用fit方法,StandardScaler对训练集中每一维度特征计算出(样本平均值)和(标准差),然后调用transform方法对数据集进行标准化。注意我们用相同的标准化参数对待训练集和测试集。

通过打印X_train_std的均值和方差,我们可以发现标准化的确把训练的均值变成0,方差变成1。这就是数据标准化的意义所在。

一切准备就绪后,我们可以进行线性分类器模型的训练了。

线性分类器

顾名思义,线性分类器是用线性模型对于Iris数据集进行分类。在sklearn工具库中,我们从linear_model模型读取Perceptron类,然后初始化得到ppn,接着使用fit方法训练一个模型。这里的eta0就是学习率,max_iter表示对训练集迭代的次数。我们设置random_state参数使得shuffle结果可再现。

from sklearn.linear_model import Perceptron

ppn = Perceptron(max_iter=40, eta0=0.1, random_state=0)
ppn.fit(X_train_std, y_train)

训练好感知机模型后,我们可以使用predict方法进行预测了:

y_pred = ppn.predict(X_test_std)
print ('Misclassified samples:%d' % (Y_test != y_pred).sum())

对于测试集中45个样本,有5个样本被错分类了。除了使用错分类率,我们也可以使用分类准确率(accuracy)评价模型,accuracy=1-miscassification error 。Sklearn中包含了许多评价指标,这些指标都位于metrics模块,比如,我们可以计算分类准确率:

from sklearn.metrics import accuracy_score
print ('Accuracy: %.2f' % accuracy_score(y_test, y_pred))

最后,我们使用plot_decision_regions画出分界区域:

from matplotlib.colors import ListedColormap
import matplotlib.pyplot as plt
import warnings

def versiontuple(v):
    return tuple(map(int, (v.split("."))))

def plot_decision_regions(X, y, classifier, test_idx=None, resolution=0.02):

    # setup marker generator and color map
    markers = ('s', 'x', 'o', '^', 'v')
    colors = ('red', 'blue', 'lightgreen', 'gray', 'cyan')
    cmap = ListedColormap(colors[:len(np.unique(y))])

    # plot the decision surface
    x1_min, x1_max = X[:, 0].min() - 1, X[:, 0].max() + 1
    x2_min, x2_max = X[:, 1].min() - 1, X[:, 1].max() + 1
    xx1, xx2 = np.meshgrid(np.arange(x1_min, x1_max, resolution),
                           np.arange(x2_min, x2_max, resolution))
    Z = classifier.predict(np.array([xx1.ravel(), xx2.ravel()]).T)
    Z = Z.reshape(xx1.shape)
    plt.contourf(xx1, xx2, Z, alpha=0.4, cmap=cmap)
    plt.xlim(xx1.min(), xx1.max())
    plt.ylim(xx2.min(), xx2.max())

    for idx, cl in enumerate(np.unique(y)):
        plt.scatter(x=X[y == cl, 0], 
                    y=X[y == cl, 1],
                    alpha=0.6, 
                    c=cmap(idx),
                    edgecolor='black',
                    marker=markers[idx], 
                    label=cl)

    # highlight test samples
    if test_idx:
        # plot all samples
        if not versiontuple(np.__version__) >= versiontuple('1.9.0'):
            X_test, y_test = X[list(test_idx), :], y[list(test_idx)]
            warnings.warn('Please update to NumPy 1.9.0 or newer')
        else:
            X_test, y_test = X[test_idx, :], y[test_idx]

        plt.scatter(X_test[:, 0],
                    X_test[:, 1],
                    c='',
                    alpha=1.0,
                    edgecolor='black',
                    linewidths=1,
                    marker='o',
                    s=55, label='test set')

定义好了画图函数后,我们带入数据调用:

X_combined_std = np.vstack((X_train_std, X_test_std))
y_combined = np.hstack((y_train, y_test))

plot_decision_regions(X=X_combined_std, y=y_combined,
                      classifier=ppn, test_idx=range(105, 150))
plt.xlabel('petal length [standardized]')
plt.ylabel('petal width [standardized]')
plt.legend(loc='upper left')

plt.tight_layout()
# plt.savefig('./figures/iris_perceptron_scikit.png', dpi=300)
plt.show()

运行结果:

从图中我们看出来线性模型虽然一定程度上可以完成分类,但是效果并没有那么理想。所以它只适合于非常简单的分类任务。下一节课我们介绍一个比较厉害的分类器。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-10-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python与机器学习之路 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档