Python3入门机器学习(四)(补)- sklearn 中使用knn算法的总结整理

机器学习流程回顾

回顾

1.将数据集分成训练数据集合测试数据集 2.将训练数据集进行归一化 3.使用训练数据集的均值和方差将测试数据集归一化 4.使用训练数集训练处模型 5.使用归一化后的测试数据集测试分类的准确度(accuracy) 6.使用网格搜索寻找最好的超参数,然后回到1-5

机器学习总过程

1

数据归一化总过程

2


1.将数据集分割成测试数据集合训练数据集

from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(X,y)

2.将数据集进行归一化处理

from sklearn.preprocessing import StandardScaler
standardScaler = StandardScaler()
# 存放了均值方差归一化所对应的信息
standardScaler.fit(X_train)
X_train = standardScaler.transform(X_train)
X_test = standardScaler.transform(X_test)

3.创建一个KNeighborsClassifier 对象

from sklearn.neighbors import KNeighborsClassifier
sklearn_knn_clf = KNeighborsClassifier(n_neighbors=6)

4.使用KNeighborsClassifier 对象进行fit创建出模型

sklearn_knn_clf.fit(X_train,y_train)

5.使用训练数据集得出分类准确度

sklearn_knn_clf.score(X_test,y_test)

6.使用我们的模型预测新的数据

y_predict = sklearn_knn_clf.predict(X_test)

7.探索超参数

# array<dict<参数名:参数可能的取值>>
param_grid =[
    {
        'weights':['uniform'],
        'n_neighbors': [i for i in range(1,11)]
    },
    {
        'weights':['distance'],
        'n_neighbors': [i for i in range(1,11)],
        'p': [i for i in range(1,6)]
    }
]

# 先new一个默认的Classifier对象
knn_clf = KNeighborsClassifier()

# 调用GridSearchCV创建网格搜索对象,传入参数为Classifier对象以及参数列表
from sklearn.model_selection import GridSearchCV

grid_search = GridSearchCV(knn_clf,param_grid)

# 调用fit方法执行网格搜索
%%time
grid_search.fit(X_train,y_train)

# 获得最好的评估结果,返回的是KNeighborsClassifier对象,可以直接拿来做机器学习预测了
grid_search.best_estimator_

# 最好的分数
grid_search.best_score_

# 最好的参数
grid_search.best_params_

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏木子昭的博客

万能的0和1 之 字典特征抽取

机器是无法识别自然语言的,机器只能识别0和1,经典的案例就是字典特征抽取 0表示不存在 1表示存在 以国漫人物信息,做示例 原始数据 ? ...

31280
来自专栏贾志刚-OpenCV学堂

使用tensorflow layers相关API快速构建卷积神经网络

tf.layers包中包含了CNN卷积神经网络的大多数层类型,当前封装支持的层包括:

18030
来自专栏CreateAMind

keras doc 4 使用陷阱与模型

11510
来自专栏机器学习算法与Python学习

Machine learning -- C4.5算法详解及Python实现

程序实现部分转自 Wsine的博客小站 地址:http://www.cnblogs.com/wsine/p/5180315.html C4.5是一系列用在机器...

63980
来自专栏简书专栏

房产估值模型训练及预测结果

本文房产估值模型源数据为厦门市房价数据,文件下载链接: https://pan.baidu.com/s/1vOact6MsyZZlTSxjmMqTbw 密码: ...

47540
来自专栏数据科学与人工智能

【Python环境】使用 scikit-learn 进行机器学习的简介

概要: 该章节,我们将介绍贯穿scikit-learn使用中的“机器学习(Machine Learning)”这个词汇,并给出一些简单的学习示例。 一、机器学习...

301100
来自专栏编程

图像处理基础

作者简介 本文来自鲍骞月的投稿,主要讲解图像处理基础,欢迎大家积极留言,提出你的疑问或者建议,与投稿小伙伴交流。 GitHub地址:https://github...

23960
来自专栏PaddlePaddle

【序列到序列学习】使用Scheduled Sampling改善翻译质量

生成古诗词 序列到序列学习实现两个甚至是多个不定长模型之间的映射,有着广泛的应用,包括:机器翻译、智能对话与问答、广告创意语料生成、自动编码(如金融画像编码)...

1.2K50
来自专栏文武兼修ing——机器学习与IC设计

使用numpy构建多层感知机目标其他组件网络训练与测试

import numpy as np 目标 使用numpy实现多层感知机的正向和反向传播 层次构建 全连接层 正向传播 正向传播的公式为:$Y = f(W \t...

381110
来自专栏ACM算法日常

leetcode题解 | 48. 旋转图像

你必须在原地旋转图像,这意味着你需要直接修改输入的二维矩阵。请不要使用另一个矩阵来旋转图像。

11310

扫码关注云+社区

领取腾讯云代金券