初步尝试 sklearn

Scikit-learn是一个用于Python编程语言的免费软件机器学习库。 它具有各种分类,回归和聚类算法,包括支持向量机,随机森林,梯度增强,k均值和DBSCAN,旨在与Python数值和科学库NumPy和SciPy互操作。

安装方法很简单 `pip3 install -U scikit-learn`

下面介绍一个简单的栗子,初步尝试sklearn。

sklearn有自带的数据集,直接导入就好,首先导入相关库

1from sklearn import datasets
2from sklearn.model_selection import train_test_split
3from sklearn.neighbors import KNeighborsClassifier

导入鸢尾花数据集

1iris = datasets.load_iris()
2iris_X = iris.data
3iris_y = iris.target
4
5print(iris_X[:5], '\n\n',iris_y)

输出:

观察一下数据集,X 有四个属性,y 有 0,1,2 三类。把数据集分为训练集和测试集,其中 test_size=0.3,即测试集占总数据的 30%。

1X_train, X_test, y_train, y_test = train_test_split(iris_X, iris_y, test_size=0.3)

Sklearn-train_test_split,会随机划分训练集和测试集。

查看下我们的数据

下一步就可以模型,然后用train数据训练得到模型,最后用模型来预测数据。

1knn = KNeighborsClassifier()
2knn.fit(X_train, y_train)
3X_predict = knn.predict(X_test)

可以看到大概模拟出了数据,但是有误差,是不会完完全全预测正确的。

模型sklearn已经很完善,调参和数据处理就很重要了。

sklearn 非常强大,值得好好钻研下。

原文发布于微信公众号 - Python爬虫与算法进阶(zhangslob)

原文发表时间:2018-10-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器学习和数学

[高大上的DL]经典网络模型总结之GoogLeNet篇

勘误:开始之前说一下,昨天介绍的环境搭建的那篇,里面我忘记写cudnn的安装说明了,只贴了在哪下载,我在word版里面已经更新了,欢迎需要的童鞋下载查看。还有一...

4394
来自专栏ATYUN订阅号

心灵阅读:使用人工神经网络预测从EEG Readings中看到的图像类别

人工神经网络如何理解我们大脑的神经网络? 在3月24日至26日的周末,ycombinator支持的创业公司DeepGram举办了一场深度学习黑客马拉松。参加这个...

3864
来自专栏大数据文摘

资源 | Kaggle数据科学项目索引表,10大类93项,更新中

为了使Kaggle上的资源获得最大化的利用,一位来自印度的数据科学家sban设计了一个数据科学模型、技术和工具的项目索引表。

960

深入学习Apache Spark和TensorFlow

要了解更多关于Apache Spark的信息,请参考Spark Summit East in the New York in Feb 2016。

2168
来自专栏CVer

ECCV 2018 收录论文名单全公布

前天从朱政研究员那里得知,ECCV 2018所有录用论文已经开放并支持PDF下载了。因为事情较多,就没来得及推送到CVer公众号,而是在Amusi的知乎专栏上推...

2803
来自专栏机器之心

资源 | 你需要的Scikit-learn中文文档:步入机器学习的完美实践教程

机器之心整理 参与:思源 Scikit-learn 中文文档已经由 ApacheCN 完成校对,这对于国内机器学习用户有非常大的帮助。该文档自 2017 年 1...

3678
来自专栏机器之心

ECCV 2018 | 给Cycle-GAN加上时间约束,CMU等提出新型视频转换方法Recycle-GAN

作者:Aayush Bansal、Shugao Ma、Deva Ramanan、Yaser Sheikh

1471
来自专栏一心无二用,本人只专注于基础图像算法的实现与优化。

水下图像增强相关算法的一个简单小结。

最近一直没有找到感兴趣的研究课题,下了几个最新的去雾的论文,随便看了下,觉得都是为了写论文而做的论文,没有什么创新性,也就没有想法去实现他们。偶尔看到了一些关...

6327
来自专栏CreateAMind

暑期课程第四课:CNN和机器视觉

772
来自专栏PPV课数据科学社区

机器学习-R-特征选择

特征选择是实用机器学习的重要一步,一般数据集都带有太多的特征用于模型构建,如何找出有用特征是值得关注的内容。 1. Feature selection: All...

4275

扫码关注云+社区

领取腾讯云代金券