前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >基于scikit-learn的机器学习简介

基于scikit-learn的机器学习简介

作者头像
小莹莹
发布2018-04-23 16:20:42
7840
发布2018-04-23 16:20:42
举报

基于scikit-learn的机器学习简介

作者:陆勤(专注机器学习研究和应用)

基于scikit-learn的机器学习简介,包括以下内容:

  • 机器学习:问题集
  • 装载实例数据
  • 学习和预测
  • 模型持久性
  • 约定俗称

机器学习:问题集

一般而言,一个学习问题会考虑n个样本数据集,并尝试着预测不知道数据的特性。每个样本可能包含多个属性,称之为维度或者变量或者特征。可以用一个数据矩阵来描述,行表示一个个实例,列表示一个个特征。

机器学习可以粗略地划分为:

监督学习,包括分类和回归,都属于预测问题的范畴,前者预测实例中所关注的某个定性变量,即分类;后者预测实例中所关注的某个定性变量,即回归。

无监督学习,包括聚类、密度估计和降维。聚类揭示实例的相似性;密度估计描述数据的分布情况;降维删除那些不重要的或者不相关的特征。

训练数据集和测试数据集因为我们要对模型进行评估,因而我们把已有的数据进行划分,分为训练数据集,用来训练模型;测试数据集,用来测试模型。

装载实例数据

Python机器学习库scikit-learn已经提供了一些标准的数据集,供我们使用,比方说iris数据集和digits数据集,可以研究分类;boston的房价数据集,可以研究回归。

在IPython环境下,装载iris数据集和digits数据集,代码清单如下:

实例的目标变量在.target的数据集中,其他变量在.data的数据集中。

学习和预测

使用支持向量机模型,对数据集进行学习和预测,代码清单如下:

模型的持久性

使用pickle库把模型进行保存,基于iris数据集的一个Demo实例,代码清单如下:

使用pickle库把模型进行保存,实现模型持久性,代码清单如下:

或者使用joblib库同样解决模型持久性,代码清单如下

这种方法针对大数据更有效。

约定俗成

这种约定俗成可以让操作更有效。

类型转换

代码清单如下。

这个clf.predict()函数返回值是整数类型。

这个clf.predict()函数返回值是字符类型。

重置或者更新参数

代码清单如下。

第一种和参数是线性。

下面设置核函数为RBF,代码清单如下:

参考资料:

1 网址:http://scikit-learn.org/stable/tutorial/basic/tutorial.html

2 书籍:《Python学习手册(第四版)》第8章列表与字典

PPV课原创文章,转载请注明出处!

1、回复“数据分析师”查看数据分析师系列文章

2、回复“案例”查看大数据案例系列文章

3、回复“征信”查看相关征信的系列文章

4、回复“可视化”查看可视化专题系列文章

5、回复“SPPS”查看SPSS系列文章

6、回复“答案”查看hadoop面试题题目及答案

7、回复“爱情”查看大数据与爱情的故事

8、回复“笑话”查看大数据系列笑话

9、回复“大数据1、大数据2、大数据3、大数据4”查看大数据历史机遇连载

PPV课大数据ID: ppvke123 (长按可复制)

大数据人才的摇篮!专注大数据行业人才的培养。每日一课,大数据(EXCEL、SAS、SPSS、Hadoop、CDA)视频课程。大数据资讯,每日分享!数据咖—PPV课数据爱好者俱乐部!

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2015-11-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 PPV课数据科学社区 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 基于scikit-learn的机器学习简介
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档