作者:陆勤(专注机器学习研究和应用)
基于scikit-learn的机器学习简介,包括以下内容:
机器学习:问题集
一般而言,一个学习问题会考虑n个样本数据集,并尝试着预测不知道数据的特性。每个样本可能包含多个属性,称之为维度或者变量或者特征。可以用一个数据矩阵来描述,行表示一个个实例,列表示一个个特征。
机器学习可以粗略地划分为:
监督学习,包括分类和回归,都属于预测问题的范畴,前者预测实例中所关注的某个定性变量,即分类;后者预测实例中所关注的某个定性变量,即回归。
无监督学习,包括聚类、密度估计和降维。聚类揭示实例的相似性;密度估计描述数据的分布情况;降维删除那些不重要的或者不相关的特征。
训练数据集和测试数据集因为我们要对模型进行评估,因而我们把已有的数据进行划分,分为训练数据集,用来训练模型;测试数据集,用来测试模型。 |
---|
装载实例数据
Python机器学习库scikit-learn已经提供了一些标准的数据集,供我们使用,比方说iris数据集和digits数据集,可以研究分类;boston的房价数据集,可以研究回归。
在IPython环境下,装载iris数据集和digits数据集,代码清单如下:
实例的目标变量在.target的数据集中,其他变量在.data的数据集中。
学习和预测
使用支持向量机模型,对数据集进行学习和预测,代码清单如下:
模型的持久性
使用pickle库把模型进行保存,基于iris数据集的一个Demo实例,代码清单如下:
使用pickle库把模型进行保存,实现模型持久性,代码清单如下:
或者使用joblib库同样解决模型持久性,代码清单如下
这种方法针对大数据更有效。
约定俗成
这种约定俗成可以让操作更有效。
类型转换
代码清单如下。
这个clf.predict()函数返回值是整数类型。
这个clf.predict()函数返回值是字符类型。
重置或者更新参数
代码清单如下。
第一种和参数是线性。
下面设置核函数为RBF,代码清单如下:
参考资料:
1 网址:http://scikit-learn.org/stable/tutorial/basic/tutorial.html
2 书籍:《Python学习手册(第四版)》第8章列表与字典
PPV课原创文章,转载请注明出处!
1、回复“数据分析师”查看数据分析师系列文章
2、回复“案例”查看大数据案例系列文章
3、回复“征信”查看相关征信的系列文章
4、回复“可视化”查看可视化专题系列文章
5、回复“SPPS”查看SPSS系列文章
6、回复“答案”查看hadoop面试题题目及答案
7、回复“爱情”查看大数据与爱情的故事
8、回复“笑话”查看大数据系列笑话
9、回复“大数据1、大数据2、大数据3、大数据4”查看大数据历史机遇连载
PPV课大数据ID: ppvke123 (长按可复制)
大数据人才的摇篮!专注大数据行业人才的培养。每日一课,大数据(EXCEL、SAS、SPSS、Hadoop、CDA)视频课程。大数据资讯,每日分享!数据咖—PPV课数据爱好者俱乐部!