机器学习实战 | 第一章:sklearn常用工具介绍

写在前面: 花了大力气学了很多的理论,也用Python实现了其中大部分的算法.接下来开始就进入实战阶段了.

实战阶段有三个重点:

1.选择合适的机器学习框架来减轻负担 2.怎么把实际的问题抽闲成为机器学习的问题 3.理论和实践切换

接下来的过程中,会经常性的使用scikit-learn和pandas等等工具来把理论部分的算法都过一遍.然后讲讲算法在实践中的作用.

scikit-learn自带数据集

scikit-learn自身带了一些数据集,这些数据集通常比较简单常见的.这些数据集可能还做不到足以模拟解决现实生活中的问题.但是用来作为学习或者测试机器学习的工具还是非常有作用的.这里只小小的介绍一下常用的数据集.

load_boston

载入和返回波士顿房价的数据集(回归问题常用).

数据集信息:

样本数:506 维度:13 特征类型:正实数

sklearn.datasets.load_boston(return_X_y=False)

参数: return_X_y : 布尔值,默认为False,如果是True的话,返回(data, target)代替Bunch对象. 返回值: Bunch对象.类似于字典的对象.其中的属性有:‘data’, the data to learn, ‘target’, the regression targets, and ‘DESCR’, the full description of the dataset. 或者是(data, target) :当return_X_y设为True的时候.

例子:

from sklearn.datasets import load_boston
boston=load_boston()
print("type of boston",type(boston))
print("data of boston:",boston.data.shape)
print("target of boston:",boston.target.shape)

结果:

load_iris

载入和返回的鸢尾植物信息的数据集(分类问题常用).

数据集信息:

样本数:150(每个类别50个样本) 维度:4 类别:3类 特征类型:正实数

然后其他的载入方式什么的都和之前的boston房价是差不多的,可以类比使用.

列子:

from sklearn.datasets import load_iris

iris=load_iris()
print("type of iris:",type(iris))
print("data shape of iris:",iris.data.shape)
print("target of iris",iris.target)
print("target names:",iris.target_names)

结果:

load_diabetes

load_digits load_linnerud

原文发布于微信公众号 - 人工智能LeadAI(atleadai)

原文发表时间:2017-09-01

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器学习原理

图像处理和数据增强图片处理数据增强颜色空间转换噪音数据的加入样本不均衡

2944
来自专栏决胜机器学习

有趣的算法(十一) ——分治法:大数相乘

有趣的算法(十一)——分治法:大数相乘 (原创内容,转载请注明来源,谢谢) 太大的两个数字相乘,有可能会超出计算机的位数,需要人工进行转化。 1、原始解法 最...

2883
来自专栏数据科学学习手札

(数据科学学习手札38)ggplot2基本图形简述

  上一篇中我们介绍了ggplot2的基本语法规则,为了生成各种复杂的叠加图层,需要了解ggplot2中一些基本的几何图形的构造规则,本文便就常见的基础几何图形...

2222
来自专栏杨熹的专栏

[图解DS基础概念]Critical value,Alpha,Z-score,P-value 关系

参考 ? ---- critical value 临界值 +-1.96 叫 critical value 临界值,是拒绝域的边界: 例如某个实验中计算出 z s...

3576
来自专栏前端新视界

使用 JavaScript 和 canvas 做精确的像素碰撞检测

原文:Pixel accurate collision detection with Javascript and Canvas 译者:nzbin 我正在开...

4059
来自专栏小鹏的专栏

02 The TensorFlow Way(1)

The TensorFlow Way Introduction:          现在我们介绍了TensorFlow如何创建张量,使用变量和占位符,我们将介...

18410
来自专栏章鱼的慢慢技术路

浅谈图的深度优先遍历

1419
来自专栏有趣的Python

7- 深度学习之神经网络核心原理与算法-模型的保存与加载

1225
来自专栏CVer

TensorFlow从入门到精通 | 01 简单线性模型(上篇)

[TensorFlow从入门到精通] 01 简单线性模型(上)介绍了TensorFlow如何加载MNIST、定义数据维度、TensorFlow图、占位符变量和O...

632
来自专栏PPV课数据科学社区

【学习】ggplot2绘图入门系列之二:图层控制与直方图

如前文所述,ggplot2使用图层将各种图形元素逐步添加组合,从而形成最终结果。第一层必须是原始数据层,其中data参数控制数据来源,注意数据形式...

2526

扫描关注云+社区