机器学习实战 | 第一章:sklearn常用工具介绍

写在前面: 花了大力气学了很多的理论,也用Python实现了其中大部分的算法.接下来开始就进入实战阶段了.

实战阶段有三个重点:

1.选择合适的机器学习框架来减轻负担 2.怎么把实际的问题抽闲成为机器学习的问题 3.理论和实践切换

接下来的过程中,会经常性的使用scikit-learn和pandas等等工具来把理论部分的算法都过一遍.然后讲讲算法在实践中的作用.

scikit-learn自带数据集

scikit-learn自身带了一些数据集,这些数据集通常比较简单常见的.这些数据集可能还做不到足以模拟解决现实生活中的问题.但是用来作为学习或者测试机器学习的工具还是非常有作用的.这里只小小的介绍一下常用的数据集.

load_boston

载入和返回波士顿房价的数据集(回归问题常用).

数据集信息:

样本数:506 维度:13 特征类型:正实数

sklearn.datasets.load_boston(return_X_y=False)

参数: return_X_y : 布尔值,默认为False,如果是True的话,返回(data, target)代替Bunch对象. 返回值: Bunch对象.类似于字典的对象.其中的属性有:‘data’, the data to learn, ‘target’, the regression targets, and ‘DESCR’, the full description of the dataset. 或者是(data, target) :当return_X_y设为True的时候.

例子:

from sklearn.datasets import load_boston
boston=load_boston()
print("type of boston",type(boston))
print("data of boston:",boston.data.shape)
print("target of boston:",boston.target.shape)

结果:

load_iris

载入和返回的鸢尾植物信息的数据集(分类问题常用).

数据集信息:

样本数:150(每个类别50个样本) 维度:4 类别:3类 特征类型:正实数

然后其他的载入方式什么的都和之前的boston房价是差不多的,可以类比使用.

列子:

from sklearn.datasets import load_iris

iris=load_iris()
print("type of iris:",type(iris))
print("data shape of iris:",iris.data.shape)
print("target of iris",iris.target)
print("target names:",iris.target_names)

结果:

load_diabetes

load_digits load_linnerud

原文发布于微信公众号 - 人工智能LeadAI(atleadai)

原文发表时间:2017-09-01

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏程序你好

使用ML.Net和CSharp语言进行机器学习

本文介绍.net中的机器学习技术实现,不涉及数学方面的内容。它将重点关注在.net中的基本工作流程及其数据处理结构,以及怎么样通过使用开源项目ML.Net 0....

1873
来自专栏机器之心

终于!TensorFlow引入了动态图机制Eager Execution

42711
来自专栏AI研习社

谷歌推出开源 Python 库“Tangent”,支持前向模式自动微分

日前,Google Research Blog 推出开源 Python 库“Tangent”。据介绍,这个库与现有的机器学习库相比,存在诸多优势,可以大大改善了...

3415
来自专栏月色的自留地

Grapher--寂寞无名的神器

1677
来自专栏技术专栏

自己实现一个滑动窗口

上述计算中的alpha的值是一个0~1之间的常量,aplha值决定了一段时间内的平滑水平,alpha越趋于1,历史值对当前的平均值的影响越大,反之亦然

511
来自专栏CreateAMind

神经网络图灵机(Neural Turing Machines, NTM)论文完整翻译

1054
来自专栏鸿的学习笔记

写给开发者的机器学习指南(七)

Classifying email as spam or ham (NaiveBayes)

1001
来自专栏机器学习和数学

[Tensorflow] TensorFlow之Hello World!(1)

哇!今天挺开心的,30天的时间,19篇文章,2459人阅读,5313人次阅读!今天开通的原创标识,恩!除了激动,就是非常感谢大家的支持!感谢大家的支持!大家的支...

3136
来自专栏AI科技评论

开发 | 谷歌推出开源 Python 库“Tangent”,支持前向模式自动微分

AI科技评论消息:日前,Google Research Blog 推出开源 Python库“Tangent”。据介绍,这个库与现有的机器学习库相比,存在诸多优势...

2675
来自专栏PaddlePaddle

【序列到序列学习】带外部记忆机制的神经机器翻译

生成古诗词 序列到序列学习实现两个甚至是多个不定长模型之间的映射,有着广泛的应用,包括:机器翻译、智能对话与问答、广告创意语料生成、自动编码(如金融画像编码)...

2624

扫码关注云+社区