机器学习实战 | 第一章:sklearn常用工具介绍

写在前面: 花了大力气学了很多的理论,也用Python实现了其中大部分的算法.接下来开始就进入实战阶段了.

实战阶段有三个重点:

1.选择合适的机器学习框架来减轻负担 2.怎么把实际的问题抽闲成为机器学习的问题 3.理论和实践切换

接下来的过程中,会经常性的使用scikit-learn和pandas等等工具来把理论部分的算法都过一遍.然后讲讲算法在实践中的作用.

scikit-learn自带数据集

scikit-learn自身带了一些数据集,这些数据集通常比较简单常见的.这些数据集可能还做不到足以模拟解决现实生活中的问题.但是用来作为学习或者测试机器学习的工具还是非常有作用的.这里只小小的介绍一下常用的数据集.

load_boston

载入和返回波士顿房价的数据集(回归问题常用).

数据集信息:

样本数:506 维度:13 特征类型:正实数

sklearn.datasets.load_boston(return_X_y=False)

参数: return_X_y : 布尔值,默认为False,如果是True的话,返回(data, target)代替Bunch对象. 返回值: Bunch对象.类似于字典的对象.其中的属性有:‘data’, the data to learn, ‘target’, the regression targets, and ‘DESCR’, the full description of the dataset. 或者是(data, target) :当return_X_y设为True的时候.

例子:

from sklearn.datasets import load_boston
boston=load_boston()
print("type of boston",type(boston))
print("data of boston:",boston.data.shape)
print("target of boston:",boston.target.shape)

结果:

load_iris

载入和返回的鸢尾植物信息的数据集(分类问题常用).

数据集信息:

样本数:150(每个类别50个样本) 维度:4 类别:3类 特征类型:正实数

然后其他的载入方式什么的都和之前的boston房价是差不多的,可以类比使用.

列子:

from sklearn.datasets import load_iris

iris=load_iris()
print("type of iris:",type(iris))
print("data shape of iris:",iris.data.shape)
print("target of iris",iris.target)
print("target names:",iris.target_names)

结果:

load_diabetes

load_digits load_linnerud

原文发布于微信公众号 - 人工智能LeadAI(atleadai)

原文发表时间:2017-09-01

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Python攻城狮

Python数据科学(六)- 资料清理(Ⅰ)1.Pandas1.资料筛选2.侦测遗失值3.补齐遗失值

成功爬取到我们所需要的数据以后,接下来应该做的是对资料进行清理和转换, 很多人遇到这种情况最自然地反应就是“写个脚本”,当然这也算是一个很好的解决方法,但是,p...

14030
来自专栏CSDN技术头条

数据可视化的10个关键术语

Format 交互方式 Interactive visualisations allow you to modify, manipulate and explo...

21170
来自专栏AI研习社

自动文本摘要

摘要的主要思想是找到包含整个集合的“信息”的数据子集。这种技术在今天的工业中被广泛使用。搜索引擎就是一个例子;其他的例子包括文档、图像集合和视频的汇总。文档摘要...

40610
来自专栏懒人开发

(7.1)James Stewart Calculus 5th Edition:Integration by Parts

注意: 这样做,目的是为了 降阶, 如果转换后,对应的没有起到 降阶 的作用,就没有什么意义了

11510
来自专栏算法修养

文本分类学习 (十)构造机器学习Libsvm 的C# wrapper(调用c/c++动态链接库)

前言: 对于SVM的了解,看前辈写的博客加上读论文对于SVM的皮毛知识总算有点了解,比如线性分类器,和求凸二次规划中用到的高等数学知识。然而SVM最核心的地方应...

10720
来自专栏新智元

深度学习挑战冯·诺依曼结构

【新智元导读】想挑战冯·诺依曼,就必须从三个要素入手:基本操作,例如加减乘除;逻辑流程控制,例如if-else-then,for,while;设存储器,内存和硬...

407110
来自专栏CreateAMind

神经网络图灵机(Neural Turing Machines, NTM)论文完整翻译

16140
来自专栏IT派

从框架优缺点说起,这是一份TensorFlow入门极简教程

这一系列教程分为 6 部分,从为什么选择 TensorFlow 到卷积神经网络的实现,介绍了初学者所需要的技能。机器之心在本文介绍了 PyTorch 和 Caf...

21820
来自专栏机器之心

从框架优缺点说起,这是一份TensorFlow入门极简教程

23680
来自专栏机器学习算法工程师

深入理解TensorFlow中的tf.metrics算子

本文翻译自Avoiding headaches with tf.metrics,原作者保留版权。

40820

扫码关注云+社区

领取腾讯云代金券