【Python语言】Scikit-learn 快速入门

环境

  • ubuntu 12.04, 64 bits
  • python 2.7
  • sklearn 0.14

准备

sklearn 快速入门的官方文档7。这个文档主要描述机器学习的概念,以及如何加载数据,训练模型,保存模型。

这里提供另外一个更加详细的材料,这份材料基于ipython notebook(可选),可以在浏览器里运行代码,功能强大,演示效果非常好,github下载地址6。

  • 将材料下载到本地: git clone git@github.com:jakevdp/sklearn_pycon2013.git
  • 安装 ipython-notebook sudo easy_install "ipython>=0.13" jinja2 "tornado>=3.1.0" pyzmq sudo apt-get install ipython-notebook
  • 打开材料 cd PATH/TO/sklearn_pycon2013/notebook ipython notebook --pylab inline --pylab inline 参数可以使 notebook 在浏览器里面直接画图效果

数据

sklearn 中的数据一般存放为二维数组,形状为 [n_samples, n_feartures]。比如著名的 iris 数据集(鸢尾花)包含了三种类别的花(target),共 150 组数据(samples),每组数据由 4 个特征组成,具体来说就是:萼片的长度、萼片的宽度、花瓣的长度、花瓣的宽度。那么,iris 数据集的 data 就由 150*4 的二维数组组成。

sklearn 提供了很多数据集,一类比较小,直接打包在库中,可以通过 datasets.load_ + Tab 来查看,另一类比较大,需要下载,可以通过 datasets.fetch_ + Tab 查看,下载的目录可以通过sklearn.datasets.get_data_home()查看。

更详细的信息请参考 notebook 中的 02_sklearn_data.ipynb 文件。

接口

创建一个机器学习的模型很简单:

from sklearn.linear_model import LinearRegression
model = LinearRegression()print model

所有模型提供的接口有:

  • model.fit(): 实际上就是训练,对于监督模型来说是 fit(X, y),对于非监督模型是 fit(X)。

监督模型提供:

  • model.predict(X_new): 判别新样本
  • model.predict_proba(X_new): 某些模型可以输出概率,比如 LR,上一个输出的就是概率最大的 target
  • model.score(): 得分越高,fit 越好

非监督模型提供:

  • model.transform(): 从数据中学到新的“基空间”。
  • model.fit_transform(): 从数据中学到新的基并将这个数据按照这组“基”进行转换。

下面这个图展示了这些接口在机器学习模型中的位置:

文章来源:http://suanfazu.com/t/scikit-learn-kuai-su-ru-men/117

原文发布于微信公众号 - 数据科学与人工智能(DS_AI_shujuren)

原文发表时间:2016-03-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

Keras 2正式发布,推出深度整合进TensorFlow的新API

允中 编译整理 量子位·QbitAI 出品 今天,深度学习框架Keras在博客上发表文章,介绍了深度整合进TensorFlow的内部版本tf.keras,以及...

3438
来自专栏AI研习社

Github 项目推荐 | ANSI C 的简单神经网络库

Genann是一个经过精心测试的库,用于在 C 中训练和使用前馈人工神经网络(ANN)。它的主要特点是简单、快速、可靠和可魔改(hackable),它只需要提供...

841
来自专栏大数据智能实战

tensorflow model中目标对象检测包的编译和测试

前段时间,谷歌开放了 TensorFlow Object Detection API 的源码,并将它集成到model中。这个代码库是一个建立在 TensorFl...

2478
来自专栏瓜大三哥

基于FPGA的Canny算子设计(二)

滞后阈值分割电路设计 滞后阈值需要两个阈值:一种方法是可以根据所要提取的图片,提前定好这两个阈值;另一种方式是采用自动阈值法(如大律法)。这里采用第一种方法。 ...

2976
来自专栏新智元

横扫各项NLP任务的BERT模型有了PyTorch实现!提供转换脚本

上周,谷歌最强NLP模型BERT开源了官方TensorFlow代码和预训练模型,引起大量关注。

3012
来自专栏人工智能LeadAI

谷歌开放的TensorFlow Object Detection API 效果如何?对业界有什么影响?

熟悉TensorFlow的人都知道,tf在Github上的主页是: https://github.com/tensorflow , 然后这个主页下又有两个比较...

4278
来自专栏大数据文摘

干脆面君,你给我站住!你已经被TensorFlow盯上了

1933
来自专栏吉浦迅科技

确认过的眼神:这是一份NVIDIA TensorRT 4.0的实战教程

NVIDIA TensorRT是一个高性能的深度学习推理优化器和runtime,为深度学习推理应用程序提供低延迟和高吞吐量。您可以从每个深度学习框架中导入经过训...

4902
来自专栏ATYUN订阅号

【深度学习】图片风格转换应用程序:使用CoreML创建Prisma

WWDC 2017让我们了解了苹果公司对机器学习的看法以及它在移动设备上的应用。CoreML框架使得将ML模型引入iOS应用程序变得非常容易。 ? 大约一年前,...

4808
来自专栏企鹅号快讯

基于自搭建BP神经网络的运动轨迹跟踪控制(二)

1 前言 朋友们~好久没见~。在上一篇基于自搭建BP神经网络的运动轨迹跟踪控制(一)中,首次给大家介绍了如何将BP神经网络模型用于运动控制,并基于matlab做...

2719

扫码关注云+社区

领取腾讯云代金券