Scikit-learn中文文档发布,Python爱好者们准备好了吗?

近日,Scikit-Learn中文文档已由开源组织ApacheCN完成校对,这对于国内机器学习用户有非常大的帮助。该中文文档依然包含了Scikit-Learn基本功能的六大部分:分类、回归、聚类、数据降维、模型选择和数据预处理,并提供了完整的使用教程与API注释。入门读者也可以借此文档与教程从实践出发进入数据科学与机器学习的领域。

中文文档地址:http://sklearn.apachecn.org

Scikit-learn是以Python的开源机器学习库和NumPy和SciPy等科学计算库为基础,支持SVM(支持向量机)、随即森林、梯度提升树、K均值聚类等学习算法。Scikit-learn目前主要由社区成员自发进行维护,且专注于构建机器学习领域内经广泛验证的成熟算法。

Scikit-Learn项目最早由数据科学家David Cournapeau在2007年发起,是Python语言中专门针对机器学习应用而发展起来的一款开源框架。Scikit-learn大部分都是由Python构建,但还是有很多核心算法是由Cython完成而实现更好的效果,例如支持向量机就是由Cython构建。

在监督学习部分,Scikit-learn提供了广义线性模型、支持向量机、最近邻算法、高斯过程、朴素贝叶斯、决策树和集成方法等算法教程,同时还介绍了特征选择、随即梯度下降算法、线性与二次判别分析等在监督学习中非常重要的概念。

除了监督学习,半监督学习中的标签传播算法和无监督学习中的聚类与降维算法都有非常多的教程。此外,在模型选择中,文档教程描述了交叉验证的使用、估计器超参数的调整、模型评估方法和模型持久化概念等。

以下选取了SVM的部分使用教程,你可以借此了解Scikit-Learn中文文档的组织形式与基本内容。

SVC、NuSVC和LinearSVC能在数据集中实现多元分类:

SVC和NuSVC是相似的方法,但是接受稍许不同的参数设置并且有不同的数学方程。另一方面,LinearSVC是另一个实现线性核函数的支持向量分类。记住LinearSVC不接受关键词kernel,因为它被假设为线性的。它也缺少一些SVC和NuSVC的成员(members)比如support_。

和其他分类器一样,SVC、NuSVC和LinearSVC将两个数组作为输入:[n_samples, n_features]大小的数组X作为训练样本,[n_samples]大小的数组y作为类别标签(字符串或者整数):

>>> from sklearn import svm
>>> X = [[0, 0], [1, 1]]
>>> y = [0, 1]
>>> clf = svm.SVC()
>>> clf.fit(X, y) 
SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
    decision_function_shape='ovr', degree=3, gamma='auto', kernel='rbf',
    max_iter=-1, probability=False, random_state=None, shrinking=True,
    tol=0.001, verbose=False)

在拟合后, 这个模型可以用来预测新的值:

>>> clf.predict([[2., 2.]])
array([1])

SVMs 决策函数取决于训练集的一些子集, 称作支持向量. 这些支持向量的部分特性可以在support_vectors_、support_和n_support找到:

>>># 获得支持向量
>>> clf.support_vectors_
array([[ 0.,  0.],
       [ 1.,  1.]])
>>># 获得支持向量的索引get indices of support vectors
>>> clf.support_
array([0, 1]...)
>>># 为每一个类别获得支持向量的数量
>>> clf.n_support_
array([1, 1]...)

以上是SVM简单的介绍,更完整的内容前查看原文档。

原文发布于微信公众号 - ATYUN订阅号(atyun_com)

原文发表时间:2018-04-09

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技大本营的专栏

程序员想搞机器学习?看看Nodejs之父这一年摸爬滚打的心路历程

本文是Nodejs之父Ryan Dahl在Google Brain做了一年深度学习后的心得体会,他在那里的目标是用机器学习将卓别林的老电影自动修改到4K画质。他...

4347
来自专栏量子位

GANs很难?这篇文章教你50行代码搞定(PyTorch)

作者:Dev Nag,Wavefront创始人、CTO,曾是Google、PayPal工程师。量子位编译。 2014年,Ian Goodfellow和他在蒙特利...

3445
来自专栏IT派

GANs很难?这篇文章教你50行代码搞定(PyTorch)

量子位编译自Medium,作者Dev Nag,数据可视化分析平台Wavefront创始人、CTO,曾是Google、PayPal工程师。

1262
来自专栏AI研习社

手把手教你从零起步构建自己的图像搜索模型

很多的产品是基于我们的感知来吸引我们的。比如在浏览服装网站上的服装,寻找 Airbnb 上的假期租房,或者领养宠物时,物品的颜值往往是我们做决定的重要因素。想要...

1273
来自专栏PPV课数据科学社区

“小数据”的统计学

一、小数据来自哪里? 科技公司的数据科学、关联性分析以及机器学习等方面的活动大多围绕着”大数据”,这些大型数据集包含文档、 用户、 文件、 查询、 歌曲、 图片...

3546
来自专栏新智元

NLP历史突破!谷歌BERT模型狂破11项纪录,全面超越人类!

谷歌AI团队新发布的BERT模型,在机器阅读理解顶级水平测试SQuAD1.1中表现出惊人的成绩:全部两个衡量指标上全面超越人类!并且还在11种不同NLP测试中创...

1564
来自专栏AI科技评论

学界 | 港中文AAAI录用论文详解:ST-GCN时空图卷积网络模型

AI 科技评论按:第 32 届 AAAI 大会(AAAI 2018)日前在美国新奥尔良进行,于当地时间 2 月 2 日至 7 日为人工智能研究者们带来一场精彩的...

5227
来自专栏李润凯的专栏

【SPA大赛】LR模型的简单使用教程

LR 是在线性回归的基础上,套用了一个逻辑函数。 而回归是一种及其简单的模型,我们一个普通的二元函数 y=f(x),就属于回归的一种。它虽然简单,但是它有一个...

7320
来自专栏机器之心

业界 | 如何达到Kaggle竞赛top 2%?这里有一篇特征探索经验帖

在数值数据上构建任意监督学习模型的一个重要方面是理解特征。查看模型的部分依赖图可帮助理解任意特征对模型输出的影响。

1043
来自专栏量子位

称霸Kaggle的十大深度学习技巧

在各种Kaggle竞赛的排行榜上,都有不少刚刚进入深度学习领域的程序员,其中大部分有一个共同点:

1631

扫码关注云+社区

领取腾讯云代金券