【下载】Scikit-learn作者新书《Python机器学习导论》, 教程+代码手把手带你实践机器学习算法

【导读】哥伦比亚大学老师Andreas C. Müller同时也是著名机器学习Python包scikit-learn的主要贡献者 Andreas Muller 和 Reonomy 公司数据科学家 Sarah Guido 的新书《Python机器学习导论》(Introduction to machine learning with Python)从实战角度出发带你用Python快速上手机器学习方法。随书同时提供代码和Jupyter Notebook,可以让你动手调试改进。

请关注专知公众号(扫一扫最下面专知二维码,或者点击上方蓝色专知),

  • 后台回复“MLPY” 就可以获取Andreas Muller的Python机器学习导论 pdf下载~

▌目录


1. 简介

2. 有监督学习

3. 无监督学习和预处理

4. 数据表示和特征工程

5. 模型评估与提高

6. 算法实践流程

7. 文本数据处理

8. 实践经验总结

▌图书介绍


机器学习已经成为许多商业应用和研究项目的一个不可缺少的组成部分,但是这个领域并不是拥有大型研究团队大型公司的专属。如果您使用Python(即使是作为初学者)本书将教您如何构建自己的机器学习解决方案。如今我们可以方便地获取所有数据,而机器学习应用仅受限于您的想象力。

您将学习使用Python和scikit-learn库创建一个成功的机器学习应用程序所需的步骤。作者Andreas Muller和Sarah Guido将重点关注机器学习算法的实践方法,而不是背后繁杂的数学。对NumPy和matplotlib库的熟悉将帮助您从本书中获得更多。

有了这本书,你会学到:

  • 机器学习的基本概念和应用
  • 被广泛使用的机器学习算法的优点和缺点。
  • 如何用机器学习方法表示数据处理过程,包括数据的哪些方面要关注。
  • modeI评估和调整参数的高级方法。
  • 用于链式模型流程的概念和和如何封装你的工作流程。
  • 处理文本数据的方法,包括针对特定文本类型的处理。
  • 关于提高机器学习和数据科学技能的建议

▌图书配套Github代码


该代码库包含Andreas Mueller和Sarah Guido即将出版的书“Python机器学习导论”的代码。 您可以在O'Reilly网站上找到有关该书的详细信息。

本书主要使用scikit-learn的开发版本,即0.18-dev。 本书的大部分内容也可以同样用于scikit-learn的早期版本,但是您需要调整model_selection模块的所有内容(主要是cross_val_score,train_test_split和GridSearchCV)

该代码库提供了书中的jupyter notebook代码,以及用于创建图形和数据集的helper函数的mglearn库。

回应好奇者,本书封面图片是一个(北美)大鲵鱼。

除了aclImdb数据集之外,所有数据集都包含在代码库中,您可以从Andrew Maas的页面下载该数据(http://ai.stanford.edu/~amaas/data/sentiment/)。 详细信息请参阅本书。

如果你遇到ImportError:No module named mglearn,你可以尝试在你的终端上使用命令pip install mglearn来安装mglearn到你的python环境中,或者在Jupyter Notebook中!pip install mglearn。

勘误

请注意,在列出导入python包时,本书的第一个版本缺少以下行:

from IPython.display import display

如果您看到涉及显示的错误,请添加此行。

本书的第一个版本使用了一个名为plot_group_kfold的函数。 由于在scikit-learn中被重命名了,这已经重命名为plot_label_kfold。

代码使用方法

运行代码,你需要用到如下包: numpy, scipy, scikit-learn, matplotlib, pandas ,pillow。 一些决策树和神经网络结构的可视化也需要graphviz。

设置环境的最简单方法是安装Anaconda。

使用conda安装软件包:

如果您已经设置了Python环境,并且正在使用conda软件包管理器,则可以通过运行下面的代码来获取所有软件包:

conda install numpy scipy scikit-learn matplotlib pandas pillow graphviz 
python-graphviz 
使用pip安装软件包:

如果您已经设置了Python环境,并且正在使用pip安装包,则可以通过运行下面的代码:

pip install numpy scipy scikit-learn matplotlib pandas pillow graphviz

您还需要安装graphiz C库,这是使用包管理器最简单的方法。 如果您使用的是OS X和或制软件,则可以安装graphviz。 如果你在Ubuntu或Debian上,你可以通过apt-get install graphviz安装。 在Windows上安装graphviz可能会非常棘手,建议使用conda / anaconda。

提交勘误

如果您发现电子书的错误,请通过O'Reilly网站提交。 你可以在这里提交固定的代码作为pull-requests,如果你也在这里提交它们,我会很感激的,因为这个版本库并不包含“master notebooks”。

参考链接:

https://github.com/amueller/introduction_to_ml_with_python

▌详细目录


▌第一部分 简介


▌第二部分 有监督学习


▌第三部分 无监督学习和预处理


▌第四部分 数据表示和特征工程


▌第五部分 模型评估与提高


▌第六部分 算法实践流程


▌第七部分 文本数据处理


▌第八部分 实践经验总结


原文发布于微信公众号 - 专知(Quan_Zhuanzhi)

原文发表时间:2017-12-05

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据挖掘DT机器学习

京东JData算法大赛-高潜用户购买意向预测(github源码)

github地址: 在公众号 datadw 里 回复 京东 即可获取。 这是一位热心的参赛者提供的一份入门程序,涵盖了数据清洗、数据(统计)分析、特征抽取、...

85950
来自专栏Albert陈凯

OLAP(On-Line Analysis Processing)在线分析处理引擎

OLAP(On-Line Analysis Processing)在线分析处理是一种共享多维信息的快速分析技术;OLAP利用多维数据库技术使用户从不同角度观察数...

38770
来自专栏Albert陈凯

大数据领域的性能测试Benchmark介绍

一、Benchmark简介 Benchmark是一个评价方式,在整个计算机领域有着长期的应用。正如维基百科上的解释“As computer architect...

66830
来自专栏大数据文摘

数学烂也要学AI | 带你造一个经济试用版AI终极必杀器

38390
来自专栏吉浦迅科技

假如用多个CPU核同时控制一个GPU,并且进行运算与数据的传递,请问这能够实现么?...

问:假如用多个CPU核同时控制一个GPU,并且进行运算与数据的传递,请问这能够实现么?我的工作站是48个CPU核,两块GPU卡,打算把CPU和GPU都用起来,我...

38770
来自专栏大数据和云计算技术

智能调度:Stanford的Quasar

智能、自动化是对系统孜孜不倦的追求,尤其是在资源调度这块。传统的YARN/MESOS有各种资源分配算法,如DRF,capacity scheduler,fair...

37650
来自专栏快乐八哥

数据可视化-EChart2.0.0使用中遇到的2个问题

之前项目中都是使用FusionChart和HighChart,基本都是没有购买商业许可。然后现在开发的系统需要交付给客户使用。所以现在图表控件不能直接使用Fus...

31820
来自专栏AI黑科技工具箱

0.伏笔:图像读取方式以及效率对比

入职了之后挺忙,已经好久没有做一些科普性的更新了。近期已做了些学术要求不高的工作,所以刚好有时间写写总结。

701110
来自专栏AI研习社

2017 十大最受欢的迎机器学习 Python 库

2017 年即将结束,又到了做年终总结的时候,本文盘点了今年最受欢迎的十个 Python 机器学习库,同时在文末选出了一些值得关注的 Python 库。如果本文...

32360
来自专栏企鹅号快讯

python-pcl以及相关资料分享

PCL(Point Cloud Library)是在吸收了前人点云相关研究基础上建立起来的大型跨平台开源C++编程库,它实现了大量点云相关的通用算法和高效数据结...

77850

扫码关注云+社区

领取腾讯云代金券