机器学习/深度学习代码速查:6大工具库 &27种神经网络图览

Kailash Ahirwar,Mate Lab 联合创始人,Github的一位资深作者,也是一位活雷锋,近日在其Github个人主页上发表了一个机器学习/深度学习的代码速查表,包括:

  • Keras
  • Numpy
  • Scipy
  • Pandas
  • Scikit-learn
  • Matplotlib

五大工具库常用代码,以及

  • Neural Networks Zoo——27种神经网络图概览。

可以说极大方便了学习者的代码查找。

附上网址:https://github.com/kailashahirwar/cheatsheets-ai,在网页上可以下载高清大图。

我们来简单介绍下

1. Scikit-learn

Scikit-learn 是 Python 上著名的机器学习工具库,可以快速实现数据预处理、交叉验证、数据可视化和各种机器学习算法。这个库真的太酷了,曾经帮数说君省了很多时间,如果再有这个速查代码,连找资料的时间也省了。

本速查表提供了loading数据、快速建模、预测、模型评价、数据预处理等代码格式,直接套用即可。我就以Scikit-learn为例,详细介绍一下该速查表包括哪些常用代码块。

(1)简单实例

表开头作者先提供了一个简单的例子,熟悉一下整个建模的代码形态:

(2)Loading the data

要想使用Scikit-learn库来建模,数据要load成可接受的数值型形式,如 NumPy 数组形式、 SciPy 的稀疏矩阵、或者是 Pandas DataFrame。速查代码:

(3)将数据分割成训练集和测试集

用train_test_split来划分,我这里补一点,可以加语句train_size=0.5来指定训练数据集的占比,比如:train_test_split (x, y, random_state=0, train_size=0.5)。速查代码:

(4)数据预处理

我们在建模的时候,有时候会做一些数据预处理,比如标准化(Standardization)、正态化(Normalization)、缺失值填充(Imputing Missing Value)等等,这一步大家经常会忽略,但其实还是很重要的。速查代码:

(5)建模

本速查表提供了Linear Regression、SVM、Naive Bayes、KNN、PCA、K Means几种的简易代码,可以快速上手使用:

(6)模型拟合

Scikit-learn 的建模特点是,先创建一个模型,设置好参数,比如my_svc:

  • my_svc = SVC(kernel='linear')

在用这个创建的my_svc来拟合数据:

  • my_svc.fit(x_train, y_train)

速查代码:

(7)预测

模型之后用测试数据集进行预测。速查代码:

(8)模型评价

模型表现到底怎么样?速查表按分类、回归、聚类不同的模型类型,提供了不同的评价方法:

2、Keras

Keras是一个高层神经网络API,由纯Python编写而成并基Tensorflow或Theano。速查表如下:

3、Numpy

Numpy不用多说了,是Python科学计算的核心库。它提供高性能、多维度的数组对象,以及对这些数组进行运算的工具。速查代码:

4、Pandas

Pandas更不用多说,作者提供了三张速查表,其中2张是关于数据的基本操作,如sample、head、sort等:

这张是关于数据分析、统计:

5、SciPy

SciPy也是Python科学计算的核心库,提供了一些方便计算的函数,速查代码:

6、Matplotlib

Matplotlib是Python著名的绘图库,速查代码:

7、Neural Networks Zoo

作者提供了几乎所有类型的神经网络图:

原文链接 & 高清大图下载:https://github.com/kailashahirwar/cheatsheets-ai

- END -

原文发布于微信公众号 - 数说工作室(shushuojun)

原文发表时间:2017-06-05

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Vamei实验室

绘图: matplotlib核心剖析

matplotlib是基于Python语言的开源项目,旨在为Python提供一个数据绘图包。我将在这篇文章中介绍matplotlib API的核心对象,并介绍如...

2317
来自专栏AI派

【Github 5K星】BAT头条滴滴小米等笔试面经+深度学习/算法/NLP资源汇总!

最近,在GitHub上有位id为imhuay的热心人带头建立了一个关于国内知名互联网企业笔试和面试经验的资源库,光从名称上就能看出其内容有多丰富:《2018/2...

1221
来自专栏磐创AI技术团队的专栏

【Github 4K星】BAT头条滴滴小米等笔试面经+深度学习/算法/NLP资源汇总!

最近,在GitHub上有位id为imhuay的热心人带头建立了一个关于国内知名互联网企业笔试和面试经验的资源库,光从名称上就能看出其内容有多丰富:《2018/2...

2353
来自专栏机器之心

EMNLP 2018 | 结合通用和专用NMT的优势,CMU为NMT引入「语境参数生成器」

神经机器翻译(NMT)无需单独训练或调整系统的任何部分就可以直接建模源语言到目标语言的映射。这使得 NMT 快速发展,并在许多大规模环境中成功应用 (Wu et...

1381
来自专栏生信技能树

比较不同的对单细胞转录组数据聚类的方法

背景介绍 聚类之前必须要对表达矩阵进行normalization,而且要去除一些批次效应等外部因素。通过对表达矩阵的聚类,可以把细胞群体分成不同的状态,解释为什...

88112
来自专栏逍遥剑客的游戏开发

快速LightMap烘焙

1093
来自专栏js编程在工科课程中的简单应用

4.1 数值积分、高等函数绘制

is defined informally as the signed area of the region in the xy-plane that is ...

920
来自专栏潇涧技术专栏

Numerical Methods using Matlab

内容包括:基本幂法,逆幂法和移位幂法,QR分解,Householder变换,实用QR分解技术,奇异值分解SVD

1072
来自专栏牛客网

腾讯应用研究一面 武汉

腾讯应用研究武汉现场一面 一共20分钟。 (比我内推的三轮面试都缺少一点技术含量,内推面试会问我项目,跟我有交流或者提建议,这次就感觉随便找点东西问问,然后最后...

51116
来自专栏深度学习之tensorflow实战篇

推荐算法图推荐-基于随机游走的personalrank算法实现

推荐算法图推荐 基于图的模型(graph-based model)是推荐系统中的重要内容。其实,很多研究人员把基于邻域的模型也称为基于图的模型,因为可以把基于邻...

1.9K9

扫码关注云+社区

领取腾讯云代金券