小白学数据 | 28张小抄表大放送:Python,R,大数据,机器学习

大数据文摘作品,转载要求见文末

作者 | Elaine,田桂英,Aileen

导读:前段时间小白学数据专栏出了一期Python小抄表,后台反应强烈(点击查看大数据文摘小白学数据系列文章《小白学数据之常用Python库“小抄表”》)。确实,数据科学越来越热,但是对于想要学好它的小白们却很头疼一个问题,需要记住的操作和公式实在是太多了!小抄表是很实用的办法,那么今天我们就为大家送出一份大杀器:28张小抄表合辑!不管你是Python或R的初学者,还是SQL或机器学习的入门者,或者准备学习Hadoop,这里都有能满足你的资料。后台回复“小抄大放送”打包下载。

目录:

1.数据科学专场: Python小抄表

2.数据科学专场:R的小抄表

3.机器学习小抄表

4.概率小抄表

5.SQL和MySQL小抄表

6.大数据小抄表

小白:上次你给我的Python小抄表真的很好用呢!特别适合我这种初学者。

答:太好了!我们收到不少读者反馈,希望推出更多小抄表的资料。我们这一期小白学数据专栏筛选了28份小抄,根据覆盖面、清晰度和内容实用性,分别涵盖了机器学习、数据科学、概率、SQL和大数据的领域。里面包括了你所需要的工具、流程、各种包和语言。

第一部分

数据科学专场:Python小抄表

小白:我们先来回顾一下之前聊过的Python。帮我们这样的小白介绍一下有什么Python方面的小抄吧?

答:入门的话有两张表必须强推:

1. Python的数据科学快速入门指南

如果你刚入门Python,那么这张小抄表非常适合你。查看这份小抄表,你将获得循序渐进学习Python的指导。它提供了Python学习的必备包和一些有用的学习技巧等资源。

2. Python基础小抄表

这张由Datacamp制作的小抄表覆盖了所有Python数据科学需要的基础知识。如果你刚开始用Python,可以留着这张做快速参考。背下这些小抄的代码变量、数据类型函数、字符串操作、类型转换、列表和常用操作。尤其是它列出了重要的Python包,给出了用于选择并导入包的小抄代码。

小白:是的,就是上面这张表让我很快掌握了基本的Python语句!我记得还有几张关于Python常用库NumPy和Panda的小抄也特别实用?

答:是的。这些常用库可以使你轻松进行探索性数据分析和各种数据整理。以下3张小抄表几乎涵盖了所有常用的语句啦!

3. Python用于NumPy的数据科学小抄表

NumPy是Python用于科学计算的核心包。这又是一个由DataCamp制作的小抄表,你会找到用于创建NumPy数组的小抄代码,用于执行数学运算,构造子集、分层、索引和数组操作。这份小抄最特别的是它给每个函数做了分类,并用简单的英语做了解释说明。

4. 在Python中做探索性数据分析

在Python中进行探索性数据分析的最佳包是NumPy, Pandas和Matplotlib。通过它们,你将学会如何在python中加载文件,转换变量,分类数据,绘图,创建样本数据集,处理缺损数据等等。这张表总结了三个库中常用的语句,这是用于探索性数据分析的最简单的小抄本之一。

5. Panda库小抄表

Pandas是非常重要的Python包之一。这张表专门介绍Pandas。如果你想要了解在Python中使用Pandas进行探索性数据分析时所涉及到的每一步操作,那么这份小抄将是你的首选。表里的代码能够用于读写数据,预览数据框,重命名数据框列,汇总数据等。

小白:我在研究用Python实现可视化,有什么小抄可以帮忙么?

答:这里有两份小抄是专为你准备的。

6. Python的数据可视化

无论是数据科学家还是非专业人士,可视化对他们来说都是最容易理解的。通过可视化图表,数据能够栩栩如生地得以展示。这份小抄就让你学会用各种姿势在Python中进行数据可视化。一步步地找到方法绘制直方图、柱状图、线图、散点图等。

7. Bokeh小抄表

Bokeh是Python的交互式可视化包,尤其是对于大型数据集极为有用。通过这个由DataCamp制作的小抄,你将学会绘图,呈现程序和可视化定制,保存并创建统计图表的基本操作。

小白:不够啊~还有别的么?

答:Scikit-Learn专用小抄和文本清洗教程喜欢么?

8. Scikit-Learn小抄表

这是为使用Python中scikit-learn模块的每种方法准备的小抄表。它给出了不同的函数,用于数据的预处理、回归、分类、聚类、降维、模型选择和指标以及它们对应的说明。这份小抄最特别的是它涵盖了机器学习的完整阶段。

9. Python文本数据清洗步骤

文本清洗是一个繁琐的过程,理解正确的步骤是取得成功的关键。参考这个小抄本在Python中逐步执行文本数据清洗。这样你就知道什么时候该删除停止符、标点、表达式等。这份小抄的特别之处在于每个步骤都给出了代码和案例。

第二部分

数据科学专场:R的小抄表

小白:好多同学都在问,有全套的R小抄么?

答:有哦,入门请看10-13号小抄,从功能说明到详细操作应有尽有,还不熟练的话照着做就对了。

10. R最全的引用卡

这份小抄代码整理了用于R的所有功能和操作。理解在R中的不同术语,它对于数据创建、数据处理、数据操作、函数建模、筛选等各方面功能都做了说明。

11. 小抄表—11步完成R的数据探索(附代码)

这份小抄表将手把手地教你学会用R进行探索性数据分析。从学习如何加载文件,到将变量转换为不同的数据类型,转置数据集,分类数据框,创建图表等。

12. R的数据导入

这份小抄将教会你学习如何通过readr, tibble和tidyr包导入数据。你可以通过tibble包使用函数对数据进行读写,还可以通过tidyr包重构数据,合并或者分离列。

13. 通过dplyr包进行数据转化

这份由RStudio提供的小抄是用dplyr包做数据转换的参考材料。里面有所有需要进行数据转换操作的短代码和运算符,以及汇总操作,分组操作,运算操作,矢量化和组合变量的函数案例。

小白:R的可视化方面的小抄表有么?

答:当然。R的数据可视化功能非常强大。14~15号小抄就是专门为可视化定制的哦。

14. R的数据可视化

之前我们看了Python的数据可视化小抄。这个是用于R的图表绘制小抄,你可以用它画出数据。通过几行代码,就可以创建漂亮的图表和数据故事。R有很棒的库,用来绘制可视化图表的基本款和升级版,比如条形图、直方图、散点图、可视化地图、组合图等。

15. 用ggplot2创建数据可视化图表

这是使用ggplot2 创建可视化图表的小抄表。ggplot2用于图形语法,它建立在一组表示数据点的视觉标志上。用小抄代码和不同技术在R中创建图形组件和各种图表。

小白:还有别的么?比如关于常用包或者数据挖掘的?

答:16号就是关于Caret 包的小抄~数据挖掘的请看17号;另外我们还有一个云计算的小抄哦。是不是赚到啦!

16. Caret 包小抄表

Caret包提供了一组函数用于简化预测模型的建立过程。里面包括了进行数据分割、预处理、特征选择、模型调优和可视化的函数。

17. R的数据挖掘引用卡片

这个小抄表提供了使用R进行文本挖掘、异常值检测、集群、分类、社交网络分析、大数据、并行计算的功能。它给了你所有需要用R进行数据挖掘的函数和运算符。

18. 快速学习R的云计算指导手册

云计算使我们能够容易的从任何地方访问我们的文件和数据。通过这份小抄表,你将了解如何使用R进行云计算。遵循这个指导你就可以在AWS上使用R进行编程了!

第三部分

机器学习小抄表

问:话说我刚开始学习机器学习算法。有哪些小抄可以用?

答:Python和R算法入门请看19号,如果已经进阶到scikit-learn的话那就一定要看看20号小抄啦。有使用微软Azure的继续下拉,21号很适合你。

19.用于机器学习算法的Python和R的小抄表

这本小抄表里有Python和R常用的机器学习算法。包括线性回归、逻辑回归、决策树、支持向量机(SVM)、朴素贝叶斯、KNN分类算法、聚类算法、随机森林算法等。

20. Scikit学习算法小抄

这份算法图是scikit-learn官方提供的。很多人都不知道如何选择特定的机器学习算法应对不同的数据类型和问题。有了这份图,你就清楚地了解完整的机器学习问题不同算法的区别。

21. 微软Azure机器学习算法小抄

这份微软官方出品的小抄表提供了一个清晰的数据路径,能够帮助你找到所需的Azure Machine Learning Studio预测算法。

第四部分

概率小抄表

小白:想不到数据科学需要那么多关于概率的知识,有什么参考可以看么?

答:碰巧我们也有关于概率的小抄哦。22号是基础版,23号是针对概率分布的进阶版。请好好享用。

22. 概率基础小抄

这份宾夕法尼亚大学总结i的小抄是针对概率与统计的全面参考。每个概念都有对应的完备图解,用精准的方式对基础概率规则到高级统计概念进行说明。建议你把它放在手边做备忘参考。

23. 概率分布的小抄表

这份小抄对于各种常用数据概率分布做了概览。每一个分布都有对应的符号、公式和简短说明。

第五部分

SQL和MySQL小抄

小白:我刚开始用SQL,连怎么导入信息都不知道,有什么可以帮我的么?

答:24号小抄就是关于SQL基础操作的啦,你想了解的都在这,请拿好。

小白:我们公司用的是MySQL, 有关于它的小抄么?

答:25号小抄是就是为你准备的,常用的指令都可以在那找到哦。

24. SQL 小抄表

这份小抄表是关于SQL基础操作的教程,包括如何导入、更新、删除、归类、排序等。如果你刚开始用SQL,这份小抄务很实用。

25. MySQL和SQL小抄表

在这份小抄里,你会找到MySQL和SQL的常用指令,比如MySQL需要的计算函数,字符串函数;SQL需要的数据修改和查询指令等。

第六部分

大数据小抄表

问:既然说了这么多语言了,我也想知道关于使用大数据数据处理语言Hadoop的一切,包括Apache Spark或者Hive这种扩展资讯,有没有办法帮我?

答:必须有!26号小抄就是Hadoop的全面介绍,另外关于如何使用Apache Spark和Hive指令的,详见27号和28号小抄哦。

26. Hadoop小抄表

Hadoop是一个巨型生态系统,里面包含了大量的操作内容。为了了解各种操作用途以及工作方式,小抄内容按照功能进行了分类,比如分散式系统、数据处理、数据的导入导出以及管理等。

27. Apache Spark 的小抄表

28. Hive的功能小抄

小白:哇噻!不知不觉已经28张小抄表了,绝对是良心大放送!

答:我们希望小白还有读者们能喜欢这篇文章啦。如果我们漏了一些小抄表或者您愿意分享自己制作的小抄表,请务必发到评论区,这样其他读者和我们都能看到。欢迎在评论区提出任何建议和反馈,告诉我们你 希望在小白学数据栏目看到的内容~

素材: https://www.analyticsvidhya.com/blog/2017/02/top-28-cheat-sheets-for-machine-learning-data-science-probability-sql-big-data/

关于转载如需转载,请在开篇显著位置注明作者和出处(转自:大数据文摘 | bigdatadigest),并在文章结尾放置大数据文摘醒目二维码。无原创标识文章请按照转载要求编辑,可直接转载,转载后请将转载链接发送给我们;有原创标识文章,请发送【文章名称-待授权公众号名称及ID】给我们申请白名单授权。未经许可的转载以及改编者,我们将依法追究其法律责任。联系邮箱:zz@bigdatadigest.cn。

原文发布于微信公众号 - 大数据文摘(BigDataDigest)

原文发表时间:2017-03-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CDA数据分析师

盘点丨2018 年热门 Python 库丨TOP20

在解决数据科学任务和挑战方面,Python继续处于领先地位。去年,我对当时热门的Python库进行了总结。今年,我在当中加入新的库,重新对2018年热门Pyth...

21220
来自专栏技术翻译

用Python从头开始构建一个简单的聊天机器人(使用NLTK)

我相信你一定听说过Duolingo:一款流行的语言学习应用。它以其创新的外语教学风格而广受欢迎,其概念很简单:一天五到十分钟的互动训练就足以学习一门语言。

1.2K10
来自专栏大数据文摘

R语言的igraph画社交关系图示例

40390
来自专栏华章科技

数据专家必知必会的7款Python工具

我咨询了我们真正的数据专家,收集整理了他们认为所有数据专家都应该会的七款 Python 工具。The Galvanize Data Science 和 Galv...

11830
来自专栏机器之心

业界 | 微软推出深度学习加速平台「Project Brainwave」:FPGA驱动实时人工智能

选自微软博客 机器之心编译 参与:路雪、黄小天、蒋思源 近日在 Hot Chips 2017 上,微软团队推出了一个新的深度学习加速平台,其代号为脑波计划(Pr...

37270
来自专栏量子位

手机输入法不好用?谷歌要用AI让你打字更快

陈桦 编译整理 量子位 报道 | 公众号 QbitAI 现在,大部分人的日常生活,都离不开手机上的虚拟键盘,而这其中的大部分人都会觉得虚拟键盘不好用。数据显示,...

38770
来自专栏数据科学与人工智能

【Python环境】首席数据专家们推荐使用的 7 款 Python 工具

如果你有志于做一个数据专家,你就应该保持一颗好奇心,总是不断探索,学习,问各种问题。在线入门教程和视频教程能帮你走出第一步,但是最好的方式就是通过熟悉各种已经在...

28050
来自专栏AI科技评论

学界 | 谷歌输入法背后的机器智能:思你所思,想你所想!

很多人每天花费大量时间使用移动设备键盘:撰写电子邮件,发短信,参与社交媒体等。 然而,移动键盘仍然在处理速度方面处于劣势。 用户平均在移动设备上的打字速度比在物...

32870
来自专栏机器学习之旅

应用:用户生命周期

用户生命周期是指用户从加入平台开始,熟悉平台,参与平台,最终流失的整个过程。用户的生命周期相对于自身而言,是一种参与度的变化,参与度也可以称之为活跃度。

18040
来自专栏数据小魔方

excel规划求解

今天要跟大家分享的是excel的规划求解的功能! excel的规划求解功能据说很强大,可以求解很多线性规划和其他最优化问题。 但是这个功能我们日常使用的频率却一...

36450

扫码关注云+社区

领取腾讯云代金券