首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【学习】50+数据科学与机器学习速查表

【学习】50+数据科学与机器学习速查表

作者头像
小莹莹
发布2018-04-20 18:08:15
9500
发布2018-04-20 18:08:15
举报
关于Python、R和Numpy、Scipy以及Pandas的速查表

有了这些和R语言、python、Django、MySQL、SQL、Hadoop、Apache Spark以及机器学习算法相关的速查表,会让你对数据科学和数据挖掘的概念及相关命令得心应手,并加快开发速度。

在数据科学界,有着成千上万的软件包和成百上千的函数!一个激情澎拜的数据爱好者没有必要掌握所有的。这里会包含大多数重要的软件包和函数,能够让你在紧凑的几页中集思广益并吸收知识。

精通数据科学需要掌握统计学、数学、编程知识,特别是R语言、Python语言以及SQL,然后有效的组合使用这些知识,利用商业理解能力和人类的本能(做出决策的能力)去领悟。

下面是分类好的速查表

Python速查表

Python语言是初学者比较受欢迎的选择,但它仍然强大的足以支撑世界上大多数受欢迎的产品和应用。它的设计风格使得你在编程的过程中就像英语写作一样自然。对于初学者,Python的基本技术速查表或调试器速查表覆盖了入门的重要语法。社区提供的Python库如Numpy、Scipy、Sci-kit以及Pandas都是高度依赖的,而且下面的NumPy、SciPy 和Pandas速查表给你提供了一种快速复习的方式。

· Python2.7 Quick Reference Sheet

· PythonCheat Sheet by DaveChild

· PythonBasics Reference sheet

· Python Debugger Cheatsheet

· NumPy/ SciPy / Pandas Cheat Sheet

· Python OverAPI cheatsheet

· Python Decorators cheatsheet

· Python2.4 Quick Reference Card

· Python3 Cheat Sheet

· PythonLanguage & Syntax Cheat Sheet

R语言

速查表

R语言生态系统已经扩展了很多,大多数相关扩展都是必需的。R语言参考卡片在仅有的几页中覆盖了R语言的大部分知识。RStudio也提供了一系列的速查表使得R社区变得更加便利。用ggplot2来做数据可视化似乎是最受欢迎的,因为它可以帮助你将你的实验结果绘制成结果图。

· Rcheat sheet (Google Drive)

· Rfunctions for Regression Analysis

· R Reference Card

· Rfunctions for Time series Analysis

· RReference Card for Data Mining

· RCheat Sheet

· DataAnalysis the data.table way

· Interactive Web Apps cheatsheetby R studio

· DataVisualisation with ggplot2 cheatsheet by R studio

· PackageDevelopment with devtools cheatsheet by R studio

· DataWrangling cheatsheet

· Rmarkdown cheatsheet

· RMarkdown Reference guide

· RData Management cheatsheet

· RCheatsheet for graphical parameters

MySQL&SQL

速查表

对于一个数据科学家,基本的SQL语言与任何其它语言一样重要。无论是PIG语言还是Hive查询语言都与SQL语言(最初的结构查询语言)密切相关。在SQL速查表中,提供了一个5分钟快速学习指南,学习这个之后你就可以去探索Hive和MySQL了!

· MySQL Cheatsheet by Dave child

· SQL Cheat sheet

· SQLin one page

· MySQLReference guide

· VisualSQL Joins

· SQLfor dummies

Spark

速查表

Apache Spark是大规模数据处理引擎。对于特定的应用,如迭代式的机器学习,Spark可以在速度上比Hadoop(使用MapRedue)高出100倍。Apache Spark速查表解释了它在大数据领域所处的地位,通过安装和开发一个基本的Spark应用,能够向你解释一些常用的动作和操作。

· https://dzone.com/refcardz/apache-spark

· Sparkcore cheat sheet v.1

· Scala cheatsheets 1

· Scalacheatsheets 2

· Scala from DZone Reference Card

· Sparkcheatsheet on github

· Scalaon Spark Cheatsheet

· Essential Apache Spark cheatsheetby MapR

Hadoop & Hive

速查表

Hadoop作为一个非传统的工具出现,通过给海量数据的并行处理提供一个开源软件框架,解决了一些认为是不可能被解决的事情。当在命令行上使用Hadoop时,你可以浏览Hadoop速查表来找出有用的命令。而SQL和Hive功能的合并则是另一个突破口。

· Hadoopfor Dummies cheatsheet

· Getting Started Apache HadoopReference Card

· HadoopCommand Line cheatsheet

· Working with HDFS from thecommand line - Hadoop Cheat sheet

· HiveFunction cheatsheet

· SQLto Hive cheatsheet

机器学习速查表

我们发现我们经常花时间去思考,到底哪个算法更好呢?然后回到我们厚重的书本中寻找相关知识!可幸的是,这些速查表对关于你收集的数据的性质和正在解决的问题提供了一些思路和看法,并且建议你应该尝试哪些算法。

· Choosingthe right estimator Machine Learning cheatsheet

· Patterns for Predictive learningcheatsheet

· Machinelearning algorithm cheat sheet for Microsoft Azure

· MachineLearning cheatsheet Github 1

· Machine Learning cheatsheetGithub 2

· MachineLearning which algorithm performs best?

· Cheatsheet 10 machine learning algorithms R commands

· Patterns for Predictive Analytics

Django速查表

Django是用Python语言编写的一个免费开源的web应用框架。如果你对Django感到陌生,你可以浏览一下这些速查表,头脑风暴式的学习并在每一个知识点上达到更深层次的水平。

· Djangocheat sheet v.1

· Djangocheatsheet 1

· Djangocheatsheet 2

· Djangocheatsheet 3

· Djangocheatsheet 4

· DjangoReference Cheatsheet

· Django Quick start guide &Cheatsheet

· FlaskCheatsheet

原文链接:

http://www.kdnuggets.com/2015/07/good-data-science-machine-learning-cheat-sheets.html

1、回复“数据分析师”查看数据分析师系列文章

2、回复“案例”查看大数据案例系列文章

3、回复“征信”查看相关征信的系列文章

4、回复“可视化”查看可视化专题系列文章

5、回复“SPPS”查看SPSS系列文章

6、回复“答案”查看hadoop面试题题目及答案

7、回复“爱情”查看大数据与爱情的故事

8、回复“笑话”查看大数据系列笑话

9、回复“大数据1、大数据2、大数据3、大数据4”查看大数据历史机遇连载

PPV课大数据ID: ppvke123 (长按可复制)

大数据人才的摇篮!专注大数据行业人才的培养。每日一课,大数据(EXCEL、SAS、SPSS、Hadoop、CDA)视频课程。大数据资讯,每日分享!数据咖—PPV课数据爱好者俱乐部!

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2015-09-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 PPV课数据科学社区 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
云数据库 MySQL
腾讯云数据库 MySQL(TencentDB for MySQL)为用户提供安全可靠,性能卓越、易于维护的企业级云数据库服务。其具备6大企业级特性,包括企业级定制内核、企业级高可用、企业级高可靠、企业级安全、企业级扩展以及企业级智能运维。通过使用腾讯云数据库 MySQL,可实现分钟级别的数据库部署、弹性扩展以及全自动化的运维管理,不仅经济实惠,而且稳定可靠,易于运维。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档